Sunteți pe pagina 1din 130

Estadstica

Guiones para las clases teoricas


Ana Colubi
Gil Gonzalez Rodrguez
22 de enero de 2014

Indice general
Contenidos I
I Estadstica descriptiva 1
1 Variables estadsticas 3
1.1 Introduccion y conceptos basicos . . . . . . . . . . . . . . . . . . . . . 3
1.2 Tipos de variables estadsticas . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Analisis graco 9
2.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Analisis exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Representaciones gracas . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Medidas de tendencia central 15
3.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Medidas de dispersion 21
4.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Medidas de dispersion absolutas . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Medidas de dispersion relativa . . . . . . . . . . . . . . . . . . . . . . . 22
4.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
i

INDICE GENERAL
5 Medidas de posicion 25
5.1 Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Posicion absoluta y relativa . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6 Otras medidas descriptivas usuales 31
6.1 Medidas robustas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.2 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
II Calculo de probabilidades 39
7 Fundamentos de probabilidad 41
7.1 Conceptos basicos referidos a poblaciones . . . . . . . . . . . . . . . . . 41
7.2 Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . 42
7.3 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.5 Formulas de las probabilidades totales y de Bayes . . . . . . . . . . . . 43
7.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
8 Variables aleatorias 47
8.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.2 Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . 48
8.3 Medidas poblacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.4 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . 49
8.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
9 Distribucion normal. Teorema Central del Lmite 53
9.1 Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.2 Manejo de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.3 Tipicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
9.4 Reproductividad de la normal . . . . . . . . . . . . . . . . . . . . . . . 56
9.5 Teorema Central del Lmite . . . . . . . . . . . . . . . . . . . . . . . . 56
9.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
10 Distribuciones discretas notables 59
ii

INDICE GENERAL
10.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
10.2 Distribucion de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . 60
10.3 Distribucion binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
10.4 Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
10.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11 Otras distribuciones continuas notables 65
11.1 Distribucion uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
11.2 Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . 66
11.3 Distribucion gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
11.4 Relacion entre algunas distribuciones . . . . . . . . . . . . . . . . . . . 67
11.5 Distribucion de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
11.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
III Inferencia estadstica 73
12 Introduccion a la inferencia 75
12.1 Aproximacion de distribuciones . . . . . . . . . . . . . . . . . . . . . . 76
12.2 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . . . 76
12.3 El Teorema Central del Lmite en Inferencia . . . . . . . . . . . . . . . 77
12.4 Tipos de problemas en inferencia . . . . . . . . . . . . . . . . . . . . . 77
12.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
13 Estimacion puntual y por intervalo 79
13.1 Estimacion puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
13.2 Estimacion por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . 80
13.2.1 Precision y abilidad de los intervalos de conanza . . . . . . . 83
13.2.2 Error de muestreo: tama nos muestrales . . . . . . . . . . . . . . 84
13.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
14 Contrastes de hipotesis parametricas 87
14.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
14.2 Metodo de contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . 89
14.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
15 Dependencia y regresion 95
iii

INDICE GENERAL
15.1 Tablas de contingencia e independencia . . . . . . . . . . . . . . . . . . 95
15.2 Regresion simple descriptiva . . . . . . . . . . . . . . . . . . . . . . . . 96
15.3 Inferencias sobre la regresion lineal simple . . . . . . . . . . . . . . . . 97
15.4 Regresion y correlacion curvilnea . . . . . . . . . . . . . . . . . . . . . 99
15.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
IV Material adicional 107
Ejemplo de ejericios de Examen 109
Tabla de la distribucion t de Student 121
Tabla de la N(0; 1) 122
Bibliografa 123
iv
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Modulo I
Estadstica descriptiva
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 1
Variables estadsticas
Contenido
1.1 Introduccion y conceptos basicos . . . . . . . . . . . . . . . . . . . 3
1.2 Tipos de variables estadsticas . . . . . . . . . . . . . . . . . . . . 4
1.3 Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . 5
1.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Objetivos especcos
Familiarizarse con los conceptos basicos de la Estadstica.
Comprender el esquema general del proceso estadstico y su nalidad.
Reconocer la importancia de organizar y presentar la informacion experimental
correctamente teniendo en cuenta su naturaleza.
1.1. Introduccion y conceptos basicos
Experimento aleatorio: aquellos experimentos cuyos resultados no se pueden pre-
decir de antemano.
Estadstica: ciencia que se ocupa de los experimentos aleatorios.
objetivo nal: obtener conclusiones acerca de un experimento aleatorio cuando
se conoce el resultado de ese experimento en una serie de realizaciones.
3
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Variables estad

sticas
Poblacion: conjunto de elementos sobre el que se quiere extraer las conclusiones.
Variable (estadstica): caracterstica de interes que se pretende observar sobre los
elementos de la poblacion.
Individuo: cada uno de los elementos de la poblacion.
Muestra: subconjunto de la poblacion sobre el que realmente se observa la variable
y que se utiliza para sacar las conclusiones estadsticas.
Pasos fundamentales del analisis estadstico:
1. Seleccion de la muestra y medicion de la variable estadstica en ella (Teora de
Muestras y Dise no de Experimentos).
2. Organizacion, ltrado, descripcion y resumen de los datos de la muestra (Estadstica
descriptiva).
Si la muestra coincide con toda la poblacion, entonces recibe el nombre de censo
y con este paso ya se alcanzara el objetivo nal de la Estadstica. Si no es as,
se pasara al Paso 3 con ayuda del Calculo de probabilidades.
3. Extraccion de conclusiones acerca de la poblacion (Inferencia estadstica).
1.2. Tipos de variables estadsticas
1. Clasicacion en funcion de la naturaleza de los valores:
Escala nominal: sus valores son nombres que no admiten ning un orden real.
Escala ordinal: sus valores no son n umeros, pero se pueden ordenar.
Escala cardinal: sus valores son n umeros.
Escala cardinal de razon: el valor 0 tiene un sentido real de nulidad.
Se pueden comparar los datos de 2 individuos tanto por la diferencia
como por el cociente.
Escala cardinal de intervalo: el valor 0 es un punto arbitrario.
No se puede comparar por el cociente, solo se puede hacer por la
diferencia.
4
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuciones de frecuencias
La diferencia depende de la magnitud que se esta midiendo (euros, grados,
etc.): medida absoluta.
El cociente no depende de las unidades, ya que indica la variacion en tanto
por uno: medida relativa.
2. Clasicacion atendiendo a la continuidad del rango de valores:
Variables discretas: toman valores aislados; no pueden tomar ning un valor
entre dos posibles.
Variables continuas: cualquier valor entre dos posibles es valido (aumentando
la precision si es necesario).
Distincion en la practica:
Variables discretas: toman pocos valores distintos (modalidades), aunque
se repitan mucho
Variables continuas: toman muchos valores distintos y practicamente no
se repiten.
Problema propuesto: Problema 1.1.
1.3. Distribuciones de frecuencias
Tablas de frecuencias: tabla con los distintos valores que aparecen en la muestra y
algunas columnas relacionadas con el n umero de veces que se repite cada valor.
Objetivo: representar toda la informacion muestral de forma compacta y or-
denada.
Tama no muestral N: n umero de individuos de la muestra.
Modalidades x
i
: valores distintos de la variable ordenados (si es posible).
El n umero de modalidades se denota por k.
Frecuencia absoluta n
i
: n umero de veces que aparece cada valor x
i
.
Frecuencia absoluta acumulada N
i
: n umero de individuos de la muestra con valor
menor o igual a x
i
. Se calcula sumando las frecuencias absolutas hasta i.
5
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Variables estad

sticas
Frecuencia relativa f
i
: proporcion de individuos de la muestra con valor x
i
(f
i
=
n
i
/N).
Frecuencia relativa acumulada F
i
: proporcion de individuos de la muestra con
valor menor o igual a x
i
. Se puede calcular sumando las frecuencias relativas
hasta i, o bien como N
i
/N.
Si la variable es nominal, no tiene sentido calcular las frecuencias acumuladas,
porque no se puede hablar de un valor menor o igual que otro.
Problemas propuestos: Problemas 1.2, 1.3 y 1.4.
6
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
1.4. Problemas
1.1 Indica en cada uno de los siguientes casos el experimento, la poblacion, la variable,
el tipo de variable (discreta o continua) y la escala en la que esta medida.
a) Consumo de electricidad de los frigorcos industriales durante 2008.
b) Tipo de vegetacion mayoritaria en distintas parcelas.
c)

Indice de riesgo de incendios en Asturias cada da.
d) Presencia/ausencia de uor en varias muestras de agua.
e) Produccion de madera en distintas provincias.
f ) Accion del Ibex-35 que mas sube cada da.
g) N umero de incendios por concejo en Asturias en el a no 2008.
h) Grado de contaminacion en distintas ciudades (bajo, medio, alto).
1.2 En un muestreo se anoto el n umero de vastagos vivos de 48 cepas de cierto arbusto
en fase de estabilizacion. Los resultados fueron: 1, 4, 1, 0, 2, 1, 1, 3, 2, 1, 1, 0, 3,
2, 4, 3, 4, 1, 2, 1, 1, 2, 2, 2, 1, 3, 3, 3, 1, 4, 4, 0, 2, 1, 4, 0, 3, 1, 3, 3, 4, 2, 2, 1, 0,
1, 2, 4. Representa tabularmente esos datos.
1.3 La edad de 15 robles elegidos al azar en cierta parcela es de 25, 22, 23, 24, 23,
25, 23, 23, 22, 25, 24, 26, 22, 25 y 23. Representa tabularmente e interpreta las
distintas distribuciones de frecuencias asociadas a esos datos.
1.4 Seg un las Estadsticas Ociales Argentinas relacionadas con la Extraccion de
Productos Forestales durante cierto a no se dedicaron a le na 1349287 toneladas,
a postes 99019 t, a durmientes 10337 t, a carbon 346209 t, a rollizos 1221629 t
y a otros productos 28524 t. Representa tabularmente e interpreta las distintas
distribuciones de frecuencias asociadas a esos datos.
7
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 2
Analisis graco
Contenido
2.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Analisis exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Representaciones gracas . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Objetivos especcos
Comprender la valiosa aportacion de los gracos en Estadstica como elemento
de apoyo tecnico y visual.
Entender el problema de la existencia de datos atpicos y familiarizarse con las
tecnicas para localizarlos y poder tratarlos posteriormente.
Comenzar a visualizar las formas en las que se suelen distribuir los datos y
adquirir el lenguaje necesario que permite describir las muestras verbalmente
a partir de los resultados tecnicos.
2.1. Introduccion
Gracos: diagramas para representar la informacion muestral de forma clara y e-
ciente. Sirven para
9
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
An

alisis gr

afico
explorar la distribucion desde un punto de vista tecnico (detectar valores ex-
tra nos, facilitar la eleccion de medidas resumen, etc.)
transmitir visualmente la informacion de las tablas de frecuencias de forma
mas atractiva y sencilla.
2.2. Analisis exploratorio
Objetivo: detectar datos atpicos y obtener una primera idea de la forma de la
distribucion.
Si se detecta un error claro, se debe subsanar.
Si se detecta un dato atpico, se debe tener en cuenta para determinar las
medidas resumen mas adecuadas.
1. Variables con pocas modalidades: tabla de frecuencias o diagrama de barras.
Diagrama de barras: se representan las modalidades de la variable en el eje de
las equis (abscisas) y sobre cada modalidad se levanta una barra de altura
proporcional a la frecuencia. Las barras estan separadas, para indicar que
se representan datos aislados.
Es para variables cardinales, ya que la escala en el eje de las equis debera
representar la de la variable. Sin embargo, la mayor parte de los programas
estadsticos no consideran la escala. Con nes exploratorios se utiliza para
cualquier distribucion con pocas modalidades.
Problema propuesto: Apartados a) y b) del Problema 2.1.
2. Variables con muchas modalidades: graco de cajas.
Graco de cajas: es util para visualizar los datos atpicos (si los hay), el
rango de valores, el centro de la distribucion y la dispersion de los valores
moderados entorno a ese centro.
La escala de datos se encuentra a la izquierda, en vertical.
Se marcan con un crculo () los valores extremos. Algunos programas
marcan con un asterisco () los valores muy extremos. El valor lmite para
considerar datos como extremos se determina por criterios estadsticos.
10
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Representaciones gr

aficas
Se representa una caja de la que parten un segmento superior y otro
inferior.
Si no hay datos extremos, los segmentos marcan los valores maximo y
mnimo respectivamente. En caso contrario marcan el el valor mas alto (o
mas bajo) de entre los que no son extremos.
El borde inferior de la caja marca el valor que deja el 25 % de los datos
muestrales por debajo. El borde superior, el valor que deja el 25 % de los
datos muestrales por encima. En la caja estan aproximadamente el 50 %
de los valores centrales.
Dentro de la caja aparece una raya negra que indica el valor que deja
aproximadamente el 50 % de los datos muestrales por debajo y el otro
50 % por encima.
Si la caja es estrecha (en vertical), los datos centrales estan muy juntos
(poco dispersos). Si es ancha, estan separados (dispersos).
A veces es util cruzar la informacion de dos o mas variables que deberan
guardar cierta relacion, como por ejemplo la altura y el diametro del tronco
de un arbol, para vericar si hay alg un dato que se salga de lo com un en esa
relacion.
Tambien es interesante hacer gracos de cajas por factores. De esta forma
se pueden resaltar comportamientos anomalos que quedan ocultos al manejar
la informacion general (por ejemplo, un dato de un arbol plantado en 1997
comparado con todos quizas no sea anomalo, pero si se compara solo con los
arboles plantados en 1997, s lo sea).
Problemas propuestos: Apartados c) y d) del Problema 2.1 y Apartado a) de
los Problemas 2.2 y 2.3.
2.3. Representaciones gracas
Seg un el tipo de variable que se necesite representar, se puede elegir entre los
siguientes gracos:
11
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
An

alisis gr

afico
Graco de sectores: es un crculo dividido en tantos sectores como modalidades
tenga la variable. El area de cada sector es proporcional a la frecuencia de la
modalidad que representa.
Es tradicionalmente el graco mas empleado para representar variables nomi-
nales, porque sobre un crculo no se considera ning un orden natural.
Se utiliza a veces para variables ordinales o cardinales con pocos valores.
La representacion de frecuencias mediante areas hace complicado comparar las
frecuencias visualmente.
Diagrama de barras: descrito en la Seccion 2.2.
Esta pensado para representar variables ordinales o cardinales discretas.
En la practica, se utiliza con variables con pocas modalidades.
Se puede emplear con variables nominales, empleando el orden dado por las
frecuencias.
Histograma: sobre unos ejes de coordenadas se representa la variable escalada en el
eje de las equis. Los datos se agrupan en clases y sobre cada clase se levanta una
barra de area proporcional a su frecuencia (absoluta o relativa). Las barras del
histograma estan juntas, lo que reeja el hecho de que los datos no estan aislados,
si no que forman un continuo.
Los programas estadsticos suelen realizar automaticamente la agrupacion en
clases, pero habitualmente se puede cambiar el n umero de clases para apreciar
mejor la distribucion.
Es recomendable hacer pruebas hasta conseguir una agrupacion informativa y
facil de interpretar. Un n umero grande de intervalos diculta la interpretacion,
mientras que un n umero muy bajo supone una perdida de informacion. Hay
que buscar un n umero moderado.
Cuando sea posible, conviene superponer una estimacion no parametrica tipo
kernel de la densidad.
Se utiliza para representar variables continuas.
Problemas propuestos: Apartados del e) al g) del Problema 2.1, Apartados b)
y c) del Problema 2.2 y Apartado b) del Problema 2.3.
12
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
2.4. Problemas
2.1 En la siguiente tabla se muestran algunos datos de un muestreo forestal llevado
a cabo en diferentes parcelas de un bosque asturiano reforestado recientemente.
Especie q sa b sa b q q q f b q q
Altura 499 38 11 24 190 160 120 200 310 220 190 195
Diametro 0,52 0,67 0,1 1,06 1,09 1,01 0,69 1,1 1,86 1,95 1,18 0,71
Calidad 1 2 1 1 2 3 2 3 3,5 4 3 4
Especie q b q b b b b b q q sa q
Altura 185 210 200 185 170 150 170 165 115 185 95 195
Diametro 1,09 1,12 0,93 0,88 0,9 1,18 1,13 1,28 0,81 0,94 0,64 1,14
Calidad 3 5 2 3 4 4 4 5 2 3 2 3
Especie sa b sa b b b b b b b b q
Altura 27 205 100 235 240 270 131 130 170 175 200 130
Diametro 0,33 1,31 0,79 1,35 1,93 2,43 0,93 0,89 1,2 1,2 1,23 0,96
Calidad 1 4 3 4 4 5 2 2 3 3 4 3
Especie b q b q b b q q b b b q
Altura 150 110 75 180 195 180 180 185 235 300 200 20,5
Diametro 1 0,93 0,44 1,13 1,19 0,97 1,29 1,19 2,36 2,57 1,4 1,87
Calidad 4 3 1 3 4 3 3 2 5 5 3 4
donde q = Quercus petraea, b = Betula celtiberica, sa = Sorbus aucuparia, f =
Fagus sylvatica, los valores numericos para las calidades representan la escala
de 1 = muy mala a 5 = muy buena y la altura y diametro estan medidos en
centmetros.
a) Realiza un analisis exploratorio de la calidad.
b) Explora la especie en busca de posibles errores.
c) Realiza un analisis exploratorio de la altura.
d) Crees que hay alg un dato anomalo en la muestra? Describe a grandes rasgos
las distribuciones.
e) Representa gracamente la distribucion de especies.
f ) Representa gracamente la distribucion de alturas.
g) Representa gracamente la distribucion de diametros.
2.2 Un peque no fabricante dispone de 2 maquinas A y B que producen tubos de
cobre. En una prueba se seleccionaron al azar 20 piezas y se anoto su seccion y
13
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
An

alisis gr

afico
procedencia (maquina A o B). Los datos fueron: 20,47 mm y maquina A, 23,53
mm y maquina A, 19,93 mm y maquina B, 25,43 mm y maquina A, 21,10 mm y
maquina B, 19,88 mm y maquina B, 22,05 mm y maquina A, 19,49 mm y maquina
B, 20,64 mm y maquina A, 26,34 mm y maquina A, 19,86 mm y maquina B, 22,64
mm y maquina A, 23,68 mm y maquina A, 19,55 mm y maquina A, 19,29 mm
y maquina B, 20,08 mm y maquina A, 20,48 mm y maquina A, 19,45 mm y
maquina A, 25,53 mm y maquina A, 19,56 mm y maquina B.
a) Compara mediante un diagrama de cajas la distribucion de secciones de las
piezas producidas por ambas maquinas.
b) Representa gracamente la distribucion de la procedencia.
c) Representa gracamente la distribucion de la seccion de todas las piezas.
2.3 En un estudio se midio la temperatura ambiente (en ) en las proximidades de
un horno de fundicion en diferentes puntos. Los datos fueron:
32 41 35 41 39 44 30 31 31 26 36 41 28 40 43 36 33 32 39 42
43 42 35 43 38 32 34 27 35 30 30 26 37 29 4 34 30 37 32 27
37 41 33 33 29 34 30 27 37 35 33 33 44 25 34 31 39 32 26 37
a) Realiza un analisis exploratorio de la distribucion de la temperatura.
b) Representa gracamente los datos.
14
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 3
Medidas de tendencia central
Contenido
3.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Objetivos especcos
Comprender la importancia de las medidas estadsticas como res umenes de los
datos experimentales.
Familiarizarse con el concepto estadstico de localizacion central.
Entender las ventajas, inconvenientes y usos de las medidas de localizacion
central mas usuales dependiendo de la naturaleza de los datos.
3.1. Introduccion
Medidas descriptivas: se utilizan para resumir la informacion de una muestra en
un solo valor. Esto es interesante para
comprender mejor como se comporta la variable
15
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de tendencia central
realizar comparaciones, ya que las comparaciones son mas sencillas e inter-
pretables cuando se hacen a traves de un n umero (es mas complicado comparar
tablas completas).
Medidas de tendencia central: punto alrededor del que toma valores la variable.
La idea de centro de una distribucion no es unica. En este tema se estudiara la
media, la mediana y la moda.
Si se tienen datos agrupados (no se conocen los valores exactos, sino rangos de
valores), para hacer los calculos manualmente se resume la informacion de cada rango
o clase a traves de las respectivas marcas de clase (que son los puntos medios de
los rangos) y se aplican las formulas correspondientes sobre dichas marcas.
3.2. Media aritmetica
Si se tiene una variable generica X con valores x
1
, . . . , x
k
, frecuencias respectivas
n
1
, . . . , n
k
y se denota por x
T
=
k

i=1
x
i
n
i
el total de la variable en la muestra, la media
aritmetica x sera
x =
suma de todos los valores
n umero de valores
=
x
1
n
1
+. . . +x
k
n
k
N
=
k

i=1
x
i
n
i
N
=
x
T
N
.
La media viene medida en las mismas unidades que la variable (euros, kg,. . .).
Tiene que estar entre el valor mnimo y el maximo.
No tiene por que coincidir con ning un valor exacto de la variable, ya que simplemente
representa un punto alrededor del cual se mueve esa variable.
Es la medida de tendencia central mas utilizada cuando la variable es de tipo cardinal.
Es sencilla de calcular y tiene muy buenas propiedades matematicas.
Resulta muy informativa, ya que tiene en cuenta la magnitud de los valores y no solo
su orden, como ocurre con la mediana (que se introducira posteriormente).
16
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Mediana
Al tener en cuenta la magnitud de todos valores, esta muy inuenciada por los
posibles valores extremos.
Cuando la distribucion tenga datos extremos, no se debe utilizar la media como
medida de tendencia central. Posteriormente se veran medidas mas adecuadas.
No se puede calcular para datos agrupados cuando no se conoce el lmite del ultimo
intervalo.
Si se conocen unicamente las frecuencias relativas se puede calcular la media teniendo
en cuenta que, dado que f
i
= n
i
/N y x =

k
i=1
x
i
n
i
/N, se tiene que x =

k
i=1
x
i
f
i
.
Problemas propuestos: Problema 3.1, 3.2, 3.3 y 3.4.
3.3. Mediana
La Mediana: es un punto que divide la muestra ordenada (de menor a mayor)
en dos grupos iguales. Deja al menos el 50 % de los valores por debajo y al menos el
50 % por encima. Se suele denotar por Me.
Para calcularla a partir de la tabla de frecuencias, se busca el valor 0,5 en la
columna de frecuencias relativas acumuladas:
si 0,5 no esta en la tabla, Me sera el primer valor x
i
para el que F
i
sobrepasa el
0,5.
si 0,5 esta en la tabla, Me sera cualquier valor entre el x
i
correspondiente y el
siguiente. Por ejemplo, se suele tomar el punto medio.
Se puede calcular tanto para variables cardinales como ordinales, y es la que mas se
utiliza para variables ordinales.
Resulta menos informativa que la media para variables cardinales, ya que solo tiene
en cuenta el orden de los valores y no su magnitud.
Al no tener en cuenta la magnitud de los valores, no esta inuenciada por datos
extremos. Por eso, se podra utilizar cuando la media no resulte representativa.
17
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de tendencia central
Es menos operativa que la media desde el punto de vista matematico.
A diferencia de la media, no siempre es unica.
Problemas propuestos: Problema 3.5 y 3.6.
3.4. Moda
La moda, Mo, es el valor o valores mas frecuentes de la distribucion (n
i
o f
i
mas
alto). Se puede calcular para todo tipo de distribuciones, pero como no resulta muy
informativa, solo se utilizara cuando no se pueda usar la media ni la mediana (para
variables nominales).
Problemas propuestos: Problemas 3.7, 3.8, 3.9 y 3.10.
18
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
3.5. Problemas
3.1 El lunes pasado se calibraron 2 maquinas de una empresa, el martes ninguna,
el miercoles y el jueves 1 por da, y el viernes y el sabado 2 por da. Calcula e
interpreta el n umero medio de maquinas calibradas por da.
3.2 El precio unitario de un artculo vara a lo largo de un a no siendo de 1,36, 1,51,
1,81 y 1,20 e en cada trimestre. Calcula el precio medio que se paga por unidad
en los siguientes casos:
a) se compran 174, 186, 192 y 214 unidades respectivamente.
b) se compra por valor de 231,2, 286,9, 298,65 y 252 e respectivamente.
c) cada trimestre se compra por el mismo importe.
3.3 El gasto semanal en logstica de cierta empresa maderera se distribuye como
sigue. El 10 % de las semanas tienen un gasto de 360 e a lo sumo. El 40 % un
gasto inferior o igual a 660 e. La mitad de las semanas no se superan los 1385
e de gasto, mientras que el 30 % estan entre 1385 y 2410 e. Sabiendo que dicha
empresa tiene un presupuesto maximo de 3000 e a la semana en logstica.
a) Calcula e interpreta el gasto semanal medio.
b) Cual sera el gasto medio si no se supiese que el maximo es de 3000 e?
3.4 En una muestra de 64 salmones de un ro A cuyos pesos oscilaron entre 100 y 500
gr, aproximadamente el 26,56 % peso menos de 150 gr, 45 pesaron menos de 200
gr y un 9,375 % peso mas de 300 gr. Los pesos de los 10 salmones de un segundo
ro B fueron de 740, 550, 650, 250, 340, 220, 250, 400, 370 y 540. Compara el peso
de los salmones de ambos ros de la forma que consideres mas adecuada.
3.5 Se ha hecho un estudio sobre el consumo energetico de los ordenadores de una
empresa. Se obtuvo que 3 de ellos consuman 77 KWh, 2 consuman 71 KWh, 1
consuma 74 KWh, y otro mas consuma 80 KWh. En otra empresa 4 ordenadores
consuman 119 KWh, 3 consuman 101 KWh, 2 consuman 109 KWh, otros 2
consuman 122 KWh y uno consuma 113 KWh. Compara el valor de la mediana
del consumo energetico en ambas empresas.
3.6 Un comercial dedica al 15 % de sus clientes menos de 10 minutos, al 38 % entre
10 y 30 minutos y al resto entre 30 y 60 minutos. Calcula e interpreta la media
19
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de tendencia central
y la mediana del tiempo de atencion por cliente. Que medida te parece mas
adecuada?
3.7 Una productora de plantas medicinales dedica 7 parcelas a plantas con propie-
dades depurativas, 9 a plantas con propiedades relajantes y 5 a plantas con pro-
piedades adelgazantes Que valor representa el centro de la distribucion del tipo
de planta?
3.8 Se ha valorado la contaminacion existente en 60 puntos de una ciudad asturiana
el mes pasado obteniendose que en 25 de ellos era muy baja, en 18 era baja, en
11 era media, en 4 era alta y en 2 era muy alta. Calcula e interpreta la medida
de tendencia central que consideres mas adecuada.
3.9 En un estudio de control de calidad sobre ciertos componentes electronicos se
comprobo que 8 duraron entre 120 y 140 das, 14 duraron entre 140 y 160 das,
6 duraron entre 160 y 180 das y 1 duro mas de 180 das. Calcula e interpreta la
medida de tendencia central que consideres mas adecuada.
3.10 Se esta pensando en abrir un centro de abastecimiento en una zona en la que
hay 5 n ucleos urbanos de igual importancia situados a lo largo de una carretera
de forma que distan del primer n ucleo 5, 10, 30 y 65 kilometros respectivamente.
En que punto kilometrico pondras el centro?
20
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 4
Medidas de dispersion
Contenido
4.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Medidas de dispersion absolutas . . . . . . . . . . . . . . . . . . . 22
4.3 Medidas de dispersion relativa . . . . . . . . . . . . . . . . . . . . 22
4.4 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Objetivos especcos
Comprender la importancia de considerar la variabilidad y no retener solo la
idea de centro en el proceso estadstico.
Familiarizarse con las formas de medir la dispersion con respecto a un punto.
Entender la diferencia entre medidas absolutas y relativas.
4.1. Introduccion
Objetivo: cuanticar lo proximos o alejados que estan los datos de la muestra de un
punto central (la media en este tema; posteriormente se considerara tambien la
mediana). Son indicadores de
el grado de variabilidad que hay en la muestra
21
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de dispersi

on
la representatividad del punto central, ya que cuanto mas peque no sea su valor
mas se pareceran los valores a ese centro (mas se concentraran alrededor de ese
centro).
4.2. Medidas de dispersion absolutas
Varianza: promedio de las distancias al cuadrado de los valores a la media:
S
2
x
=
suma de todas las distancias
2
n umero de individuos
=

k
i=1
(x
i
x)
2
n
i
N
.
Esta medida en unidades al cuadrado y es difcil de interpretar.
Formula alternativa: S
2
x
= x
2
x
2
.
Desviacion tpica: raz cuadrada de la varianza S
x
=
_
S
2
x
.
Esta medida en las mismas unidades que la variable y representa la dispersion
conjunta de los valores de la muestra respecto de la media.
Cuasi-desviacion muestral: en vez de dividir las distancias cuadraticas por N se
dividen por N 1, es decir,

S
x
=
_

S
2
x
y

S
2
x
=

k
i=1
(x
i
x)
2
n
i
N 1
.
La mayor parte de los programas estadsticos calculan la cuasi-desviacion
muestral en lugar de la desviacion, aunque la llaman igual desviacion tpica.
Se empleara en el modulo de inferencia estadstica.
Problema propuesto: Problemas 4.1.
4.3. Medidas de dispersion relativa
Para hacer comparaciones no es aconsejable manejar magnitudes absolutas, ya que
las unidades no son siempre comparables.
22
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de dispersi

on relativa
Tampoco se debe utilizar la desviacion para comparar la dispersion de dos variables
medidas en las mismas unidades (a no ser que el valor de la media sea el mismo),
porque, por ejemplo, no es lo mismo 1 cm de dispersion en relacion a una media de
170 cm que 1 cm de dispersion en relacion a una media de 2 cm.
Coeciente de variacion: dispersion en relacion al valor absoluto de la media:
CV
x
=
S
x
|x|
.
El CV se suele interpretar en terminos de proporcion (o porcentaje).
Se utiliza habitualmente con variables que toman valores positivos (alturas, precios,
etc.) y cuya media no esta proxima al 0, ya que dividir por un valor muy cercano a
0, puede desvirtuar el resultado.
Se puede utilizar para comparar la representatividad de dos medias.
Como es una cantidad relativa, ayuda a valorar la dispersion/representatividad de
la media, en el sentido de establecer si es grande o peque na. Valores bajos indican
poca dispersion/mucha representatividad.
No hay criterios universales para decir que un valor del CV es bajo o alto,
aunque en la practica se suelen considerar bajos aquellos por debajo del 40 % (aprox.);
moderados del 40 % al 80 %; altos del 80 % al 140 %; muy altos cuando se supera el
140 %.
Problemas propuestos: Problemas 4.2, 4.3 y 4.4.
23
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de dispersi

on
4.4. Problemas
4.1 En un almacen de recepcion de mercancas ha anotado el n umero de camiones
pesados que han descargado en 19 das y los resultados han sido: 1, 1, 4, 5, 1,
3, 0, 1, 4, 1, 5, 4, 2, 1, 3, 2, 4, 4 y 0. Cuantica la variabilidad del n umero de
camiones descargados alrededor de su media.
4.2 Un estudio indica que la longitud media de ciertos mamferos es de 167,67 cm
con una desviacion de 8,49 cm y el peso medio es de 61,61 kg. con una desviacion
de 11,27 kg. Cual de las 2 variables presenta mayor dispersion en torno a su
media?
4.3 Seg un los datos de un muestreo la altura media de los robles de una zona refores-
tada fue de 153,07 cm con una desviacion de 71,673 cm, mientras que el diametro
medio fue de 1,1562 cm con una desviacion de 1,3148 cm. En que variable re-
presenta mejor la media a la muestra?
4.4 La madera de pino para sierra cuesta en cierto lugar 45 e/t c.c. (toneladas
con corteza), la de casta no 58,88 e/t c.c. la de eucalipto 37,45 e/t c.c. Una
temporada recaudaron 10665 e por madera de pino, 7889,92 e por madera de
casta no y 7190,4 e por madera de eucalipto. Cual fue el precio medio por t c.c.
de madera esa temporada?, con que dispersion? Interpreta los resultados.
24
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 5
Medidas de posicion
Contenido
5.1 Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 Posicion absoluta y relativa . . . . . . . . . . . . . . . . . . . . . . 26
5.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Objetivos especcos
Comprender el papel de los estadsticos ordenados para determinar la posi-
cion relativa de los individuos dentro de una muestra y el uso tecnico de los
percentiles como medidas de localizacion (no necesariamente central).
Distinguir las situaciones en las que es mejor determinar la posicion relativa
por comparacion a la media.
Familiarizarse con la escala y el signicado de la tipicacion.
5.1. Cuantiles
Cuantil de orden Q

: generalizacion de la mediana a cualquier proporcion. Si


(0, 1), Q

es un punto que deja al menos el 100 % de la muestra por debajo


y al menos el (1 ) 100 % restante por encima.
Se calcula igual que la mediana, aunque sustituyendo el 0,5 que se buscaba en
la tabla por el valor de jado.
25
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de posici

on
Cuantiles especiales: cuartiles, deciles y percentiles.
Cuartiles: valores que dividen la muestra ordenada en 4 grupos con frecuencias
relativas aproximadamente iguales a 0,25. C
1
, el cuartil de orden 1, es Q
0,25
,
C
2
es Q
0,5
y C
3
es Q
0,75
.
Deciles: valores que dividen la muestra ordenada en 10 grupos iguales. D
1
=
decil de orden 1 es Q
0,1
, D
2
es Q
0,2
, etc.
Percentiles: valores que dividen la muestra en 100 grupos iguales. Por ejemplo
P
45
= percentil 45 es Q
0,45
.
Problemas propuestos: Problemas 5.1 y 5.2.
5.2. Posicion absoluta y relativa
Posicion: lugar que ocupa un individuo en la muestra.
Posicion absoluta: n umero de individuos por por debajo/encima.
Rango cuantil (posicion relativa): proporcion (o porcentaje) de individuos por
por debajo/encima.
En los cuantiles y los rangos cuantiles solo interviene el orden, no las magni-
tudes, por lo que los valores extremos no tienen mucha inuencia sobre ellos
(medidas robustas).
Se pueden calcular tanto para variables ordinales como cardinales, proporcio-
nando la posicion relativa de un individuo en variables diferentes o de varios
individuos en la misma variable.
Problemas propuestos: Problema 5.3 y 5.4.
Puntuaciones tipicadas (posicion relativa): comparacion de un dato con la
media relativizando la proximidad x
i
x con respecto a la desviacion tpica:
z
i
=
x
i
x
S
x
.
La tipicacion es valida cuando la media sea una buena medida de centro (lo
que se puede comprobar con ayuda del CV ).
26
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Posici

on absoluta y relativa
Tiene en cuenta la magnitud de los valores, no solo el orden, por lo que siempre
que tenga sentido, es mas informativo que el rango cuantil.
Los valores tipicados suelen tomar valores entre -2 y 2. Pueden llegar a variar
entre -4 y 4, pero si toma valores mas alejados de 0, signica que se trata de
un dato extremo.
Si el valor de la tipicacion es positivo, el individuo esta por encima de la
media, mientras que si es negativo esta por debajo.
A mayor puntuacion tipicada, mejor posicion relativa.
Problemas propuestos: Problemas 5.5, 5.6, 5.7 y 5.8.
27
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de posici

on
5.3. Problemas
5.1 Un minorista cuenta con 20 parcelas, de las cuales 6 tienen 10 frutales, 5 tienen
12 frutales, 4 tienen 15 frutales, 3 tienen 20 frutales y 2 tienen 25 frutales. Calcula
e interpreta el cuantil 25 y el 75.
5.2 Una empresa maderera dispone de 20 parcelas en cierto concejo. El tama no de 4
de ellas es de 2500 m
2
, mientras que el 30 % tienen un tama no de 1500 m
2
. El 15 %
tiene una supercie de 10000 m
2
y el resto son de 20000 m
2
. Que extension tienen
las parcelas de tama no moderado (considerando moderados aquellos tama nos que
no estan ni en el 25 % de los mas peque nos ni en el 25 % de los mayores)?
5.3 La siguiente tabla muestra el n umero de visitantes que ha tenido cierta Reserva
de la Biosfera durante el ultimo mes.
N umero de visitantes 0 2 3 4 5 6 8 10 12 15
N umero de das 4 2 2 4 1 3 5 3 4 3
a) Cuantos das recibio menos de 4 visitantes?, que porcentaje de das reci-
bio entre 4 y 10 visitantes?
b) Cuantos das hubo mas visitantes que la media?
5.4 En un muestreo se cuantico la calidad de los arboles de una reforestacion en
una escala de 0 a 10. Los resultados fueron: 4, 7, 3, 8, 7, 4, 6, 6, 7, 4, 3, 5, 5, 6, 7,
8, 9, 5, 7, 4, 6, 5, 6, 7, 4, 7, 5, 6, 4, 3, 6, 4, 5, 7, 6, 5, 7, 8, 5 y 9. Las puntuaciones
de al menos 5 puntos se consideran como calidad aceptable, mientras que las de
mas de 7 puntos se consideran excelentes.
a) Cuantos arboles tienen calidad excelente?
b) Que porcentaje de arboles tienen una calidad aceptable y sin embargo no
son excelentes?
c) Un arbol con 8 puntos, que percentil ocupa?, que signica eso?
5.5 Los precios de dos materiales que una empresa adquiere a un mayorista varan
semanalmente alrededor de 114,46 y 191,57 e con desviaciones de 37,35 y 56,63 e
respectivamente. Cierta semana el coste del primer material fue de 165,66 y el
del segundo de 216,87 e. Cual fue relativamente mas caro?
28
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
5.6 A la hora de realizar las medidas necesarias para cierto muestreo una persona
invierte 14,56 minutos con una variabilidad de 5,67 minutos, mientras que para
desplazarse de unos puntos de muestreo a otros invierte 6,79 minutos con una
variabilidad de 3,43 minutos. Si para muestrear un punto necesito 12 minutos y
tardo en desplazarse 4,5 minutos, en que invirtio relativamente mas tiempo?
5.7 El precio por tonelada c.c. de la madera de eucalipto ha oscilado en cierto lugar
entre los 50 y los 70 e. De un total de 7320 toneladas, se han vendido 5124 t a
menos de 60 e, un 20 % con un coste comprendido entre 50 y 55 e y un 10 % a
mas de 65 e.
a) Que porcentaje de produccion supera en mas de 3 e el precio medio?
b) Considerando el primer y el tercer cuartil como umbrales, entre que valores
diras que se mueven los precios moderados?
c) Calcula e interpreta la posicion relativa de 65 e de todas las formas que
conozcas y explica cual crees que es mas informativa en este caso.
5.8 El n umero de corzos avistados en diferentes batidas realizadas en Asturias fue de
16, 19, 13, 10, 12, 20, 0, 11, 9, 17, 2, 4, 5, 17, 18, 16, 2, 14, 3, 11, 17, 11, 7, 1, 15,
5, 3, 8 y 19 respectivamente.
a) Para resumir el n umero de corzos avistados mediante un solo valor, que des-
criptivo utilizaras?
b) Crees que la media es representativa en este caso?
c) En cuantas batidas se avistaron mas de 10 corzos?
d) En que porcentaje de batidas se avistaron mas corzos que la media?
e) Que posicion ocupa una batida en la que se avistaron 12 corzos?
29
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 6
Otras medidas descriptivas usuales
Contenido
6.1 Medidas robustas . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
6.2 Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Objetivos especcos
Familiarizarse con el uso de las medidas robustas en situaciones no ideales
(i.e., en presencia de datos atpicos) entendiendo sus ventajas e inconvenientes.
Comprender las diferencias que se pueden derivar de utilizar unas u otras.
Tomar contacto con la distribucion ideal normal, visualizar sus caractersticas
fundamentales de localizacion, escala y forma. Conocer la manera de cuanticar
la proximidad de las distribuciones muestrales al ideal normal en cuanto a
forma.
6.1. Medidas robustas
Localizacion central
Media recortada al 10%: media aritmetica del 90 % central de los valores de
la muestra.
31
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Otras medidas descriptivas usuales
Los valores muy alejados no inuyen en su calculo.
Eliminar individuos supone una perdida de conocimiento, sobre todo si la
muestra es peque na.
Es menos operativa que la media, pero mucho mas robusta.
Si la media aritmetica y la media recortada se diferencian mucho, signica
que el 10 % de los valores que se excluyeron tienen mucho peso y la media
puede estar distorsionada por ellos.
Se utilizara este descriptivo unicamente si la muestra es sucientemente
grande y hay valores atpicos que desvirt uen la media.
Si se sospecha que hay mas o menos de un 10 % de valores atpicos se
podra optar por hacer otro recorte (15 % o 5 % o recortar solo los altos y
no los bajos, etc.).
Cuando el tama no muestral es peque no conviene recortar menos.
Problemas propuestos: Apartados a) y b) del Problema 6.1 y Apartado
a) de los Problemas 6.2 y 6.3.
Dispersion absoluta
Amplitud intercuartil: diferencia entre el tercer cuartil y el primero: AI =
C
3
C
1
(altura de la caja del graco de cajas).
Si AI es peque na, los valores moderados (50 % central) estan muy proxi-
mos entre s: hay poca dispersion y, por lo tanto, el valor central (la
mediana) resulta muy representativo.
Al estar basada en ordenes, no esta muy inuencia por datos atpicos,
pero a veces no resulta sucientemente informativa.
MEDA: mediana de las desviacion absolutas respecto a Me. Para una muestra
de N datos x
1
, . . . x
N
con mediana Me es
MEDA = Me(|X Me|) = Me{|x
1
Me|, . . . , |x
N
Me|}.
Por motivos tecnicos, cuando se considera la mediana, las distancias suelen
medirse en valor absoluto (y no en distancias cuadraticas como para la
varianza).
Intervienen las diferencias de todos los valores respecto al centro. As que
aunque nalmente se utilice solo el orden de las diferencias, es mas infor-
mativa que la AI pero comparativamente mas difcil de interpretar.
32
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de forma
Desviacion recortada: si se elige la media recortada al 10 % como medida de
centro, ya se estan seleccionando los valores que se consideran no atpicos
para su calculo, luego lo logico sera cuanticar la dispersion utilizando esos
valores de la forma habitual.
La dispersion relativa se calcula como se haca con el CV: dividiendo la disper-
sion absoluta por la medida de centro correspondiente.
Problemas propuestos: Apartado c) del Problema 6.1 y Apartado b) de los
Problemas 6.2 y 6.3.
6.2. Medidas de forma
Comparacion con la forma normal de referencia, que es una abstraccion de un
tipo de distribuciones muy habituales en la practica, con mucha densidad de valores
agrupados alrededor de la media, pocos valores bajos o altos y simetrica (ver Figu-
ra 6.1).
Figura 6.1: Distribucion normal.
Tanto la media como todas las medidas basadas en ella (como la varianza, la tipi-
cacion, etc.) son especialmente representativas en las distribuciones tipo normal.
Si la forma de una distribucion se aleja mucho de la normalidad suele ser conveniente
buscar posibles subpoblaciones (por ejemplo, por sexos, especies, etc.) u optar por
medidas robustas.
Las caractersticas basicas de una distribucion normal son la simetra y la forma de
campana con la que los valores se agrupan en torno a la media.
33
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Otras medidas descriptivas usuales
Coeciente de asimetra:
1
=
k

i=1
(x
i
x)
3
f
i
S
3
x
.
Seg un la Figura 6.2, una distribucion es
Simetrica: si lo que hay por debajo de la media se distribuye especularmente
igual que lo que hay por encima (asimetra nula).
Asimetricas a la derecha: si hay valores altos con cierto peso (frecuencia) que
tienden a alejarse mas y los valores bajos tienden a estar mas concentrados
cerca de la media (asmetra positiva).
Asimetricas a la izquierda: si los valores bajos se alejan mas de la media con
cierta frecuencia y los altos estan mas concentrados sera una distribucion
asimetrica a la izquierda (asimetra negativa).
Distribucion simetrica
(asimetra=0)
Distribucion asimetrica a
la derecha
(asimetra>0)
Distribucion asimetrica a
la izquierda
(asimetra<0)
Figura 6.2: Distribuciones simetricas y asimetricas.

1
no tiene unidades (se puede utilizar para realizar comparaciones).
Si no hay valores muy extremos suele variar pocas unidades entre -2 y 2, mas
raramente entre -4 y 4. Si toma valores mas alejados de 0, suele ser por la
existencia de valores atpicos.
Si una distribucion es muy asimetrica, hay valores altos o bajos alejados de la
media. En este caso es recomendable elegir una medida robusta.
Coeciente de curtosis:
2
=
k

i=1
(x
i
x)
4
f
i
S
4
x
3.
34
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Medidas de forma
Mide el grado de apuntamiento (forma campanoide alrededor de la media) de
una variable en relacion con la distribucion normal. Seg un la Figura 6.3 una
distribucion es
Mesoc urtica: si es igual de apuntada que la normal (curtosis nula).
Leptoc urtica: si es mas apuntada que la normal (curtosis positiva). Los valores
centrales estan mas concentrados que los de la normal y los extremos son
menos frecuentes
Platic urtica: si es menos apuntada de lo normal (curtosis negativa). Los valores
centrales estan menos concentrados que los de la normal y los extremos son
mas frecuentes.
Apuntamiento normal
(curtosis=0)
Mas apuntada que la
normal
(curtosis>0)
Menos apuntada que la
normal
(curtosis<0)
Figura 6.3: Distribuciones mesoc urticas, leptoc urticas y platic urticas.

2
no tiene unidades (se puede utilizar para realizar comparaciones).
Suele variar pocas unidades alrededor de 0, igual que
1
.
Problemas propuestos: completar los Problemas 6.1 6.2 y 6.3.
35
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Otras medidas descriptivas usuales
6.3. Problemas
6.1 A partir de los datos de la altura del muestreo forestal del Problema 2.1:
a) A grandes rasgos, se parecen las distribuciones de la altura de los abedules
(Betula celtiberica)y de los robles (Quercus petraea)?, hay datos atpicos?
b) Alrededor de que valor diras que oscilan las alturas?
c) Compara la dispersion de la altura de robes y abedules.
d) Se parecen las distribuciones a la normal? Si se excluyen todos los valores
atpicos en cada caso, que distribucion se parece mas a la normal en cuanto
a su forma?
6.2 Los datos relativos a un muestreo en el que se midio la velocidad del viento (en
metros/segundo) en un determinado lugar durante varios das son: 3,2, 2,2, 4,2,
3,5, 2,4, 2,1, 12,1, 21,5, 4,3, 1,1, 2,6, 14,8, 7,9, 22,5, 4,7, 4,6, 12,9, 5,4, 3,5, 13,0,
0,6, 7,6, 2,3, 9,6, 4,5, 13,3, 2,1, 9,9, 24,5 y 12,3.
a) Alrededor de que valor diras que oscila la velocidad del viento?
b) Con que variabilidad?
c) Compara la distribucion de la velocidad del viento con la normal.
d) En que rango se mueven los das con velocidades moderadas (50 % central)?
e) Cual puede ser la velocidad del viento de un da que esta en el segundo
tercio (ordenandolos de menos a mas viento)?
6.3 Con los datos del Problema 2.3:
a) Que valor resume mejor la temperatura en las proximidades del horno?
b) Calcula e interpreta la dispersion en torno a la mediana y la dispersion de
la muestra recortada al 10 %, que medida es mas adecuada para cuanticar
la variabilidad en torno al centro?
c) Los valores de la temperatura tienden a agruparse por encima o por debajo
de la media?
d) Puede decirse que las temperaturas estan repartidas entre altas, medias y
bajas como en una distribucion normal?
36
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
e) Se puede decir que un lugar en el que hay 34 esta entre los mas fros?
f ) Que proporcion de espacios estan entre 30 y 40 ?
g) Cual es la temperatura maxima del 10 % de los lugares mas fros?
37
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Modulo II
Calculo de probabilidades
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 7
Fundamentos de probabilidad
Contenido
7.1 Conceptos basicos referidos a poblaciones . . . . . . . . . . . . . . 41
7.2 Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . 42
7.3 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . 43
7.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.5 Formulas de las probabilidades totales y de Bayes . . . . . . . . . 43
7.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Objetivos especcos
Adquirir la capacidad de abstraccion para comprender los conceptos relacio-
nados con las poblaciones a partir de las muestras.

Familiarizarse con el concepto de probabilidad en experimentos aleatorios y


visualizar sus propiedades fundamentales.
Comprender la importancia de manejar la probabilidad condicionada en la
practica y razonar las formulas basicas asociadas.
7.1. Conceptos basicos referidos a poblaciones
Espacio muestral: conjunto de posibles resultados de un experimento aleatorio.
41
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Fundamentos de probabilidad
Suceso elemental: cada uno de los posibles resultados del experimento aleatorio.
Suceso: A conjunto de sucesos elementales de interes.
Los sucesos A son subconjuntos del espacio muestral .
Probabilidad: P(A) proporcion de veces que ocurre A cuando se ha obtenido una
muestra de tama no muy grande.
La probabilidad es una abstraccion teorica de las frecuencias relativas.
Es complicado obtener las probabilidades repitiendo el experimento miles de
veces, por lo que se utiliza la regla de Laplace o modelos aproximados que se
veran posteriormente.
Regla de Laplace: si es nito y los los sucesos elementales son equiprobables
P(A) =
Casos favorables
Casos posibles
=
n de elementos de A
n de elementos de
.
Problema propuesto: Problema 7.1.
7.2. Propiedades de la probabilidad
Regla del complementario: P(A) = 1 P(A).
A complementario de A: elementos de que no estan en A.
Regla de la union-interseccion: P(A B) = P(A) +P(B) P(A B).
A B union de dos sucesos A y B: elementos que estan en A o estan en
B
El smbolo se corresponde con la conjuncion o.
A B interseccion de dos sucesos A y B: elementos que estan en A y
estan en B a la vez
El smbolo se corresponde con la conjuncion y.
Problema propuesto: Problema 7.2.
42
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Probabilidad condicionada
7.3. Probabilidad condicionada
Formula de probabilidad condicionada: P(A/B) =
P(A B)
P(B)
.
La probabilidad condicionada de un suceso A por B es la probabilidad de
que haya ocurrido A sabiendo que ha ocurrido B.
Problemas propuestos: Problemas 7.3, y 7.4.
7.4. Independencia
Independencia estadstica: P(A/B) = P(A) o, equivalentemente, P(A B) =
P(A) P(B).
Un suceso A es independiente B cuando saber que ocurrio B no aporta
ninguna informacion sobre la ocurrencia de A.
Problemas propuestos: Problema 7.5 y 7.6.
7.5. Formulas de las probabilidades totales y de
Bayes

Arbol: en ocasiones se conoce la probabilidad de que ocurra un suceso si se da una cir-


cunstancia concreta de entre una serie de posibilidades, mutuamente excluyentes
y que cubren el total. Estas situaciones se suelen representar mediante arboles,
indicando en una primera columna las k opciones A
1
, . . . , A
k
(con probabilidades
no nulas), en una segunda columna si ocurre o no ocurre un suceso B dependien-
do de esas posibilidades y escribiendo las probabilidades correspondientes encima
de los arcos de paso.
Formula de probabilidades totales
P(B) = P(B/A
1
) P(A
1
) +P(B/A
2
) P(A
2
) +. . . +P(B/A
k
) P(A
k
)
43
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Fundamentos de probabilidad
Formula de Bayes:
P(A
i
/F) =
P(F/A
i
)P(A
i
)
P(F)
.
La formula de probabilidades totales se usa cuando se necesita la probabilidad
de llegar a B pero no se sabe que camino se sigue, siendo difcil calcularla
directamente.
La formula de Bayes se utiliza para calcular la probabilidad de que haya ocu-
rrido una de las opciones iniciales A
i
, entre las k posibles, cuando se sabe la
situacion que se dio nalmente (F).
Cuando es necesario, se puede utilizar la formula de probabilidades totales para
hallar la probabilidad del denominador P(F) de la formula de Bayes.
Problemas propuestos: Problemas 7.7, 7.8 y 7.9.
44
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
7.6. Problemas
7.1 En una caja hay 30 tacos, 20 de ellos son del calibre 6 y de esos 20, solo 15 estan
en perfectas condiciones. Los 10 restantes son del calibre 8 y entre ellos hay 4
defectuosos.
a) Calcula la probabilidad de que al coger un taco cualquiera de la caja resulte
defectuoso.
b) Calcula la probabilidad de que al coger un taco cualquiera de la caja sea del
calibre 6 y este defectuoso.
7.2 Una persona compra el periodico el 30 % de los das, compra una revista 2 de
cada 10 das y compra ambos el 8 % de los das. Calcula la probabilidad de que
cierto da
a) compre un periodico o una revista.
b) compre un periodico y no una revista.
c) no compre ni un periodico ni una revista.
7.3 En una encuesta realizada en Oviedo se ha determinado que el 68 % de los en-
cuestados lee La Nueva Espa na, el 21 % lee La Voz de Asturias y el 4 % lee ambos.
Si se selecciona al azar un lector de La Voz de Asturias, Cual es la probabilidad
de que lea La Nueva Espa na?
7.4 El 22 % de las muestras de agua que procesa cierto laboratorio contienen uor,
el 64 % contienen sodio y el 71 % tienen uno u otro. Calcula
a) la probabilidad de que una muestra no tenga ni uor ni sodio.
b) el porcentaje de muestras que tienen uor pero no sodio.
c) el porcentaje de muestras que no tienen sodio de entre las que tienen uor.
7.5 El 30 % de los pedidos de un almacen llegan entre las 11 y las 12 de la ma nana.
Ademas tardan mas de 10 minutos en procesar 2 de cada 5 pedidos. El 15 % de
los pedidos llegan entre las 11 y las 12 de la ma nana y tardan mas de 10 minutos
en ser procesados.
a) Es independiente el hecho de que un pedido llegue entre las 11 y las 12 del
de tardar mas de 10 minutos en ser procesado?
45
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Fundamentos de probabilidad
b) Independientemente de la hora de llegada del pedido, la mitad de ellos son
de urgencia, cual es la probabilidad de que un pedido llegue entre las 11 y
las 12 de la ma nana y sea de urgencia?
7.6 Un sistema contiene cinco componentes conectados entre s como se muestra en
la siguiente gura. En dicha gura se muestra tambien la probabilidad de que
esos componentes funcionen correctamente.
Si se supone que el funcionamiento de cada componente es independiente del de
los demas, cual es la probabilidad de que el sistema funcione?
7.7 En una empresa disponen de 3 maquinas empaquetadoras. Las maquinas no siem-
pre funcionan correctamente y, de vez en cuando, el empaquetado no es hermetico.
La probabilidad de que esto ocurra es de 0,05 para la primera maquina, 0,008
para la segunda y 0,01 para la tercera. El 60 % de las veces se usa la primera
maquina, y el 40 % restante se reparte por igual entre las otras dos.
a) Calcula la probabilidad de que el empaquetado de un producto cualquiera
sea hermetico.
b) Que maquina es mas probable que haya procesado un producto que esta hermeti-
camente empaquetado?
7.8 El proceso de fabricacion de cierta fabrica se encuentra bajo control el 92 % de
las ocasiones. Ademas cuando el proceso esta bajo control el 5 % de las unidades
producidas son defectuosas, mientras que cuando el proceso esta fuera de control
se produce un 30 % de unidades defectuosas. Se escoge una unidad cualquiera
producida por esa fabrica y resulta defectuosa, cual es la probabilidad de que el
proceso se encuentre bajo control?
7.9 Una planta recibe reguladores de voltaje de dos proveedores distintos. Compra
el 75 % de los reguladores al primer proveedor y el resto al segundo. Sabiendo
que el 8 % de los reguladores que recibe del primer proveedor son defectuosos y
que ese porcentaje es del 10 % para el segundo, calcula la probabilidad de que un
regulador cualquiera de los recibidos funcione correctamente.
46
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 8
Variables aleatorias
Contenido
8.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.2 Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . 48
8.3 Medidas poblacionales . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.4 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . 49
8.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Objetivos especcos
Entender la utilidad de generalizar el concepto de variable estadstica a pobla-
ciones.
Distinguir los distintos tipos de variables aleatorias y la forma de caracterizarlas
para operar con ellas en la practica.
Tomar contacto con las medidas poblacionales (o parametros) habituales, sus
propiedades y signicado.
8.1. Introduccion
Variables aleatorias: versiones poblacionales de las variables estadsticas.
Se caracterizan con distribuciones de probabilidad, cuya naturaleza depende
del tipo de variable (discreta o continua) que se maneje.
47
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Variables aleatorias
8.2. Variables aleatorias discretas
Variable aleatoria discreta: aquella que toma valores aislados, es decir, entre dos
valores jados no puede tomar ninguno en medio.
Funcion de probabilidad: tabla que relaciona los posibles valores y sus probabili-
dades
x
i
x
1
x
2
. . .
p
i
p
1
p
2
. . .
Version poblacional de las tablas de frecuencias.
Problema propuesto: Problema 8.1.
8.3. Medidas poblacionales
Medidas poblacionales: versiones poblacionales de las analogas muestrales.
Valor esperado o esperanza: media teorica o poblacional.

X
= E(X) = x
1
p
1
+x
2
p
2
+. . . =

i
x
i
p
i
.
El valor esperado se corresponde con un punto alrededor del cual se mueve la
variable aleatoria.
En terminos fsicos es el centro de gravedad de un objeto.
Sus unidades son las de variable que resume.
Varianza poblacional:
2
X
= Var(X) = E(X
2
) E(X)
2
Sus unidades son las de variable que resume al cuadrado, lo que hace difcil su
interpretacion.
Desviacion tpica poblacional:
X
= Desv(X) =
_
Var(X).
La desviacion tpica poblacional mide cuanto se alejan los valores de la variable
en conjunto de su valor esperado.
48
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Variables aleatorias continuas
Propiedades: si X e Y son 2 variables aleatorias y c es una constante, entonces
E(X +Y ) = E(X) +E(Y ).
Si ademas son independientes, entonces Var(X +Y ) = Var(X) + Var(Y ), y
Desv(X +Y ) =
_
Var(X) + Var(Y ).
E(c +X) = c +E(X), Var(c +X) = Var(X) y Desv(c +X) = Desv(X).
E(cX) = cE(X), Var(cX) = c
2
Var(X) y Desv(cX) = |c|Desv(X).
Problemas propuestos: Problema 8.2 y 8.3.
8.4. Variables aleatorias continuas
Variable aleatoria continua: aquella que entre dos valores cualesquiera puede to-
mar otro, dependiendo tan solo de la precision.
Diferencia esencial entre variables aleatorias discretas y continuas: mientras
que la probabilidad de que una variable discreta tome un valor concreto es ma-
yor que 0, la probabilidad de que una variable continua tome un valor concreto
es siempre 0.
Funcion de densidad: indica la intensidad de frecuencia que hay alrededor de
cada valor posible.
El area que quede debajo de la funcion de densidad indica la probabilidad de
los distintos intervalos.
Problema propuesto: Problema 8.4.
49
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Variables aleatorias
8.5. Problemas
8.1 Una planta qumica vende bidones de disolvente a varios clientes. Enva como
maximo 3 bidones al da. El 42 % de los das enva 1 bidon y el 22 % enva dos
bidones. Ademas, se sabe que el 73 % de los das enva alg un bidon.
a) Halla la funcion de probabilidad del n umero de bidones que envan al da.
b) Si un da a las 12:00 ya enviaron un bidon, cual es la probabilidad de llegar
al maximo al nal del da?
8.2 El 24,8 % de los ordenadores de cierto organismo tiene 3 a nos, el 23 % tiene 2 a nos,
el 31,6 % tiene un a no y el resto son nuevos. Una empresa de mantenimiento les
ha hecho una oferta para poner al da los ordenadores: plantean un coste jo de
3 e por cada ordenador mas un coste variable de 1,5 por cada a no de antig uedad
del aparato. Calcula e interpreta
a) la antig uedad esperada y la variabilidad de la antig uedad de los ordenadores.
b) el coste esperado y la dispersion del coste de mantenimiento por ordenador
seg un esa oferta.
8.3 Cierto proceso industrial se supervisa continuamente para asegurar que la produc-
cion presenta la calidad adecuada. Si no es as, el proceso se detiene y se calibra.
Las maquinas funcionan a distinta velocidad en los turnos de noche (de 22:00 a
6:00) que en los de da, por lo que la distribucion del n umero de calibraciones a
la semana es diferente. En concreto, se sabe que
x
i
0 1 2 3 4
p
i
0,4 0,3 0,1 0,05 0,15
Turno de noche
x
i
1 2 3 4
p
i
0,1 0,2 0,3 0,3
Turnos de da
a) Considerando solo el turno de noche, que porcentaje de semanas se calibra
el proceso mas de 2 veces de entre aquellas en las que se realiza alguna
calibracion?
50
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
b) Si una semana hubo 4 paradas durante un turno, cual es la probabilidad
de que ese turno fuese el de noche?
c) El coste del control es de 50 u.m por semana mas 5 u.m. por cada calibracion
que se realice. Cual es el coste esperado al a no?, y la dispersion?
8.4 Una persona acostumbra a coger el autob us todos los das para acudir al trabajo.
Suele llegar a la parada entre las 7 y las 7:30 y la empresa de transportes asegura
que en esa franja horaria el autob us pasa cada 15 minutos.
a) Cual es la probabilidad de que tenga que esperar 5 minutos?
b) Que porcentaje de das esperara entre 5 y 10 minutos?
51
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 9
Distribucion normal. Teorema
Central del Lmite
Contenido
9.1 Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.2 Manejo de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.3 Tipicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
9.4 Reproductividad de la normal . . . . . . . . . . . . . . . . . . . . 56
9.5 Teorema Central del Lmite . . . . . . . . . . . . . . . . . . . . . . 56
9.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Objetivos especcos
Percibir la existencia de ciertos modelos de probabilidad teoricos como abs-
tracciones de las distribuciones muestrales.
Familiarizarse con la distribucion normal y la forma de operar con ella para
calcular probabilidades.
Reconocer la importancia de la distribucion normal a traves del Teorema Cen-
tral del Lmite.
Comprender el uso del Teorema Central del Lmite en el calculo de probabili-
dades.
53
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuci

on normal. Teorema Central del L

mite
9.1. Distribucion normal
Campana de Gauss: abstraccion de muchas distribuciones comunes en la practica
La distribucion normal depende de dos parametros: la media y la desviacion.
La densidad esta centrada en y es simetrica respecto a ese valor. El punto
de inexion de la curva queda determinada por la desviacion tpica .
Si una variable X sigue una distribucion normal, se denota X N(; ).
No es sencillo calcular el area que quede debajo de la funcion de densidad para
determinar la probabilidad de los distintos intervalos.
Los calculos se realizan con ayuda del ordenador o con tablas de la Z
N(0; 1).
9.2. Manejo de tablas
En la tabla de la Z N(0; 1) se representa la probabilidad que se acumula por
debajo de cada valor z.
Solo aparecen valores z positivos con 2 decimales, por lo que se suele redondear.
Si el n umero que interesa es z = a.bc, se busca P(Z a.bc) en el cruce entre la la
correspondiente a a.b y la columna correspondiente a c.
54
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tipificaci

on
Para calcular la probabilidad de otros tipos de intervalos a partir de la tabla, se
utiliza la propiedad de simetra y la regla del complementario.
Propiedad de simetra: el area que hay por encima de un valor cualquiera de la
campana de Gauss es igual a la que hay por debajo de su opuesto:
P(Z x) = P(Z x).
Propiedad del complementario: el area que hay por encima de x es 1 menos la
que hay por debajo:
P(Z > x) = 1 P(Z x).
En la tabla solo aparecen los n umeros hasta 3,99 porque el area que esta por encima
de 3,99 es tan peque na que la probabilidad es casi 0.
Problemas propuestos: Problema 9.1 y 9.2.
9.3. Tipicacion
Formula de tipicacion: si a una variable X N(; ) se le resta la media y se
divide por la desviacion tpica, se obtiene una Z N(0; 1):
X

= Z.
Problemas propuestos: Problemas 9.3 y 9.4.
55
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuci

on normal. Teorema Central del L

mite
9.4. Reproductividad de la normal
Propiedad de reproductividad: si X N(; ) se mide en n individuos elegidos
al azar y se llama X
1
= valor generico del individuo 1, X
2
= valor generico del
individuo 2, . . . , X
n
= valor generico del individuo n, se tiene que
S = X
1
+. . . +X
n
N(n;

n) y M =
X
1
+. . . +X
n
n
N
_
;

n
_
.
No todas las distribuciones cumplen una propiedad analoga a la reproductivi-
dad de la normal.
Problemas propuestos: Problemas 9.5 y 9.6.
9.5. Teorema Central del Lmite
Teorema Central del Lmite (TCL): si una variable cualquiera X de media y
desviacion se mide en n individuos elegidos al azar (con n 30) y se denota
X
1
= valor generico del individuo 1, . . . , X
n
= valor generico del individuo n,
entonces,
S = X
1
+. . . +X
n
N(n;

n) y M =
X
1
+. . . +X
n
n
N
_
;

n
_
.
A diferencia de la reproductividad, el TCL es valido para cualquier distribucion
de X (no solo para normales).
Las distribuciones del TCL son aproximadas (no exactas como en la reproduc-
tividad), ese es precisamente el signicado del smbolo .
En general, para que la aproximacion sea able deben elegirse al menos 30
individuos (mientras que la formula de reproductividad es valida para cualquier
n umero de individuos).
Problemas propuestos: Problemas 9.7, 9.8 y 9.9.
56
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
9.6. Problemas
9.1 Sea Z una variable aleatoria con distribucion N(0; 1). Calcula:
a) P(Z = 2,38)
b) P(Z 2,38)
c) P(Z 2,38)
d) P(Z > 2,38)
e) P(Z < 1,29)
f ) P(1,72 < Z 0,8)
g) a tal que P(Z a) = 0,8
h) a tal que P(Z > a) = 0,1
i ) a tal que P(Z > a) = 0,75
9.2 En un supermercado comprueban cada hora la diferencia entre las ventas en efec-
tivo registradas en el ordenador y la recaudacion en caja para evaluar los errores
cometidos por los cajeros en el cobro y devolucion. Ese saldo suele distribuirse
normalmente con media 0 y desviacion de 1 e, cual sera el saldo maximo resul-
tante en el 10 % de las ocasiones mas desfavorables para el supermercado?, y el
saldo mnimo?
9.3 El consumo diario de carburante de cierto vehculo ocial sigue una distribucion
normal de media 7,31 y desviacion 2,36 litros.
a) Cual es la probabilidad de que el consumo de un da supere los 9 litros?
b) Cuantos litros consume como mnimo el 5 % de los das de mayor gasto?
9.4 Si la estatura de la gente de una poblacion sigue una distribucion normal de
media 170 cm y desviacion 5 cm, calcula la probabilidad de que una persona al
azar
a) mida mas de 170 cm.
b) mida menos de 162 cm.
c) mida entre 162 y 188 cm.
d) Por debajo de que estatura esta el 90 % de la gente?
e) Cuanto mide como maximo el 20 % de la gente mas baja?
9.5 La supercie quemada en los incendios forestales de cierto termino municipal
sigue una distribucion normal de media 23 ha y de desviacion 4 ha.
a) cual es la probabilidad de que la supercie total afectada en 20 incendios
este entre 480 y 500 ha?
b) cual es la probabilidad de que la supercie media de esos 20 incendios no
llegue a 22 ha?
57
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuci

on normal. Teorema Central del L

mite
9.6 El peso de los salmones Tipo L de una piscifactora es normal de media 3254 y
desviacion 547 gramos. Una pescadera ha adquirido 50 salmones.
a) Podras decir cuantos kilos de salmon han adquirido?
b) Que probabilidad tienen de haber comprado mas de 170 kilos de salmon?
c) Que probabilidad hay de que el peso medio por salmon sea de menos de 3
kilos?
9.7 La cantidad de gasolina sin plomo 95 que se dispensa al da en cierta gasolinera
que abre todos los das del a no vara aleatoriamente alrededor de una media de
4033,5 litros y desviacion de 328,78 litros.
a) Explica como se distribuye la cantidad de gasolina que dispensan en un
trimestre.
b) Cual es la probabilidad de que la cantidad media diaria en un trimestre
este entre los 4000 y los 4500 litros?
9.8 La vida media de las lavadoras de uso domestico de cierta marca es de 88,57
meses y la desviacion de 23,56. En el departamento de control de calidad han
seleccionado 35 lavadoras para realizar un seguimiento. Cual es la probabilidad
de que la vida media de esas lavadoras este entre 7 y 8 a nos?
9.9 Una renadora de az ucar procesa en media 3,5 t de az ucar al da con una desvia-
cion de 0,866 t y tienen que cubrir un pedido de 150 t. Calcula la probabilidad
de que tengan suciente az ucar para cubrir el pedido en 40 das si dedican para
ello toda su produccion.
58
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 10
Distribuciones discretas notables
Contenido
10.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
10.2 Distribucion de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 60
10.3 Distribucion binomial . . . . . . . . . . . . . . . . . . . . . . . . . 60
10.4 Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 61
10.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Objetivos especcos
Reconocer una serie de situaciones tipo que se pueden formalizar y manejar
con algunos modelos de probabilidad discretos basicos.
Familiarizarse con los experimentos de Bernoulli y las variables dicotomicas.
Adquirir practica en el uso y calculo de probabilidades con variables aleatorias
discretas.
10.1. Introduccion
Objetivo: Identicar algunas variables tipo y conocer sus distribuciones, lo que
permitira manejar gran cantidad de situaciones que surgen en las aplicaciones.
59
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuciones discretas notables
10.2. Distribucion de Bernoulli

Exito: el hecho de que ocurra un suceso A.


Distribucion de Bernoulli: distribucion de apoyo que se considera a la hora de
evaluar la proporcion de ocasiones en las que ocurre un suceso (exito).
Si P(A) = p, la variable que modela la distribucion de exitos es:
Y ocurre A? =
_
_
_
1- Si P(A) = p
0- No P(A) = 1 p
y
i
0 (No) 1 (Si)
p
i
p 1 p
Y sigue una distribucion de Bernoulli de parametro p y se denota como
Y B(p).
Si Y B(p), entonces E(Y ) = p y Var(Y ) = p(1 p).
Problema propuesto: Apartado a) del Problemas 10.1.
10.3. Distribucion binomial
Distribucion Binomial: sirve para modelar variables del tipo
X- n umero de exitos en n realizaciones independientes de un experimento tipo
Bernoulli.
Si P(exito) = p, se dice que X sigue una distribucion binomial de parame-
tros n y p. Se denota como X B(n; p).
X B(n; p) puede tomar valores entre 0 y n. Si k es un valor generico de
entre esos posibles, su probabilidad se calcula como
P(X = k) =
_
n
k
_
p
k
(1 p)
nk
.
Si X B(n; p), entonces E(X) = np y Var(X) = np(1 p).
60
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuci

on de Poisson
Aproximacion por el TCL: si n 30 B(n; p) N(np;
_
np(1 p)).
Si p esta muy cerca de 0 o cerca de 1, la aproximacion no es buena, por lo que
solo se utilizara si no hay otra opcion.
Problemas propuestos: Apartado b) del Problema 10.1 y Problemas 10.2, 10.3,
10.4, 10.5, 10.6 y 10.7.
10.4. Distribucion de Poisson
Distribucion de Poisson: se utiliza para modelar experimentos en los que el interes
se centra en determinar el n umero de sucesos que ocurren en un intervalo (de
tiempo, espacio, ...).
El n umero medio de sucesos por unidad de medida, , debe ser constante y la
probabilidad de que ocurran 2 o mas sucesos en un intervalo sucientemente
peque no debe ser casi 0.
Una variable X con distribucion de Poisson de parametro (X P())
toma como valores los n umeros naturales 0, 1, 2, . . . con probabilidades
P(X = k) = e

k
k!
k = 0, 1, 2, . . . .
Si X P(), entonces E(X) = y Var(X) = .
Aproximacion por el TCL: si > 5, entonces P() N(,

).
Problemas propuestos: Problemas 10.8, 10.9, 10.10 y 10.11.
61
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuciones discretas notables
10.5. Problemas
10.1 Se sabe que el 28 % de las mujeres espa nolas son fumadoras,
a) como modelaras la distribucion de fumadoras mediante una variable alea-
toria?
b) Si se eligen 10 mujeres al azar, como modelaras la distribucion del n umero
de fumadoras mediante una variable aleatoria?, cual es la probabilidad de
que haya solo 1 mujer fumadora en ese grupo?
10.2 En una tienda ofrecen una garanta de 100 euros para sus productos. Estiman
que solo uno de cada mil objetos de los que venden es defectuoso. Si disponen de
647 productos en stock de procedencia independiente,
a) cual es la probabilidad de que haya alg un objeto defectuoso en stock?
b) que perdida podran esperar a causa de la garanta con la venta del stock?
10.3 En cierta parcela suelen germinar 3 de cada 4 semillas sembradas. Si en una zona
han sembrado 12 semillas, cual es la probabilidad de que germinen mas de 10?
10.4 Una agencia pretende vender 8 parcelas urbanizables. De ocasiones anteriores
saben que el 15 % de las reservas al nal no quieren comprar la parcela, por lo
que deciden admitir hasta 10 reservas. Cual es la probabilidad de que alguno de
los que tiene reserva se quede sin parcela?
10.5 Una empresa realiza proyectos en los que suele participar gran cantidad de gente.
El tiempo que necesitan habitualmente los trabajadores para elaborar su parte se
comporta como una distribucion aproximadamente normal de media 28,35 horas
y desviacion 7,42 horas.
a) En el desarrollo de un proyecto participan 20 personas de forma indepen-
diente. Calcula la probabilidad de que al menos una persona de las que
participan en ese proyecto tarde mas de 35 horas en elaborar su parte.
b) Cuanto tardara como mnimo una persona que se encuentra entre el 25 %
de las mas lentas?, y como maximo?
10.6 El 30 % de los incendios de determinado termino municipal provocan da nos
economicos moderados seg un los partes de incendios. Cual es la probabilidad
62
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
de que entre 20 y 25 incendios provoquen da nos moderados entre los 58 ocurridos
en 1 a no?
10.7 El tiempo que transcurre entre la llegada y la salida de un paciente de urgencia
moderada en un hospital se distribuye normalmente en torno a 497 minutos con
una desviacion de 212. El departamento de Atencion al Paciente considera excesi-
vo que ese tiempo sobrepase las 12 horas. Si eligen aleatoriamente 120 pacientes
de urgencia moderada para controlar el tiempo que permanecen en urgencias,
cual es la probabilidad de que mas de 20 esten un tiempo excesivo?
10.8 El n umero medio de rayos gamma emitidos por segundo por una substancia
radioactiva es de 2,6. Un aparato de medida se bloquea si recibe mas de 4 rayos
por segundo. Si el n umero de rayos por segundo sigue una distribucion de Poisson,
cual es la probabilidad de que el aparato se bloquee?
10.9 En cierta plantacion se encuentran por termino medio 20 arboles por cada 50 m
2
,
cual es la probabilidad de que haya mas de 3 arboles en una zona de 8 m
2
?
10.10 Una empresa se dedica al montaje de piezas de recambio para ordenadores. Los
empleados de la empresa trabajan de forma independiente y el n umero de piezas
que monta cada uno se distribuye seg un una Poisson con una media de 24 piezas
cada 5 horas.
a) Calcula la probabilidad de que un empleado produzca entre 10 y 20 piezas
en 2 horas y media.
b) Si en la empresa trabajan 100 personas, calcula la probabilidad de que mon-
ten mas de 2500 piezas en 5 horas.
10.11 El n umero medio de llamadas que recibe el 112 en cierto municipio es de 4 cada
hora. Cual es la probabilidad de que en 8 horas reciban entre 30 y 40 llamadas?
63
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 11
Otras distribuciones continuas
notables
Contenido
11.1 Distribucion uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 66
11.2 Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . . 66
11.3 Distribucion gamma . . . . . . . . . . . . . . . . . . . . . . . . . . 67
11.4 Relacion entre algunas distribuciones . . . . . . . . . . . . . . . . 67
11.5 Distribucion de Weibull . . . . . . . . . . . . . . . . . . . . . . . . 68
11.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Objetivos especcos
Reconocer una serie de situaciones tipo que se pueden formalizar y manejar
con algunos modelos de probabilidad continuos basicos.
Adquirir practica en el uso y calculo de probabilidades con variables aleatorias
continuas.
Entender las relaciones entre algunos modelos discretos y continuos usuales.
65
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Otras distribuciones continuas notables
11.1. Distribucion uniforme
X sigue una distribucion uniforme entre a y b y se denota por X U(a; b)
si solo puede tomar valores entre a y b y todos los puntos del intervalo tienen las
mismas posibilidades. La funcion de densidad es
b-a
1
Las probabilidades se calculan a partir de la funcion de densidad general como:
P(s < X < t) = base altura = (t s)
1
b a
.
Se utiliza cuando se sabe que una variable X toma valores en un intervalo y no se
conoce ninguna informacion adicional.
Si X U(a; b), entonces
E(X) =
a +b
2
y Var(X) =
(b a)
2
12
.
Problemas propuestos: Problemas 11.1 y 11.2.
11.2. Distribucion exponencial
X tiene una distribucion exponencial de parametro , y se denota por X
Exp() cuando toma valores en R
+
= [0, +) y si t R
+
P(X t) = 1 e
t
o equivalentemente P(X > t) = e
t
,
Propiedad de perdida de memoria: P(X > t +c/X > c) = P(X > t).
Si X Exp(), entonces E(X) = 1/ y Var(X) = 1/
2
.
66
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Distribuci

on gamma
La distribucion Exp() suele utilizarse para variables del tipo T tiempo que trans-
curre hasta que ocurre un suceso cuando el tiempo medio es 1/.
Esta relacionada con la distribucion de Poisson.
No se debe aplicar a situaciones en las que hay envejecimiento.
Problemas propuestos: Problema 11.3 y 11.4.
11.3. Distribucion gamma
X tiene una distribucion gamma de parametros n y (con n N), y se denota
por X (n; ) cuando toma valores en R
+
= [0, +) y si t R
+
P(X t) = 1
n1

k=0
e
t
(t)
k
k!
o equivalentemente P(X > t) =
n1

k=0
e
t
(t)
k
k!
.
Si X (n; ), entonces E(X) = n/ y Var(X) = n/
2
.
La distribucion (n; ) suele utilizarse para modelar variables del tipo R tiempo
que transcurre hasta que ocurre n veces un suceso cuando el tiempo medio entre
dos ocurrencias es 1/.
Obviamente, (1; ) = Exp().
Problemas propuestos: Problemas 11.5 y 11.6.
11.4. Relacion entre algunas distribuciones
X el n umero de veces que ocurre un suceso en cierto intervalo de tiempo P()
si, y solo si, T tiempo transcurrido desde un instante cualquiera hasta la primera
ocurrencia (o entre 2 ocurrencias consecutivas) Exp(). Es decir,
X P() T Exp().
Ademas R tiempo transcurrido desde un instante cualquiera hasta la ocurrencia
nesima del suceso (n; ).
67
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Otras distribuciones continuas notables
El tiempo se entiende que tiene como unidades los intervalos considerados.
R se puede descomponer como el tiempo que transcurre hasta el primer suceso +
tiempo entre en primero y el segundo + . . . + tiempo entre el (n 1) y el n, es
decir,
R = T
1
+T
2
+. . . +T
n
,
donde cada T
i
es el tiempo transcurrido entre dos sucesos que se distribuye seg un
una Exp().
Si n 30 se tiene que (n; ) N(n/;

n/).
Problemas propuestos: Problemas 11.7, 11.8 y 11.9.
11.5. Distribucion de Weibull
Una variable aleatoria X tiene una distribucion de Weibull de parametros
> 0 > 0 > 0 y > 0 > 0 > 0 y se denota por X W(; ) cuando toma valores en R
+
y
P(X t) = 1 e
(t)

o equivalentemente P(X > t) = e


(t)

.
Si = 1 coincide con la distribucion exponencial.
Si = 1, a diferencia de la distribucion exponencial, s tiene memoria, es decir,
P(X > t +c/X > c) = P(X > t).
Se utiliza para modelar tiempos de vida, diametros de arboles o la velocidad del
viento entre otros.
Esta distribucion si tiene en cuenta el envejecimiento por el paso del tiempo.
Problemas propuestos: Problemas 11.10 y 11.11.
68
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
11.6. Problemas
11.1 El gasto mensual en fertilizante en un invernadero es aleatorio y vara entre 250
y 750 e.
a) Alrededor de que valor se puede decir que se encuentra el gasto mensual?,
con que dispersion?
b) Si a mitad de cierto mes ya llevan gastados 400 e, que es mas probable
que al nal gasten mas de 600 e o que gasten menos?
11.2 El tiempo de reaccion de un mecanismo electromagnetico a determinado estmulo
sigue una distribucion uniforme entre 0,2 y 1 segundos. Se realiza un experimento
en el que se somete a 40 de esos mecanismos a dicho estmulo.
a) Calcula la probabilidad de que alguno tenga un tiempo de reaccion inferior
a 0,3 segundos.
b) Calcula la probabilidad de que el tiempo medio de los 40 mecanismos este en-
tre 0,5 y 0,6 segundos.
11.3 El nivel de ruido en una fabrica sigue una distribucion exponencial en torno a los
40 decibelios. Se considera peligroso para la salud niveles de ruido superiores a
los 80 decibelios. Cual es la probabilidad de que el nivel de ruido sea peligroso?
11.4 El tiempo de vida de cierto tipo de circuitos integrados tiene una distribucion
exponencial con media de 2 a nos.
a) Cual es la probabilidad de que un circuito dure mas de 3 a nos?
b) Se tiene un circuito de 4 a nos que a un funciona bien, cual es la probabilidad
de que dure 3 a nos mas?
11.5 La duracion en a nos de una bombilla de cierto fabricante sigue una distribucion
gamma con p = 2 y a = 3. Que porcentaje de bombillas de ese fabricante duran
mas de un a no?
11.6 El tiempo en minutos que tardan en llegar los primeros medios terrestres a un
incendio en determinado termino municipal sigue una distribucion gamma con
n = 3 y = 0,3.
a) En que porcentaje de incendios llegan antes de un cuarto de hora?
69
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Otras distribuciones continuas notables
b) Si se toman 10 incendios cualesquiera, cual es la probabilidad de que en al
menos 8 de ellos lleguen antes de un cuarto de hora?
11.7 Una estacion de trabajo recibe por termino medio ocho programas para ejecutar
por minuto. Si la estacion ha estado averiada durante 45 segundos,
a) Cual es la probabilidad de que hayan quedado por atender mas de 3 pro-
gramas?
b) Cual es la probabilidad de que, tras solucionarse la avera, el primer pro-
grama llegue antes de 15 segundos?
c) Cual es la probabilidad de que, tras solucionarse la avera, lleguen 3 pro-
gramas en menos de 30 segundos?
11.8 Las llegadas de los clientes de una optica se producen cada 10 minutos aproxi-
madamente, de manera independiente.
a) Cual es la probabilidad de que pase mas de un minuto sin que llegue ning un
cliente?
b) Cual es el n umero medio de clientes que se espera que lleguen en dos horas?
c) Cual es la probabilidad de que lleguen 5 clientes en menos de 20 minutos?
11.9 A una gasolinera llegan por termino medio 6 automoviles cada hora. Teniendo
en cuenta que la gasolinera permanece abierta las 24 horas del da, cual es la
probabilidad de que haya que esperar mas de 2 das antes de que lleguen 300
automoviles?
11.10 La vida util (en a nos) de determinado tipo de bateras sigue una distribucion de
Weibull con parametros = 2 y = 1/

3.
a) Cual es el porcentaje de bateras que duran menos de 4 a nos?
b) Cual es la probabilidad de que una batera tenga una vida total inferior a
4 a nos si ya lleva funcionando 2 a nos?
11.11 Un fabricante de maquinaria agrcola garantiza sus productos contra cualquier
defecto durante el primer a no de uso normal. Para cierto tipo de maquinaria ha
estimado un coste por reparacion de 200 euros durante el periodo de garanta.
Se sabe que el tiempo en meses que tarda en ocurrir el primer fallo sigue una
70
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
distribucion de Weibull de parametros = 3 y = 1/40. Si el fabricante espera
vender 10000 unidades de dicha maquinaria especca, cual es el n umero espe-
rado de unidades que fallen en el periodo de garanta?, y el coste esperado de la
garanta para el fabricante?
71
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Modulo III
Inferencia estadstica
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 12
Introduccion a la inferencia
Contenido
12.1 Aproximacion de distribuciones . . . . . . . . . . . . . . . . . . . . 76
12.2 Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . 76
12.3 El Teorema Central del Lmite en Inferencia . . . . . . . . . . . . 77
12.4 Tipos de problemas en inferencia . . . . . . . . . . . . . . . . . . . 77
12.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Objetivos especcos
Visualizar como las muestras aleatorias son utiles para aproximar todo tipo de
distribuciones y tomar contacto con el error muestral.
Comprender el concepto de estimador y estadstico. Observar como varan de
muestra en muestra y la necesidad de controlar como se distribuyen.
Distinguir entre estimador y estimacion.
Entender el papel del Teorema Central de Lmite en inferencia para aproximar
distribuciones de estadsticos.
Distinguir los distintos problemas de inferencia sobre poblaciones a partir de
muestras que pueden plantearse.
75
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Introducci

on a la inferencia
12.1. Aproximacion de distribuciones
Objetivo: ilustrar con simulaciones el hecho de que las muestras aleatorias son utiles
para conocer la poblacion, cuando son sucientemente grandes.
Metodo de Montecarlo: para aproximar la distribucion, el valor esperado, la va-
rianza poblacional, etc. de una variable se puede obtener (o simular) una muestra
de tama no sucientemente grande y calcular los analogos muestrales.
El muestreo debe ser aleatorio y con reposicion, para asegurar que al extraer
(o simular) una unidad la poblacion siempre esta igual y todos los individuos
tienen las mismas posibilidades de ser elegidos.
12.2. Distribuciones en el muestreo
Objetivo: introducir la notacion y los elementos fundamentales de la Inferencia.
Es esencial tener en cuenta que los parametros poblacionales son constantes
desconocidas (nunca varan) que se pretenden aproximar, mientras que los
descriptivos muestrales varan con la muestra que se obtenga por azar.
Como los procedimientos tienen que ser validos para cualquier muestra, se
consideraran muestras genericas. Se llama muestra aleatoria simple al con-
junto de valores genericos (X
1
, X
2
, . . . , X
n
) asociados a n individuos que se
deben elegir al azar.
Las muestras concretas se llaman realizaciones muestrales para distinguirlas
de las genericas, y se denotan con letras min usculas (x
1
, . . . , x
n
).
Se llama estadstico a cualquier funcion que depende de la muestra.
Se llama estimador a un estadstico que se utiliza para dar un pronostico
acerca de un parametro de la distribucion.
Los estimadores, como la media muestral X
n
=
X
1
+...X
n
n
, no son valores
concretos, si no variables aleatorias (que varan con la muestra que se seleccio-
ne).
Al evaluar la media muestral en una realizacion muestral concreta, se obtiene un
valor de la variable aleatoria media muestral que se denomina estimacion.
76
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
El Teorema Central del L

mite en Inferencia
12.3. El Teorema Central del Lmite en Inferencia
El TCL asegura que cualquiera que sea la distribucion de X, la distribucion de la
variable media muestral se parece a una distribucion normal cuando el tama no
muestral n es sucientemente grande (siempre que
2
X
< ).
Para formalizar bien el TCL, debe utilizarse la idea anterior junto con la propiedad
de tipicacion. Sea cual sea la distribucion de X se tiene que el estadstico
T
n
=
X
n

n
se aproxima a una N(0; 1) si n es sucientemente grande. Esta propiedad es uno de
los pilares de la inferencia estadstica.
Normalmente con n 30 la aproximacion funciona bastante bien, aunque para
distribuciones muy asimetricas se necesitan tama nos de muestra superiores.
12.4. Tipos de problemas en inferencia
Estimacion puntual: el objetivo es aproximar un parametro poblacional desconocido
(, p, , etc.) mediante un unico n umero obtenido a partir de la muestra.
Estimacion por intervalo: el objetivo es obtener un rango o intervalo de valores
donde podra estar el parametro con cierto grado de conanza a partir de la
muestra.
Contraste o test de hipotesis: el objetivo es corroborar o invalidar cierta arma-
cion que se hace sobre el parametro u otra caracterstica de la distribucion a
partir de la muestra.
Problemas propuestos: Problema 12.2 y Problema 12.3.
77
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Introducci

on a la inferencia
12.5. Problemas
12.1 Los datos del Problema 2.1 se corresponden con un muestreo aleatorio del bosque
reforestado y el interes se centra en conocer la altura media de los arboles de dicho
bosque, crees que se podra realizar hacer una inferencia?, como plantearas el
problema?
12.2 Lanza 5 veces una moneda (o simula el experimento con ayuda de un ordenador)
y anota el n umero de caras. Repite el mismo experimento 20 veces.
a) Como modelaras la variable aleatoria n umero de caras en 5 lanzamientos
de la moneda? Representa gracamente la distribucion de probabilidad de
esa variable.
b) Representa gracamente los datos que has obtenido al repetir 20 veces el
experimento y compara el resultado con la distribucion de probabilidad del
Apartado a).
c) Calcula y compara la media y la desviacion de la variable del Apartado a)
y la media y desviacion de la muestra del Apartado b).
d) Si se esta interesado en la probabilidad de obtener cara con la moneda que
has lanzado, como modelaras el experimento?, cual sera el parametro
desconocido? Con los datos que ya tienes, crees que se podra realizar hacer
una inferencia?
12.3 En una parcela de duna costera hay 23 plantas de cierta especie vegetal y se mide
la altura de cada una de ellas.
a) Si se esta interesado en conocer la altura media de las plantas de esa parcela,
se debe plantear un problema de inferencia?, como?
b) Crees que la distribucion de la altura de las plantas de esa parcela puede
ser normal? y aproximadamente?
c) Si se esta interesado en conocer la altura media de las plantas de la duna,
como plantearas el problema?, crees que conocer la altura de las plantas
de esa parcela es suciente?
d) Si se esta interesado en vericar si la altura media de las plantas alcanza el
umbral crtico de 1 m, como plantearas el problema?, crees que conocer
la altura de las plantas de esa parcela es suciente?
78
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 13
Estimacion puntual y por intervalo
Contenido
13.1 Estimacion puntual . . . . . . . . . . . . . . . . . . . . . . . . . . 79
13.2 Estimacion por intervalo . . . . . . . . . . . . . . . . . . . . . . . 80
13.2.1 Precision y abilidad de los intervalos de conanza . . . . . 83
13.2.2 Error de muestreo: tama nos muestrales . . . . . . . . . . . . 84
13.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Objetivos especcos
Tomar contacto con el problema de estimacion puntual de parametros y com-
prender sus limitaciones.
Comprender la importancia de considerar el error de muestreo en la estimacion.
Entender el papel de los intervalos de conanza, familiarizarse con su calculo
y su interpretacion en la practica.
Asimilar los conceptos de precision y conanza y los elementos que inuyen su
balance.
13.1. Estimacion puntual
Paso 1: Elegir el estimador adecuado.
79
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Estimaci

on puntual y por intervalo


a) Para estimar , el estimador es la media muestral X.
b) Para estimar , el estimador es la cuasi-desviacion muestral

S
X
.
c) Para estimar p, el estimador es la proporcion muestral de exitos p.
Paso 2: Realizar los calculos para la muestra disponible e interpretarlos.
Paso 3: Extraer la conclusion referida a la poblacion.
Todos los estimadores del Paso 1 tienen muy buenas propiedades:
El valor esperado de los estimadores es el parametro correspondiente, es decir,
los estimadores toman valores en torno a la cantidad que se desea estimar.
Cuanto mayor es el tama no muestral menor es la variacion, es decir, los valores
de los estimadores se concentra mas en torno a la cantidad a estimar.
La estimacion puntual es muy concreta, en el sentido de dar un valor exacto como
pronostico para el parametro desconocido (aunque la estimacion puede variar mucho
de muestra en muestra).
Sin embargo, no se tiene ninguna informacion acerca de la precision, es decir, del
margen de error que se puede estar cometiendo al aproximar, lo que limita bastante
su utilidad.
Problemas propuestos: Apartados a), b) y c) del Problema 13.1, Problema
13.2 y Problema 13.3.
13.2. Estimacion por intervalo
Objetivo: obtener un intervalo o rango de valores entre los que se podra encontrar
el parametro que se desconoce con cierto grado de conanza.
Ventaja: se tiene una medida del error que se comete (el grado de conanza).
Problema generico: encontrar dos cantidades que dependan de la muestra aleatoria
entre los que se encuentre el parametro desconocido ( o p) con probabilidad
alta.
80
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Estimaci

on por intervalo
Esa probabilidad recibe el nombre de grado, coeciente o nivel de conanza
y se suele denotar por 1 .
Los niveles de conanza habituales en la practica son 1 = 0,9, 1 = 0,95
y 1 = 0,99. Si no se indica explcitamente, se supone que 1 = 0,95.
En todo este apartado la probabilidad se reere a la poblacion de todas las
posibles muestras, ya que las estimaciones varan de muestra en muestra y se
pretende controlar la probabilidad de que la estimacion no sea buena.
Metodo de estimacion por intervalo
Paso 1: Fijar el nivel de conanza 1 , expresar el problema generico matematica-
mente e interpretarlo.
a) Para estimar se buscan dos cantidades L
1
y L
2
que dependen de la muestra
aleatoria X
1
, . . . , X
n
, de modo que esta entre ellas con probabilidad 1:
P(L
1
(X
1
, . . . , X
n
) L
2
(X
1
, . . . , X
n
)) = 1 .
Si 1 = 0,95, esto signicara que para el 95 % de las muestras es-
tara entre los valores que se obtengan para L
1
y L
2
, sin embargo, habra un
5 % de muestras para las que no este entre esos valores.
Entre todas las muestras habra un 95 % de muestras buenas y un 5 %
de muestras malas.
Una vez que se tenga una muestra concreta, no se puede saber si es del
95 % de las buenas o del 5 % de la malas. Lo unico que se podra decir
al nal es que se confa en que la muestra sea de las buenas (porque son
mayora).
b) Para estimar p se buscan dos cantidades L
1
y L
2
que dependen de la muestra
aleatoria generica Y
1
, . . . , Y
n
, de modo que
P(L
1
(Y
1
, . . . , Y
n
) p L
2
(Y
1
, . . . , Y
n
)) = 1 .
La interpretacion sera igual que la anterior sustituyendo por p.
Paso 2: Encontrar la solucion generica. Este paso no es necesario cuando se reali-
zan los calculos con un programa estadstico, sin embargo resulta muy util para
entender los factores que inuyen en la calidad de las estimaciones por intervalo:
81
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Estimaci

on puntual y por intervalo


a) Para estimar , si la variable X sigue una distribucion normal, la solucion
generica es
P
_
X t

S
X

n
X +t

S
X

n
_
= 1 ,
t

se obtiene a partir de la distribucion t de Student con n 1


grados de libertad (t
n1
) como el valor que verica que que
P(t

t
n1
t

) = 1 ,
lo que gracamente se representa en la Figura 13.1.
t
Figura 13.1: t

en la distribucion t de Student.
La distribucion t de Student vara con n (los grados de libertad) y se
parece mucho a la normal. Cuanto mas grande es n, mas se parece.
La diferencia es que las colas de la distribucion t son mas pesadas.
Para cualquier n, al aumentar la conanza, aumenta el valor de t

.
b) Para estimar , si la variable X no sigue una distribucion normal pero
n 100, el TCL y otros resultados de aproximacion indican que la solucion
generica es aproximadamente
P
_
X z

S
X

n
X +z

S
X

n
_
1 ,
donde z

es el valor que verica que


P(z

Z z

) = 1
y Z denota una N(0; 1) (analogo a la Figura 13.1).
82
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Estimaci

on por intervalo
b) Para estimar p, si n 100, el TCL y otros resultados de aproximacion
indican que la solucion generica es aproximadamente
P
_
p z

_
p(1 p)
n
p p +z

_
p(1 p)
n
_
1 ,
donde z

es el valor que verica que


P(z

Z z

) = 1
y Z denota una N(0; 1).
Paso 3: Realizar los calculos con la muestra disponible.
Paso 4: Extraer la conclusion referida a la poblacion.
Problemas propuestos: Apartados d) y e) del Problema 13.1 y Problemas 13.4
y 13.5.
13.2.1. Precision y abilidad de los intervalos de conanza
Precision: a menor amplitud, mayor precision y mas informacion proporcionara el
intervalo.
Si se denotan t

y z

genericamente por a

, la amplitud u horquilla al estimar


la media es a

S
X

n
y al estimar la proporcion, a

_
p(1 p)
n
.
Fiabilidad: cuanto mayor sea el grado de conanza, mas abilidad.
Factores que inuyen en la precision y la abilidad:
A mayor conanza (o abilidad), mayor a

y mayor amplitud (menor preci-


sion).
A mayor tama no muestral, menor amplitud (mayor precision).
A mayor

S
X
(o
_
p(1 p)), mayor amplitud (menor precision).
83
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Estimaci

on puntual y por intervalo


13.2.2. Error de muestreo: tama nos muestrales
Error de muestreo: error que se comete al estimar por X, |X| (analogamente
para p).
Error maximo de muestreo a nivel (1 ): = a

S
X

n
.
la distancia entre cualquier valor del intervalo de conanza (posibles ) y la
media (|X |) es como mucho con una conanza de (1 ).
La formula del error maximo se puede utilizar para determinar n jado el que
se esta dispuesto a asumir a cierto nivel (1 ). Para ello se necesita conocer
alguna estimacion

S
X
(que puede provenir de un muestreo piloto):
n
0
=
_
a

S
X

_
2
.
Con eso se obtendra una cota inferior para el tama no muestral necesario. Es
decir, cualquier n n
0
proporcionara un error maximo de con una conanza
de, al menos, (1 ).
Problemas propuestos: Apartados f), g) y h) del Problema 13.1 y Proble-
ma 13.6.
84
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
13.3. Problemas
13.1 Sabiendo que los datos del Problema 2.1 se corresponden con un muestreo alea-
torio del bosque reforestado,
a) Estima la altura media de los arboles de dicho bosque mediante un unico
valor.
b) Estima la variabilidad de la altura de los arboles mediante un unico valor.
c) Estima el porcentaje de abedules en la reforestacion mediante un unico valor.
d) Estima la altura media de los abedules con una conanza del 95 % dese-
chando los valores atpicos y suponiendo (si lo consideras adecuado) que la
altura de dichos arboles se distribuye como una normal.
e) Estima la proporcion de abedules de la reforestacion con una conanza del
90 % teniendo en cuenta que en una ampliacion del muestreo a 120 arboles
se encontraron 48 abedules.
f ) Que tama no muestral se necesitara para estimar la altura media de todos
los arboles con un error maximo de 5 cm en el 95 % de las ocasiones?
g) Indica el error maximo (aprox.) de muestreo de estimar el diametro medio
poblacional por el muestral con una conanza del 99 %.
h) Que tama no de muestra te parece apropiado para estimar el diametro medio
con un error maximo de 50 mm en el 90 % de las ocasiones?
13.2 Se seleccionaron 90 obras al azar de una gran constructora y se constato que
31 de ellas no cumplan la memoria de calidades, podras estimar la proporcion
de obras en las que se cumple la memoria de calidades?, es buena la estimacion?
13.3 En un estudio cardiovascular consideran a los pacientes de riesgo cuando someti-
dos a cierta actividad superan las 140 pulsaciones. Las pulsaciones de 12 pacientes
elegidos al azar y sometidos a esa actividad fueron de 123, 152, 145, 96, 156, 122,
131, 125, 87, 145, 117 y 96.
a) Estima el n umero medio de pulsaciones y la variabilidad. Explica el signi-
cado de esas estimaciones.
b) Estima la proporcion de pacientes de riesgo, cual es el error de esa estima-
cion?
85
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Estimaci

on puntual y por intervalo


13.4 Se selecciono una muestra aleatoria de 20 piezas manufacturadas en una fabrica
y se anoto el tiempo de produccion en minutos obteniendose los siguientes da-
tos: 66,5, 35,1, 28,7, 45,0, 40,9, 59,2, 40,0, 39,4, 40,1, 37,6, 51,7, 40,0, 31,2,
41,9, 39,1, 37,2, 48,3, 21,0, 41,8 y 36,3. Sabiendo que el tiempo de produccion
se comporta normalmente, entre que valores se encuentra el tiempo medio de
produccion con una conanza del 95 %?
13.5 Para estudiar la longitud de las piezas que produce una maquina se midio cierto
n umero de piezas elegidas al azar obteniendose los siguientes resultados.
Longitud (en mm) 93 94 95 96 97 98 99 100 101 102
Frecuencia 3 2 10 17 31 19 12 4 3 1
a) Podras decir de forma aproximada la longitud media de todas las piezas?,
da la aproximacion que consideres mas adecuada.
b) Si una pieza se considera defectuosa si su longitud es superior a 100 mm o
inferior a 95 mm, estima con una conanza del 99 % la probabilidad de que
la maquina produzca piezas sin defectos.
13.6 Estima por intervalo con una conanza del 90 %, 95 % y 99 % la proporcion de
accidentes que provocan bajas superiores a 1 semana en cierta empresa multina-
cional sabiendo que en una muestra de 120 accidentes elegidos al azar, 19 causaron
bajas superiores a 1 semana y comenta los resultados. Que se podra hacer para
obtener una estimacion mas precisa? Calcula el tama no muestral que se necesi-
tara para estimar puntualmente la proporcion de accidentes que provocan bajas
con un error maximo del 1 % en el 95 % de las ocasiones.
86
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 14
Contrastes de hipotesis
parametricas
Contenido
14.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
14.2 Metodo de contraste de hipotesis . . . . . . . . . . . . . . . . . . . 89
14.3 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Objetivos especcos
Comprender la importancia de formalizar los test estadsticos distinguiendo
una hipotesis nula y una alternativa que cubran todas las posibilidades. Ello
ayudara a asimilar el criterio estadstico de decision por analoga a la presuncion
de inocencia.
Valorar los distintos errores que se pueden cometer al tomar una decision en
un test y como se manejan en el contexto estadstico.
Familiarizarse con la tecnica de contraste de hipotesis para aplicarla con rigor
en los problemas reales e interpretar correctamente los resultados.
87
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Contrastes de hip

otesis param

etricas
14.1. Introduccion
Objetivo: establecer un metodo para validar o rechazar armaciones acerca del
parametro desconocido a partir de una muestra.
Test estadstico: dos hipotesis que cubren todas las posibles situaciones que pueden
darse: una hipotesis contendra la armacion que se pretende validar o descartar
y la otra sera su contraria.
Criterio estadstico: presuncion de inocencia. Se supondra que una hipotesis es
cierta (inocente) a menos que la evidencia (muestral) indique lo contrario.
H
0
hipotesis nula: la que se considera cierta en un principio.
H
1
hipotesis alternativa: lo contrario de la hipotesis nula.
Tipos de errores:
H
0
es cierta H
0
es falsa
Se rechaza H
0
Error de tipo I Ning un error
No se rechaza H
0
Ning un error Error de tipo II
No es posible controlar los dos errores a la vez.
Como el error mas crtico es el de tipo I, los procedimientos de tests de hipotesis
se concentran en mantener ese error dentro de unos lmites.
El error de tipo II no se controla directamente, pero sera mas peque no cuanta
mas informacion muestral se tenga.
Se trata de determinar si sera o no creble que saliese una muestra como la que
se obtuvo si la hipotesis nula fuese cierta (presuncion de inocencia). Si fuese
muy extra no se rechazara H
0
y si no lo fuese, no se rechazara (ganara la
duda razonable).
El valor que ja el margen de error (duda razonable) es el nivel de signi-
cacion. Los valores habituales para son 0,05 y 0,01. Si no se dice nada, se
supone que = 0,05.
En el caso de la media (como ejemplo) denotando genericamente por a el
valor con el que se compara , se tiene que H
1
puede ser de 3 tipos:
tipo desigualdad H
1
: = a.
88
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
M

etodo de contraste de hip

otesis
tipo mayor H
1
: > a,
tipo menor H
1
: < a.
14.2. Metodo de contraste de hipotesis
Paso 1: Expresar el problema generico matematicamente, expresando formalmente H
0
y H
1
, jar el nivel de signicacion e interpretarlo.
Se escribe la armacion que se quiere contrastar y su opuesto en funcion del
parametro de interes ( o p).
La hipotesis nula H
0
debe contener la igualdad y no tiene porque coincidir con
la armacion que se plantea.
Se ordena el contraste poniendo siempre H
0
primero y H
1
despues.
Paso 2: Realizar los calculos con la muestra disponible: obtener el p-valor de dos colas.
Se recomienda hacer el calculo con ayuda de un programa estadstico. No obstante
se pueden entender los resultados razonando como sigue.
Para saber si la muestra disponible es afn o no a H
0
hay que medir la distancia
relativa de los resultados muestrales a la armacion que se hace en la hipotesis
nula, para lo que se utiliza el concepto de p-valor asociado a uno de los siguientes
estadsticos:
a) Si el parametro a contrastar es y X es normal, por la reproductividad
de la normal y otros resultados se tiene que
T =
X

S
X
/

n
t
n1
.
b) Si el parametro a contrastar es , X no es normal pero la muestra es de
tama no sucientemente grande (n 100), por el TCL y otros resultados
de aproximacion se tiene que
T =
X

S
X
/

n
N(0, 1).
c) Si el parametro a contrastar es p y la muestra es sucientemente grande
(n 100) por el TCL se tiene que
89
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Contrastes de hip

otesis param

etricas
T =
p p
_
p(1 p)/n
N(0, 1).
el pvalor es la proporcion de muestras para las que el estadstico tomara un
valor mas alejado de H
0
del que se obtuvo para la muestra disponible. Indica
lo verosmil que sera la realizacion muestral concreta si fuese cierta H
0
.
Si se representa la funcion de densidad del estadstico, el pvalor coincide con
el area de la zona menos afn a H
0
(lo que concuerda con H
1
).
Si H
0
es = a, hay que dejar un margen de error en torno al valor 0 (que
representa la concordancia total con H
0
) y marcar lo que este por encima del
valor del estadstico en positivo (que sera lo que se aleja por exceso, > a) y
lo que este por debajo del valor del estadstico en negativo (que sera lo que se
aleja por defecto, < a). Gracamente:
Los programas estadsticos suelen proporcionar el pvalor de dos colas.
El pvalor de dos colas coincide con el pvalor buscado si el test es tipo
desigualdad. En caso contrario, hay que hacer alguna operacion adicional en
el Paso 3.
Paso 3: Calculo e interpretacion del pvalor del test.
Si H
1
es de tipo mayor hay que marcar todo lo que esta por encima del valor
del estadstico t (con el signo que se haya obtenido), ya que interesa lo que se
aleja mas que la muestra disponible por exceso. Gracamente:
90
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
M

etodo de contraste de hip

otesis
Graca de la izquierda: si t es negativo, el area marcada es el p-valor de dos
colas, q, menos la cola de la izquierda, es decir, 1 q/2.
Graca de la derecha: si t es positivo, el area marcada es justo la cola derecha,
es decir, la mitad del p-valor de dos colas q/2.
Si H
1
es de tipo menor hay que marcar todo lo que este por debajo del valor
del estadstico (con el signo que se haya obtenido), ya que interesa lo que se
aleje mas que la muestra disponible por defecto y el calculo del p-valor sera
analogo. Gracamente:
Paso 4: Extraer la conclusion referida a la poblacion.
Como se rechaza si la muestra disponible esta entre el 5 % de las muestras mas
raras, la regla de decision sera:
Si pvalor , no se rechaza H
0
.
Si pvalor < , se rechaza H
0
.
Ejercicios propuestos: Problemas 14.1, 14.3, 14.5 y 14.6.
91
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Contrastes de hip

otesis param

etricas
14.3. Problemas
14.1 Sabiendo que los datos del Problema 2.1 se corresponden con un muestreo alea-
torio del bosque reforestado, descartando los datos atpicos y suponiendo que la
altura los abedules se distribuye como una normal.
a) Se puede armar que la altura media de los abedules es de 170 cm?
b) Crees que la altura media de los abedules supera los 180 cm?
c) Teniendo en cuenta que en la ampliacion del muestreo a 120 arboles el
diametro medio fue de 1,048 cm con una cuasi-desviacion tpica de 0,34 cm,
podra decirse que el diametro de todos los abedules es de al menos 1 cm
en media?
d) Teniendo en cuenta que en una ampliacion del muestreo a 120 arboles se
encontraron 48 abedules. Es correcto armar que menos de la mitad de los
arboles de la reforestacion son abedules?
14.2 Las ayudas que recibira cierta region sudamericana para paliar los da nos cau-
sados por las fuertes lluvias dependen de la proporcion de poblacion afectada
gravemente por dichas lluvias. Recibiran una ayuda de 1500000 e si mas de un
cuarto de la poblacion esta gravemente afectada y si no la ayuda sera unicamente
de 500000 e. El organismo encargado de conceder las ayudas ha revisado 200
expedientes elegidos al azar de esa region y ha constatado que unicamente 34
de ellos correspondan a gente afectadas gravemente, que ayuda crees que les
concederan?
14.3 Un productor agrcola asegura que la altura media de sus tomateras es de 1 m,
mientras que uno de sus compradores dice que la altura media no pasa de 90
cm. Para comprobar o desmentir dichas armaciones se tomo una muestra de 25
plantas y se anoto su altura en cm. Los datos obtenidos fueron: 86, 95, 92, 91,
76, 77, 92, 111, 93, 92, 92, 83, 109, 86, 91, 77, 80, 105, 102 y 101. Sabiendo que la
altura de las tomateras de ese productor se distribuye de forma aproximadamente
normal,
a) Crees que efectivamente la altura media de todas es de 1 m?
b) Crees que lo que dice el comprador es cierto?
92
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
14.4 Para comprobar si puede decirse que el tiempo medio de embalaje de determina-
dos paquetes es inferior a un cuarto de hora se cronometro el tiempo dedicado a
algunos paquetes elegidos al azar. Los datos fueron:
16 13 21 15 16 20 15 15 18 13 16 19 12 15 14 15 13 19 20 12
16 17 16 17 16 15 18 16 16 17 12 9 18 19 17 13 15 23 14 15
19 19 13 21 17 14 16 19 19 10 21 15 17 16 12 19 15 13 10 18
Crees que efectivamente el tiempo medio de empaquetado es inferior a un cuarto
de hora?
14.5 En cierto estudio sobre el ramoneo sufrido por los rebrotes en un monte se se-
leccionaron 113 rebrotes al azar y se comprobo que 37 de ellos haban sufrido un
ramoneo intenso. Podra decirse que mas de un tercio de los rebrotes del monte
sufren un ramoneo intenso?
14.6 El pH medio que sale de una planta de ltracion debe ser de 7,0 por ley. El Ayun-
tamiento sospecha que es posible que cierta planta no cumpla con la normativa.
Se tomaron 15 muestras de agua de esa planta y se obtuvo un pH de 6,7, 7,1,
6,8, 6,9, 7,3, 7,5, 6,5, 6,6, 7,3, 7,1, 6,3, 6,8, 7,0, 7,1 y 6,8. Sabiendo que el pH
vara seg un una distribucion normal, hay razon para dudar que se mantiene la
especicacion?
93
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tema 15
Dependencia y regresion
Contenido
15.1 Tablas de contingencia e independencia . . . . . . . . . . . . . . . 95
15.2 Regresion simple descriptiva . . . . . . . . . . . . . . . . . . . . . 96
15.3 Inferencias sobre la regresion lineal simple . . . . . . . . . . . . . . 97
15.4 Regresion y correlacion curvilnea . . . . . . . . . . . . . . . . . . 99
15.5 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Objetivos especcos
Comprender el concepto de relacion estadstica y las ventajas de formalizar
dicha relacion mediante funciones cuando sea posible.
Reconocer la importancia de realizar las inferencias de manera rigurosa para
hacer predicciones ables en la practica.
Familiarizarse con los tipos de regresion funcional mas usuales y con los criterios
logicos de eleccion de modelos.
15.1. Tablas de contingencia e independencia
Tabla de contingencia: tabla de frecuencias de dos variables X e Y (discretas)
en las que las modalidades de cada una de las variables aparecen en la primera
95
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Dependencia y regresi

on
la y columna respectivamente y la frecuencia de cada par de modalidades (x, y)
aparece en el cruce de la la x y la columna y.
Distribuciones marginales: distribuciones de las variables X e Y por separado.
Distribucion condicionada: distribucion de una variable cuando se consideran solo
ciertas modalidades de la otra.
Independencia estadstica: conocer el valor que toma una de las variables no aporta
ninguna informacion acerca de la distribucion de la otra variable.
Para variables estadsticas se puede comprobar manualmente o bien con la
ayuda de alg un programa estadstico.
Test
2
de independencia: para variables discretas (para variables continuas es
mas interesante la dependencia funcional, que se vera posteriormente).
H
0
: X e Y son (estadsticamente) independientes
H
1
: X e Y no son (estadsticamente) independientes
Calculo del p-valor: programas estadsticos.
Requiere que no mas de un 20 % de las casillas tengas frecuencia esperada bajo
H
0
menor que 5. En caso contrario hay que agrupar.
Metodo aproximado able para muestras relativamente grandes (mejora con la
correccion de Yates y con la prueba exacta de Fisher para tablas 2 2).
Problemas propuestos: Problemas 15.1, 15.2 y 15.3.
15.2. Regresion simple descriptiva
Objetivo: encontrar una formula para describir o explicar aproximadamente la rela-
cion entre dos variables continuas X e Y .
Diagrama de dispersion: representacion de todos los pares de valores (x
i
, y
i
) que
aparecen en la muestra sobre un eje de coordenadas.
Permite detectar si existe alg un tipo relacion aproximada (lineal o curvilnea)
entre las variables representadas.
96
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Inferencias sobre la regresi

on lineal simple
La variable X que se representa en el eje de las equis se llama variable inde-
pendiente.
Regresion lineal: consiste en encontrar la ecuacion de la recta y =

b
0
+

b
1
x que mas
se aproxima a la nube de puntos, determinando para ello los valores de

b
0
y

b
1
.
Criterio de proximidad: mnimos cuadrados.
Los calculos los realiza cualquier programa estadstico.
Se puede utilizar para aproximar Y (variable dependiente) en funcion de X
(variable independiente) si se conoce un valor x
0
que se encuentre entre el
mnimo y el maximo de la muestra (interpolacion): y(x
0
) =

b
0
+

b
1
x
0
.
Coeciente de determinacion R
2
: proporcion de variacion de la variable Y que se
explica por su relacion lineal con X.
R
2
= 1: el 100 % de la variacion de Y queda determinada por la recta, es decir,
todos los puntos de la nube estaran justo sobre la recta.
La recta de regresion sera una buena aproximacion cuando los puntos de la
muestra estan proximos a ella, i.e. cuando R
2
este proximo a 1.
Coeciente de correlacion de Pearson r: forma alternativa de medir el grado de
relacion lineal entre X e Y .
Es mas difcil de interpretar que el coeciente de determinacion.
Su signo indica el sentido de la relacion.
Problemas propuestos: Apartados de a) a e) del Problema 15.4 y Problemas
15.5 y 15.6.
15.3. Inferencias sobre la regresion lineal simple
Modelo de regresion poblacional: [Y |(X = x)] = f(x) + (x) donde (x) es el
error aleatorio de media cero para cada x.
Si f(x) = b
0
+b
1
x se llama modelo de regresion lineal.
97
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Dependencia y regresi

on
Problema inferencial: estimar b
0
y b
1
a partir de la muestra y analizar la signica-
tividad. Tecnicamente se trata de aproximar
[Y |X=x]
de forma que la ecuacion
de la recta obtenida sea la que mas variabilidad de Y explique.
Otras inferencias: intervalos de conanza para los parametros teoricos de la regre-
sion y para las predicciones y el test de independencia lineal.
Los programas estadsticos realizan esos calculos suponiendo algunas hipotesis
previas sobre los errores.
Ligeras desviaciones de las hipotesis ideales no invalidan el metodo, por lo
que se suelen comprobar con gracos.
Los gracos se basan en los errores muestrales o residuos, es decir, la distancia
entre los valores reales y los estimados por la regresion.
Hipotesis previas:
Linealidad: los datos en la nube de puntos deben parecerse a una recta. Alterna-
tivamente el graco de residuos tipicados (Zres) frente a valores pronosticados
tipicados (Zpred) debe variar alrededor del 0 y sin presentar ning un tipo de
estructura.
Homoscedasticidad: la nube de puntos debera enmarcarse (aprox.) entre dos rectas
paralelas o el graco Zres/Zpred no debe presentar tendencias.
Normalidad: histograma frente a curva normal o un graco de probabilidad normal
(P-P) frente a la probabilidad acumulada ideal para los residuos. A veces la falta
de normalidad se debe a la presencia de valores atpicos.
Conviene revisar los residuos tipicados que sobrepasen el rango [-3,3].
Autocorrelacion: el valor en el dato i no debe depender del dato i 1. El estadstico
de Durbin-Watson que proporcionan la mayora de los paquetes estadsticos (que
suele variar entre 0 y 4) tiene que estar proximo a 2.
Problemas propuestos: Apartados de f) a k) del Problema 15.4 y Problema
15.7.
98
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Regresi

on y correlaci

on curvil

nea
15.4. Regresion y correlacion curvilnea
De forma analoga a lo que se hizo para la funcion lineal, se pueden considerar otras
ecuaciones que pueden adaptarse mejor a la nube de puntos.
Las regresiones curvilneas mas habituales son:
Polinomiales: f(x) = b
0
+b
1
x +b
2
x
2
+... +b
p
x
p
Logartmica: f(x) = b
0
+b
1
ln(x).
Inversa f(x) = b
0
+b
1
/x.
Potencial f(x) = b
0
x
b
1
.
Exponencial f(x) = b
0
e
b
1
x
.
Se pueden calcular distintos modelos curvilneos con ayuda de un programa estadsti-
co y elegir el mejor de ellos.
El modelo que mejor ajusta es el de mayor R
2
, pero tambien hay que tener en
cuenta la simplicidad (menor n umero de parametros a estimar) y la logica natural
del modelo.
La inferencia es analoga a la visto para la regresion lineal y requiere la vericacion de
los supuestos previos (substituyendo la prueba de linealidad por la correspondiente
a la curva considerada).
La regresion curvilnea se puede utilizar para realizar predicciones si se conoce un
valor de la variable independiente que se encuentre entre el mnimo y el maximo de
la muestra (interpolacion).
Problemas propuestos: Problemas 15.8, 15.9 y 15.10.
99
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Dependencia y regresi

on
15.5. Problemas
15.1 En la siguiente tabla se muestran datos sobre tabaquismo en dos ciudades de una
comunidad.
Ciudad A Ciudad B
Fumador 36000 67500
No fumador 204000 382500
Compara la distribucion de fumadores/no fumadores en ambas ciudades.
15.2 En la siguiente tabla se representa cierta informacion meteorologica recogida
durante 16 das en una poblacion
X\Y Nuboso Despejado
0-3 4 4
3-6 4 2
6-10 2 0
donde X representa la temperatura mnima diaria e Y la nubosidad de la jornada.
a) Representa gracamente ambas variables y describe su distribucion.
b) Entre los das que hay menos de 6, es mas frecuente que este nuboso o
despejado?
c) Crees que en esa poblacion hay una relacion estadstica signicativa entre
temperatura mnima diaria y la nubosidad?
15.3 Se ha seleccionado una parcela al azar de cierto monte, registrandose la circunfe-
rencia a 1,30 metros del suelo (en cm) de cada uno de los arboles de dicha parcela
y su posicion dentro del piso de vegetacion (I: arbol dominante, II: arbol domi-
nado y III: arbol que solo pertenece al subpiso inferior). En la siguiente tabla se
muestra el n umero de arboles de cada grupo
100
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
Circunferencia \ Piso I II III
[55,65] 0 0 2
(65,75] 1 3 1
(75,85] 8 5 0
(85,95] 23 12 0
(95,105] 32 13 0
(105,115] 41 4 0
(115,125] 38 0 0
(125,135] 15 0 0
(135,145] 4 0 0
(145,155] 1 0 0
a) Como se distribuye la circunferencia de los arboles?, y el piso?, en que pi-
so hay mas arboles?
b) Calcula la medida de tendencia central y de dispersion que consideres mas
adecuada para cada variable y explica su signicado.
c) Describe el piso de vegetacion para aquellos arboles cuya circunferencia no
supero los 115 cm.
d) Que circunferencia tienen como mnimo el 30 % de los arboles dominantes
mas grandes?
e) Calcula la distribucion de frecuencias relativas de la circunferencia para
los distintos pisos y comparalas. Que conclusion extraes de ello? Como
resumiras cada una de las distribuciones de frecuencias anteriores?
15.4 Sabiendo que los datos del Problema 2.1 se corresponden con un muestreo alea-
torio del bosque reforestado y considerando unicamente las especies mayoritarias
(abedul y roble).
a) Crees que hay alguna relacion entre la calidad y la especie?
b) Representa gracamente la relacion entre el diametro y la altura de los
abedules.
c) Calcula la recta de regresion para expresar la altura como una funcion lineal
del diametro.
d) Que altura se espera que tenga un abedul con 1,7 cm de diametro?, y uno
con 4 cm de diametro?
101
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Dependencia y regresi

on
e) Considerando solo los resultados muestrales, crees que son ables las pre-
dicciones?
f ) Se verican las hipotesis que validan los resultados muestrales como esti-
maciones relativas a todo el bosque?
g) Hay una relacion lineal signicativa entre la altura y el diametro de los
abedules?
h) Estima las parametros de la regresion indicando el error de muestreo a un
nivel de conanza del 95 %
i ) Entre que valores se encuentra la altura media de los abedules de 1 cm de
diametro con una conanza del 95 %?, y la altura de un abedul concreto
de esas caractersticas?
j ) Existe alguna relacion mejor que la lineal para predecir la altura de los
abedules en funcion de su diametro?
k) A partir de los datos muestrales, alrededor de que valor crees que estara la
altura de un abedul con 1,7 cm de diametro?
15.5 Seg un diversos informes el peso (P en kg) y la altura (A en cm) de los ado-
lescentes estan relacionados estadsticamente. Sin embargo, los investigadores de
cierto pas norteamericano sospechan que la gran variabilidad de dietas podra
enmascarar dicha relacion y dudan de su utilidad con nes predictivos. Para tra-
tar de vericarlo han seleccionado 15 adolescentes de ese pas al azar para los que
han obtenido los siguientes datos:
A 185 177 192 171 172 186 173 197 155 156 171 159 176 184 173
P 74 69,6 109,3 73,2 46,6 76,4 71,8 63,2 69,5 65,8 68,5 69,4 66,6 98,5 81,4
a) Representa gracamente los datos y comenta si aprecias alguna relacion
entre las variables.
b) Podras dar el peso aproximado de un adolescente que mida 1,76 m?
15.6 En una planta se destila aire lquido para producir oxgeno, nitrogeno y argon.
Se cree que el porcentaje de impureza del oxgeno P esta linealmente relacionado
con la cantidad de impurezas C que hay en el aire (medida mediante el conteo
de contaminacion en partes por millon, ppm). Se midio la cantidad de impurezas
102
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
en 15 muestras de aire lquido y la pureza del oxgeno obtenido a partir de este
con los siguientes resultados:
P 93,3 92,0 92,4 91,7 94,0 94,6 93,6 93,1 93,2 92,9 92,2 91,3 90,1 91,6 91,9
C 1,10 1,45 1,36 1,59 1,08 0,75 1,20 0,99 0,83 1,22 1,47 1,81 2,03 1,75 1,68
a) Determina el mejor modelo descriptivo que relaciona la pureza de oxgeno
y el recuento de contaminacion.
b) Calcula el coeciente de determinacion de la mejor relacion que encuentres
e interpretalo.
c) Puedes realizar una prediccion de la pureza de oxgeno que se obtendra cuan-
do se destila aire lquido que presenta una contaminacion de 1.80 ppm?, y
si la contaminacion fuese de 4 ppm?
d) Al destilar aire lquido la pureza del oxgeno obtenido fue del 92 %, pue-
des realizar una prediccion del recuento de contaminacion del aire lquido
empleado?
15.7 En un estudio forestal se anoto la altura en metros de los rebrotes principales
de algunos arboles elegidos al azar de cierta zona en oto no de 2008 (O) y en
primavera de 2009 (P). Los datos obtenidos fueron
O 0,48 1,11 0,60 0,69 0,69 0,93 1,08 0,62 1,52 0,79 0,62 1,13 1,07 0,79 1,32
P 0,74 1,06 0,84 0,76 0,89 1,17 1,05 0,83 1,32 1,18 0,92 1,28 1,14 0,96 0,89
O 0,83 1,21 1,01 1,25 0,51 0,83 0,85 0,86 1,07 0,62 0,85 1,13 0,93 1,08 1,16
P 0,94 1,28 1,14 1,32 0,78 0,94 0,99 1,03 1,15 0,83 1,14 1,15 1,28 1,18 1,08
a) Hay relacion lineal signicativa entre la altura de los rebrotes en oto no y
en primavera?
b) Estima puntualmente y por intervalo la recta de regresion lineal e interpreta
los coecientes.
c) Estima la altura media en primavera de los rebrotes que medan 1 m en
Oto no por intervalo, podras estimar por intervalo la altura de un solo
rebrote de ese tipo?, cual es la diferencia?
15.8 Se han seleccionado 30 arboles de cierto bosque al azar y se ha medido su circun-
ferencia (C) a 1,30 m del suelo (en cm) y su volumen (V) (en dm
3
) obteniendose
los siguientes resultados
103
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Dependencia y regresi

on
C 58 70 74 78 80 86 89 90 93 95 98 100 100 103 104
V 270 388 471 317 519 902 575 737 855 1059 972 1079 924 1097 1291
C 107 109 111 113 115 118 119 121 124 128 131 131 138 140 144
V 1189 1380 1150 1337 1456 1370 1555 1748 1634 1927 1802 2293 1920 2391 2287
a) Describe y representa gracamente cada variable. Para cual de las variables
es mas representativa la media?
b) Representa gracamente la relacion existente entre ambas variables.
c) Indica cual de los siguientes modelos es mas apropiado para modelar el
volumen de los arboles de ese bosque en funcion de su circunferencia: V =
a
0
+ a
1
C, V = a
0
+ a
1
C + a
2
C
2
, V = a
0
C
a
1
, V = e
a
0
+a
1
log(C)
,
V = e
a
0
+a
1
log(C)+
a
2
C
d) Podras predecir el volumen de un arbol de ese bosque cuya circunferencia
a 1,30 m del suelo es de 84 cm?, y si la circunferencia fuese de 130 cm?,
son ables esas predicciones?
15.9 En cierto estudio se han seleccionado 40 arboles de especies distintas, 20 de la
especie A y otros 20 de la especie B. Se ha medido el diametro de cada arbol (en
cm) a 1,3 m del suelo (diametro normal) y, una vez derribado se ha determinado
su altura (en m) y su volumen (en dm
3
), obteniendose los siguientes datos:
Es Dia Alt Vol Es Dia Alt Vol Es Dia Alt Vol Esp Dia Alt Vol
A 7,9 4,0 19 A 15,7 7,5 60 B 8,0 4,0 18 B 13,9 6,1 64
A 9,3 4,2 21 A 16,2 8,3 66 B 8,7 4,2 19 B 14,1 7,7 82
A 10,3 4,8 23 A 16,6 7,9 63 B 9,8 4,3 36 B 14,8 7,8 92
A 11,6 5,9 33 A 16,7 7,5 63 B 10,5 5,5 53 B 15,5 7,8 96
A 12,3 5,4 24 A 17,2 8,0 75 B 11,3 5,2 44 B 15,7 7,8 100
A 13,5 5,2 31 A 18,0 6,6 70 B 12,2 5,6 53 B 16,0 8,0 95
A 13,6 5,9 37 A 19,4 9,9 105 B 12,3 6,5 58 B 16,1 7,1 83
A 13,8 6,9 47 A 19,5 10,7 129 B 12,9 5,9 67 B 18,8 10,4 165
A 14,4 6,4 45 A 19,9 9,1 103 B 13,5 6,3 65 B 19,9 13,8 237
A 15,5 6,3 44 A 21,9 10,2 125 B 13,9 6,0 60 B 21,2 11,9 203
a) Describe y representa gracamente las variables en estudio en funcion de la
especie.
104
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Problemas
b) Indica que modelo de regresion es mas apropiado para modelar el volumen
en funcion del diametro y la especie de estos arboles.
c) Estudia si es posible mejorar el ajuste usando tambien la informacion relativa
a la altura de esos arboles mediante el modelo V = a
0
+a
1
HD+a
3
(HD)
2
d) Podras predecir el volumen de un arbol de la especie A con diametro
normal de 12 cm y altura de 6 m?, cual sera tu prediccion si ese arbol
fuese de la especie B?, son ables esas predicciones?
15.10 En cierta parcela hay plantados 87 arboles de la misma especie. Se ha selecciona-
do uno de esos arboles al azar, se ha derribado y se ha medido su diametro en cm
(D) a diferentes alturas en m (H), as como su altura total (32 m), obteniendose
los siguientes resultados:
H 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5 12,5 13,5 14,5 15,5
D 89,7 77,4 70,3 68,1 67,1 66,2 65,5 64,9 65,2 64,2 64,9 64,5 64,2 66,8 56,6 55,6
H 16,5 17,5 18,5 19,5 20,5 21,5 22,5 23,5 24,5 25,5 26,5 27,5 28,5 29,5 30,5 31,5
D 53,4 52,2 51,5 50,8 39,4 38,1 37,1 31,5 30,9 30,3 22,0 16,7 16,0 14,3 11,3 8,0
Se sabe que el diametro a distintas alturas de todos los arboles de esta parcela
se puede modelar mediante la siguiente expresion: D
H
= a (H
T
H)
p
con H
[0, H
T
], siendo H
T
la altura total del arbol y a y p dos constantes caractersticas
de los arboles de la parcela.
a) Determina el valor de las constantes a y p por regresion, es bueno el ajuste
obtenido?, podras decir si hay una relacion lineal signicativa?
Bajo el modelo indicado el volumen del tronco de un arbol de esa parcela a
cualquier altura H [0, H
T
], V
H
, se puede aproximar mediante la expresion
V
H
=
_
H
0

_
D
s
2
_
2
=
_
a
2
4
__
H
2p+1
T
(H
T
H)
2p+1
2p + 1
_
b) Podras hacer una prediccion del volumen total del tronco de un arbol de
esa parcela cuya altura total es de 32 m?, y del volumen de su tronco desde
la base hasta una altura de 25 m?
c) Para un arbol de esa parcela cuyo diametro a una altura de 1,3 m es de 76
cm, podras hacer una prediccion del volumen total de su tronco? y del
volumen de su tronco desde la base hasta una altura de 25 m?
105
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Dependencia y regresi

on
Se ha medido el diametro a 1,3 m del suelo (D
1,3
) del resto de los arboles de la
parcela obteniendose los siguientes resultados:
D
1,3
(cm) [65,70] (70,75] (75,80] (80,85] (85,90]
N umero de arboles 6 18 33 21 8
d) Podras realizar una prediccion del volumen total de los troncos de los
arboles de la parcela? y del volumen medio por arbol?
e) Una empresa maderera considera aprovechable la parte del tronco cuyo
diametro sea de al menos 7 cm. Podras realizar una prediccion del volumen
total aprovechable de los troncos de los arboles de la parcela?, que porcen-
taje del volumen total no es aprovechable?
106
Modulo IV
Material adicional
Ejemplo de ejericios de Examen
A continuacion se muestra un ejemplo de ejercicios de examen con su correspon-
diente resolucion. El nivel de detalle de la solucion es el habitual de todos los ejercicios
que se resolveran en clase y, por tanto, el exigido en los diferentes ejercicios de desarro-
llar. Debe recordarse que en las pruebas de evaluacion pueden combinarse preguntas
tipo test, de respuesta corta y de desarrollar. Como en este caso, es habitual que el
examen conste de 4 preguntas, una referente a cada modulo mas una adicional rela-
tiva a la regresion dada su gran importancia en el contexto de la Ingeniera, y como
herramienta empleada en diversas asignaturas.
15.1 (2.5 puntos) En una prueba se registro el consumo de dos vehculos a lo largo
de 50 trayectos prejados. En la siguiente tabla se muestran algunos descriptivos
relativos al consumo en litros de carburante durante esa prueba.
Vehculo Media Desv. Tpica Mediana Cuartil 1 Cuartil 3
A 8,03 11,25 7,26 6,17 10,01
B 7,15 4,05 6,12 5,45 7,27
a) Explica que medida es mas adecuada para resumir el consumo de cada uno
de los vehculos. Interpreta la medida resumen seleccionada as como la
variabilidad que diras que hay en torno a dichos centros.
b) En uno de los trayectos el vehculo A tuvo un consumo de 6,17 litros mien-
tras que para el vehculo B el consumo fue de 6,12 litros. Cual de los dos
vehculos consumio mas en terminos relativos?
c) A lo largo de la prueba se recorrieron 7830 km en total, podras indicar
cuanto consumio cada vehculo para recorrer esos 7830km?
15.2 (3.5 puntos) En una factora se elaboran engranajes para el cambio de cierto
vehculo. Seg un las especicaciones el diametro de dichas piezas debe estar entre
109
los 7.9 y los 8.1cm. Para cubrir la demanda en la factora emplean dos lneas de
produccion, de forma que la lnea A produce 4 piezas por cada una producida
en la linea B. El diametro de las piezas producidas por la lnea A se distribuye
normalmente en torno a los 8.05cm. y con una dispersion de 0.04cm., por su parte
la lnea B produce piezas cuyo diametro oscila entre los 7.89 y 8.03cm.
a) Que porcentaje de piezas elaboradas en la lnea A no cumplen las especi-
caciones?
b) Si se seleccionan al azar 6 piezas fabricadas en la lnea A, cual es la proba-
bilidad de que todas ellas cumplan las especicaciones?
c) Si una pieza elegida al azar de entre la produccion de esa factora no cumple
las especicaciones, en que lnea de produccion es mas probable que se haya
fabricado?
15.3 (1.5 puntos) Se esta realizando un estudio con el n de determinar la resistencia
a la tension de ciertas laminas en funcion de la temperatura. Para ello se ha
registrado su resistencia (kg/mm
2
) a diversas temperaturas entre los 100C y
600C. Con la ayuda de un programa estadstico se han obtenido los siguientes
resultados
Ecuacion R
2

b
0

b
1
Lineal: R = b
0
+b
1
T 0,727 10,262 0,013
Logartmica: R = b
0
+b
1
log(T) 0,889 29,722 4,194
Inversa: R = b
0
+b
1
/T 0,955 1,973 972,543
Potencia: R = b
0
T
b
1
0,914 214,023 0,646
Exponencial: R = b
0
e
b
1
T
0,812 11,003 0,002
a) Indica cual es el mejor modelo de los que aparecen en la tabla, interpretando
el valor del coeciente de determinacion asociado.
b) Indica que criterio se emplea para ajustar el modelo al conjunto de datos.
Usando el modelo que te parezca mas conveniente, podras decir la resis-
tencia aproximada de una de esas laminas a una temperatura de 30C? y a
una temperatura de 300C?
15.4 (2.5 puntos) En un estudio sobre el desarrollo de las telecomunicaciones en una
region se seleccionaron al azar 150 puntos, determinandose que en 126 de ellos la
110
calidad de la se nal de cierto canal de television era buena. A nos atras se haba
determinado que dicha calidad era buena en el 75 % de la region.
a) Al nivel de signicacion del 1 %, indican esos datos que el porcentaje de
puntos de la region con buena calidad en dicho canal ha aumentado en los
ultimos a nos?
b) Que tama no de muestra sera necesario para estimar el porcentaje de puntos
de la region con buena calidad en dicho canal con un error maximo del 2 %
en el 99 % de las ocasiones?
111
Ejercicio 1
Planteamiento:
Experimento seleccionar un trayecto y determinar el consumo de cada vehcu-
lo
Poblaci

on todos los trayectos


Variable 1 X=consumo del vehculo A en un trayecto
Variable 2 Y=consumo del vehculo B en un trayecto, ambas variables son
cardinales de razon y continuas
Muestra los 50 trayectos prejados (luego el tama no muestral es N = 50)
Datos descriptivos (media, desviacion tpica, mediana y cuartiles 1 y 3) de
cada variable
Apartado a): En general para variables de tipo cardinal la medida resumen (de
tendencia central) mas adecuada suele ser la media. En caso de que esta no fuese
representativa se empleara la mediana. Por ello vamos a analizar en primer lugar
la representatividad de ambas medias mediante el coeciente de variacion:
CV (X) =
S
X
X
=
11,25
8,03
= 1,401 litros.
Se trata de un valor elevado (superior a 0.8) lo que nos indica que X es poco
representativa y por ello emplearamos como medida resumen para la varia-
ble X la mediana. As, Me(X) = 7,26 litros, es decir que el vehculo A ha
consumido en al menos 25 trayectos (i.e. en al menos el 50 % de los trayectos
de menor consumo) 7.26 litros o menos (por trayecto), y al mismo tiempo ha
consumido en por lo menos 25 trayectos 7.26 litros o mas. Una forma de medir
la variabilidad respecto de la mediana es mediante el recorrido intercuartlico,
RI(X) = C
3
(X) C
1
(X) = 10,01 6 17 = 3,8 litros,
que nos indicara que en (aproximadamente) los 25 trayectos de consumo mas
moderado (excluyendo el 25 % de los de consumo mas alto y mas bajo) la
variacion del consumo fue de unos 3.84 litros.
CV (Y ) =
S
Y
Y
=
4,05
7,15
= 0,566 litros.
Se trata de un valor no demasiado elevado por lo que podemos suponer que Y
si es representativa y por ello emplearamos como medida resumen para la
variable Y la media. As, Y = 7,15 litros, es decir que el consumo del vehculo
112
B en esos 50 trayectos oscilo o vario alrededor de los 7.15 litros. Como medida
de variabilidad respecto de la media emplearemos la desviacion tpica, S
Y
=
4,05 litros, lo que signica que el consumo del vehculo B en esos 50 trayectos
vario en su conjunto 4.05 litros con respecto a su media que era de 7.15 litros.
Apartado b): Para comparar el consumo de los dos vehculos en terminos relativos
no podemos recurrir a la tipicacion pues ya habamos indicado que una de las
medias no era representativa (por lo que entonces no tendra sentido comparar con
la media), por ello recurriremos a los rangos cuantiles. En este caso un consumo
de 6.17 litros para el vehculo A se corresponde con su primer cuartil, mientras
que un consumo de 6.12 litros para el vehculo B se corresponde con su mediana.
Es decir que al menos para el 25 % de los trayectos el vehculo A consumio 6.17
litros o menos mientras que para al menos el 75 % de los trayectos el vehculo A
consumio 6.17 litros o mas. Por su parte al menos para el 50 % de los trayectos
el vehculo B consumio 6.12 litros o menos mientras que para al menos el 50 %
de los trayectos el vehculo B consumio 6.12 litros o mas. As pues aunque en
terminos absolutos 6,12 6,17 en terminos relativos (i.e. respecto al consumo de
cada vehculo en esos 50 trayectos) es claro que un consumo de 6.17 litros para
el coche A representa menos que un consumo de 6.12 litros para el coche B. Es
decir, que el coche A consumio menos en terminos relativos que el coche B.
Apartado c): Dado que nos indican que 7830 km se corresponde con el total de
kilometros empleados para recorrer esos 50 trayectos, el apartado se reduce a
determinar el consumo total de cada vehculo (X
T
, Y
T
) para recorrer esos 50
trayectos. Teniendo en cuenta que X = X
T
/N e Y = Y
T
/N basta despejar para
obtener el consumo total de cada vehculo. En este caso:
X
T
= X N = 8,03 50 = 401,5 litros. Es decir, que el coche A consumio un
total de 401.5 litros para recorrer los 50 trayectos (luego los 7830 kilometros).
Y
T
= Y N = 7,15 50 = 357,5 litros. Es decir, que el coche B consumio un
total de 357.5 litros para recorrer los 50 trayectos (luego los 7830 kilometros).
113
Ejercicio 2
Planteamiento:
Experimento seleccionar piezas y determinar su diametro (y la linea de pro-
duccion empleada)
Poblaci

on todas las piezas


Variable X=diametro de una pieza, como el comportamiento de las dos
lneas de produccion es diferente nos interesara distinguir dos variables
Variable 1 X
A
=diametro de una pieza producida en A N(8,05, 0,04)
Variable 2 X
B
=diametro de una pieza producida en B U(7,89, 8,03), don-
de hemos supuesto que la distribucion es aproximadamente uniforme puesto que
la unica informacion disponible es que el diametro de las piezas producidas en B
esta en el intervalo 7.89, 8.03.
Informaci

on Adicional Si denimos dos sucesos A =la pieza se produjo


en la linea de produccion A y B =la pieza se produjo en la linea de produccion
B, entonces seg un nos indican P(A) = 4/5 = 0,8 y P(B) = 1/5 = 0,2.
Apartado a): Comenzaremos calculando la probabilidad de que una pieza producida
en la linea A si cumpla (C
A
) las especicaciones, i.e. P(C
A
) = P(7,9 X
A
8,1).
P(C
A
) = P

7,9 8,05
0,04
Z
8,1 8,05
0,04

= P(3,75 Z 1,25) = P(Z 1,25) P(Z < 3,75)


= 0,8944 P(Z 3,75) = 0,8944 (1 P(Z < 3,75))
= 0,8944 (1 0,9999) = 0,8943.
Por tanto por paso al complementario, P(C
A
) = 1P(C
A
) = 10,8943 = 0,1057.
Es decir, que el 10.57 % de las piezas producidas en la linea A no cumplen las
especicaciones.
Apartado b): Consideremos la siguiente variable,
Y =Numero de piezas de entre 6 elegidas al azar de la linea A que cumplen
las especicaciones B(6, 0,8943). Para resolver el apartado solo resta calcular
P(Y = 6).
P(Y = 6) =

6
6

0,8943
6
0,01057
0
= 0,8943
6
= 0,5126.
114
Es decir que la probabilidad de que seleccionando 6 piezas al azar producidas en
la linea A todas ellas cumplan las especicaciones es de 0,5126.
Apartado c): Consideremos el evento C =la pieza cumple las especicaciones, de-
bemos determinar P(A/C) y P(B/C). Dado que cada pieza solo puede producirse
en A o en B podramos representarlo mediante un arbol con las distintas alterna-
tivas. Teniendo en cuenta la informacion suministrada P(A) = 0,8, P(B) = 0,2.
Ademas por el apartado a) tenemos que P(C/A) = P(C
A
) = 0,8943. Para hacer
la representacion tipo arbol solo resta por determinar P(C/B).
P(C/B) = P(7,9 X
B
8,1) = P(7,9 X
B
8,03) =
8,03 7,9
8,03 7,89
= 0,929.
De esta forma obtenemos el siguiente arbol,
Por aplicacion del Teorema de las Probabilidades Totales,
P(C) = P(A)P(C/A) +P(B)P(C/B) = 0,80,1057 + 0,20,072 = 0,09896.
La formula de Bayes indica que,
P(A/C) =
P(A)P(C/A)
P(C)
=
0,80,1057
0,09896
= 0,8545
P(B/C) =
P(B)P(C/B)
P(C)
=
0,20,072
0,09896
= 0,1455
Por tanto, si la pieza elegida no cumple las especicaciones es mas probable que
haya sido producida en la linea A que en la B.
115
Ejercicio 3
Planteamiento:
Experimento seleccionar una lamina y determinar la resistencia a la tension
y la temperatura.
Poblaci

on todas las laminas


Variable 1 X=temperatura a la que se somete a una lamina
Variable 2 Y=resistencia a la tension de esa lamina, ambas variables son
cardinales de razon y continuas
Muestra las laminas seleccionadas (no se especica el tama no muestral)
Apartado a): El modelo de regresion mas apropiado es aquel que presenta un coe-
ciente de determinacion (R
2
) mas proximo a 1 (en caso de que varios modelos
tuviesen el R
2
mas alto y similar optaramos por el modelo mas sencillo o de
mejor interpretacion de acuerdo al problema). En este caso el modelo inverso
presenta el valor mas elevado, siendo el R
2
asociado de 0,955. Por tanto el mejor
modelo para explicar la resistencia a la tension de una lamina en funcion de su
temperatura viene dado por la expresion:

Y (x) = 1,973
972,543
x
que permitira predecir valores de la variable Y para distintos valores de la variable
X siempre que estos se encuentren entre 100C y 600C (i.e., los valores mnimo
y maximo de X en esta muestra). En este caso particular podemos decir que el
95,50 % de la variacion de la resistencia a la tension de las laminas (Y ) se explica
por su relacion inversa con la temperatura a la que se somete la lamina (X), luego
solo un 4,5 % de la variacion de Y no queda explicada por su relacion inversa con
X por lo que son esperables buenas predicciones dentro del rango indicado.
Apartado b): En los problemas de regresion a los que estamos habituados el criterio
empleado para ajustar el modelo al conjunto de datos es el criterio de mnimos
cuadrados.
Si una lamina se somete a una temperatura de 30C no podemos predecir su
resistencia a la tension dado que 30C esta fuera del rango de estudio de la variable
X, careciendo de informacion sobre la relacion entre ambas variables fuera de ese
rango. Por otro lado, si una lamina se somete a una temperatura de 300C, como
116
dicho valor esta en el rango de estudio de la variable X podemos predecir (con
bastante abilidad) su resistencia a la tension, en concreto nuestra prediccion es
que la resistencia a la tension sera de

Y (300) = 1,973
972,543
300
= 5,215 kg/mm
2
.
Ejercicio 4
Planteamiento:
Experimento Seleccionar un punto de una region y determinar si la calidad
de la se nal de cierto canal de TV es buena o no
Poblaci

on todos los puntos de la region


Variable X=Es buena la calidad de la se nal en ese punto? B(p)
Par

ametro p = E(X) =Proporcion de puntos de la region con buena


calidad de la se nal
Muestra los 150 puntos seleccionados
M.a.s. (X
1
, . . . , X
n
), X
i
=Es buena la calidad de la se nal en el punto i-
esimo? B(p), i = 1, . . . , n.
Datos en 126 de esos puntos la calidad de la se nal es buena.
Apartado a): El objetivo es validar o rechazar una armacion relativa a toda la
poblacion (concretamente relativa al parametro p) por lo que se trata de un
problema de inferencia, de contraste de hipotesis sobre la proporcion poblacional
p.
Paso 1:
El nivel de signicacion es = 0,01.
Hip

otesis:
El porcentaje de puntos de la region con buena calidad de se nal en dicho
canal ha aumentado (p > 0,75)
El porcentaje de puntos de la region con buena calidad de se nal en dicho
canal no ha aumentado (p 0,75)
Por tanto

H
0
: p 0,75
H
1
: p > 0,75
En principio supondremos cierta H
0
pero si la muestra se encuentra entre el 1 %
de las menos anes con H
0
rechazaremos H
0
. Si no rechazamos H
0
no tenemos
117
control del error cometido al armarla, mientras que si rechazamos H
0
si tenemos
control del error cometido al armar H
1
.
Paso 2:
(En caso de disponer de la salida ofrecida por R Commander, tanto el valor del
estadstico como el p-valor correspondiente vienen reejados en dicha salida con
lo que las cuentas realizadas en este paso, y en el paso 3 para el calculo del p-valor
a partir del de dos colas no seran necesarias.)
Como el parametro es p y la muestra es sucientemente grande (n 100) usare-
mos el estadstico
T =
p p

p(1p)
n
TCL
N(0, 1)
Suponiendo cierta la igualdad de H
0
, p = 0,75. Ademas se tiene que
p =
# casos buena calidad
n
=
126
150
= 0,84. Con lo que substituyendo t = 2,5456.
N(0,1)
La cola derecha puede calcularse como 1
P(Z 2,55) = 10,9946 = 0,0054, y por tan-
to el pvalor de los colas=20,0054 = 0,0108.
Paso 3:
N(0,1)
pvalor=
pvalor 2 colas
2
= 0,0054.
Es decir, que si H
0
fuese cierta el azar hara que
el 0,54 % de las muestras fuesen menos anes a
H
0
que la nuestra. Por tanto, nuestra muestra
sera bastante rara.
(Incluso si se disusiese de la salida del R Commander es necesario indicar clara-
mente el pvalor obtenido y su interpretacion).
Paso 4:
Como el pvalor=0,0054 < = 0,01 se rechaza H
0
, es decir, que al nivel de
signicacion del 1 % podemos armar que el porcentaje de puntos de la region con
buena calidad de se nal en dicho canal de TV es mayor al 75 %, o equivalentemente,
que ha aumentado en los ultimos a nos.
118
Apartado b): El error maximo en la estimacion de p mediante p en el 99 % de las
ocasiones viene determinado por la semiamplitud del intervalo de conanza para
p correspondiente, es decir,

max
= z

p(1 p)
n
,
con z

tal que P(z

Z z

) = 1 siendo en este caso concreto 1 = 0,99.


La aproximacion es valida en las mismas condiciones en que puede calcularse el
intervalo de conanza para p (n 100).
Teniendo en cuenta la simetra de la normal z

verica que P(Z > z

) = /2 =
0,005 y por la regla del complementario P(Z z

) = 10,005 = 0,995. Buscando


en la tabla de la normal obtenemos que z

= 2,575.
De esta forma,
0,02 = 2,575

0,84 0,16
n
y despejando se obtiene
n =

2,575
0,02

2
0,84 0,16 = 2227,89 2228.
Por tanto, para estimar el porcentaje de puntos de la region con un error maximo
del 2 % (en terminos de proporcion es un error maximo de 0,02) en el 99 % de las
ocasiones se necesita un tama no de muestra de al menos 2228 puntos.
119
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tabla de la distribucion t de Student
(en la tabla se registran los valores t
k;
correspondientes)
t
k
-t
k;a
t
k;a
1-a a
k\ 0,6 0,4 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,001
1 0,7265 1,3764 3,0777 4,1653 6,3138 12,7062 25,4517 63,6567 127,3213 636,6192
2 0,6172 1,0607 1,8856 2,2819 2,9200 4,3027 6,2053 9,9248 14,0890 31,5991
3 0,5844 0,9785 1,6377 1,9243 2,3534 3,1824 4,1765 5,8409 7,4533 12,9240
4 0,5686 0,9410 1,5332 1,7782 2,1318 2,7764 3,4954 4,6041 5,5976 8,6103
5 0,5594 0,9195 1,4759 1,6994 2,0150 2,5706 3,1634 4,0321 4,7733 6,8688
6 0,5534 0,9057 1,4398 1,6502 1,9432 2,4469 2,9687 3,7074 4,3168 5,9588
7 0,5491 0,8960 1,4149 1,6166 1,8946 2,3646 2,8412 3,4995 4,0293 5,4079
8 0,5459 0,8889 1,3968 1,5922 1,8595 2,3060 2,7515 3,3554 3,8325 5,0413
9 0,5435 0,8834 1,3830 1,5737 1,8331 2,2622 2,6850 3,2498 3,6897 4,7809
10 0,5415 0,8791 1,3722 1,5592 1,8125 2,2281 2,6338 3,1693 3,5814 4,5869
11 0,5399 0,8755 1,3634 1,5476 1,7959 2,2010 2,5931 3,1058 3,4966 4,4370
12 0,5386 0,8726 1,3562 1,5380 1,7823 2,1788 2,5600 3,0545 3,4284 4,3178
13 0,5375 0,8702 1,3502 1,5299 1,7709 2,1604 2,5326 3,0123 3,3725 4,2208
14 0,5366 0,8681 1,3450 1,5231 1,7613 2,1448 2,5096 2,9768 3,3257 4,1405
15 0,5357 0,8662 1,3406 1,5172 1,7531 2,1314 2,4899 2,9467 3,2860 4,0728
16 0,5350 0,8647 1,3368 1,5121 1,7459 2,1199 2,4729 2,9208 3,2520 4,0150
17 0,5344 0,8633 1,3334 1,5077 1,7396 2,1098 2,4581 2,8982 3,2224 3,9651
18 0,5338 0,8620 1,3304 1,5037 1,7341 2,1009 2,4450 2,8784 3,1966 3,9216
19 0,5333 0,8610 1,3277 1,5002 1,7291 2,0930 2,4334 2,8609 3,1737 3,8834
20 0,5329 0,8600 1,3253 1,4970 1,7247 2,0860 2,4231 2,8453 3,1534 3,8495
21 0,5325 0,8591 1,3232 1,4942 1,7207 2,0796 2,4138 2,8314 3,1352 3,8193
22 0,5321 0,8583 1,3212 1,4916 1,7171 2,0739 2,4055 2,8188 3,1188 3,7921
23 0,5317 0,8575 1,3195 1,4893 1,7139 2,0687 2,3979 2,8073 3,1040 3,7676
24 0,5314 0,8569 1,3178 1,4871 1,7109 2,0639 2,3909 2,7969 3,0905 3,7454
25 0,5312 0,8562 1,3163 1,4852 1,7081 2,0595 2,3846 2,7874 3,0782 3,7251
26 0,5309 0,8557 1,3150 1,4834 1,7056 2,0555 2,3788 2,7787 3,0669 3,7066
27 0,5306 0,8551 1,3137 1,4817 1,7033 2,0518 2,3734 2,7707 3,0565 3,6896
28 0,5304 0,8546 1,3125 1,4801 1,7011 2,0484 2,3685 2,7633 3,0469 3,6739
29 0,5302 0,8542 1,3114 1,4787 1,6991 2,0452 2,3638 2,7564 3,0380 3,6594
30 0,5300 0,8538 1,3104 1,4774 1,6973 2,0423 2,3596 2,7500 3,0298 3,6460
40 0,5298 0,8534 1,3095 1,4761 1,6955 2,0395 2,3556 2,7440 3,0221 3,6335
50 0,5297 0,8530 1,3086 1,4749 1,6939 2,0369 2,3518 2,7385 3,0149 3,6218
60 0,5295 0,8526 1,3077 1,4738 1,6924 2,0345 2,3483 2,7333 3,0082 3,6109
70 0,5294 0,8523 1,3070 1,4728 1,6909 2,0322 2,3451 2,7284 3,0020 3,6007
80 0,5292 0,8520 1,3062 1,4718 1,6896 2,0301 2,3420 2,7238 2,9960 3,5911
90 0,5291 0,8517 1,3055 1,4709 1,6883 2,0281 2,3391 2,7195 2,9905 3,5821
100 0,5289 0,8514 1,3049 1,4701 1,6871 2,0262 2,3363 2,7154 2,9852 3,5737
110 0,5288 0,8512 1,3042 1,4692 1,6860 2,0244 2,3337 2,7116 2,9803 3,5657
120 0,5287 0,8509 1,3036 1,4685 1,6849 2,0227 2,3313 2,7079 2,9756 3,5581
0,5244 0,8416 1,2816 1,4395 1,6449 1,9600 2,2414 2,5758 2,8070 3,2905
Tabla 15.1: Distribucion t de Student.
121
E
x
t
r
a

d
o
d
e
"
C
u
r
s
o
d
e
E
s
t
a
d

s
t
i
c
a
A
p
l
i
c
a
d
a
"
.
A
n
a
C
o
l
u
b
i
y
G
i
l
G
o
n
z

l
e
z
.
E
d
i
c
i
o
n
e
s
L
o
b
o
(
w
w
w
.
e
d
i
c
i
o
n
e
s
l
o
b
o
.
e
s
)
Tabla de la distribucion N(0, 1)
(en la tabla se registran los valores (z) correspondientes)
N(0,1)
z
F( ) z
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Tabla 15.2: Distribucion N(0, 1).
122
Bibliografa
Basica para el alumno
[1] Cao R., Fernandez M., Naya F., Fernandez S., Presedo M.A. (2001). Introduccion
a la Estadstica y sus aplicaciones. Editorial Piramide.
[2] Colubi A., Gonzalez G. (2010a). Curso de Estadstica Aplicada. Ediciones Lobo.
[3] Colubi A., Gonzalez G. (2010b). Problemas resueltos de Estadstica Aplicada.
Ediciones Lobo.
Complementaria
[1]

Alvarez R. (2007). Estadstica aplicada a las ciencias de la salud. Daz de Santos.
[2] Cao R., Fernandez M., Naya F., Fernandez S., Presedo M.A. (2001). Introduccion
a la Estadstica y sus aplicaciones. Editorial Piramide.
[3] Lacruz B., Perez A., Del Pozo L., Sanchez-Valverde B. (1999). Estadstica elemen-
tal con SPSS. Prensas universitarias Zaragoza.
[4] Colubi A., Gonzalez G. (2010a). Curso de Estadstica Aplicada. Ediciones Lobo.
[5] Colubi A., Gonzalez G. (2010b). Problemas resueltos de Estadstica Aplicada.
Ediciones Lobo.
[6] Devore J.L. (2005). Probabilidad y estadstica para ingeniera y ciencias. Thomson.
[7] Esteban Garca, J. y otros (2005). Estadstica descriptiva y nociones de probabi-
lidad. Editorial Thompson.
123
BIBLIOGRAF

IA
[8] Evans M.J.(2005). Probabilidad y estadstica. Editorial Reverte.
[9] Fernandez S., Cordero J.M., Cordoba A. (2002). Estadstica descriptiva. ESIC
Editorial.
[10] Freund J.E., Gary A.S. (1994). Estadstica elemental. Pearson.
[11] de la Horra, J. Estadstica aplicada. Daz de Santos.
[12] Johnson R., Kuby P.(2004). Estadstica elemental: Lo esencial. Thomson.
[13] Miller I. (2008) Probabilidad y estadstica para ingenieros. Editorial Reverte.
[14] Milton J.S. (2001). Estadstica para biologa y ciencias de la salud. McGraw-Hill.
[15] More S. (2000). Estadstica aplicada basica. Antoni Bosch.
[16] Pi nole R., Moreno A., Caballero A. (2002). Analisis de datos y probabilidad. Edi-
torial Civitas.
[17] Ross S.M. (2007). Introduccion a la estadstica. Editorial Reverte.
[18] Sarabia J.M., Pascual M. (2005). Curso basico de estadstica para economa y
administracion de empresas. Universidad de Cantabria.
[19] Triola M.F. (2004). Estadstica. Pearson
[20] Velasco G., Marian Wisniewski P.M. (2001). Probabilidad y estadstica para inge-
niera y ciencias. Thomson.
124

S-ar putea să vă placă și