Documente Academic
Documente Profesional
Documente Cultură
EDITORIAL
EDITORIAL
UNIVERSITAT POLITÈCNICA DE VALÈNCIA
Fortunato Crespo Abril
Métodos estadísticos:
ejercicios resueltos y teoría
EDITORIAL
UNIVERSITAT POLITÈCNICA DE VALÈNCIA
Colección Académica
Los contenidos de esta publicación han sido revisados por el Departamento de Estadística e
Investigación Operativa Aplicadas y Calidad de la Universitat Politècnica de València
ISBN: 978-84-9048-667-2
Impreso bajo demanda
La Editorial UPV autoriza la reproducción, traducción y difusión parcial de la presente publicación con
fines científicos, educativos y de investigación que no sean comerciales ni de lucro, siempre que se
identifique y se reconozca debidamente a la Editorial UPV, la publicación y los autores. La autorización
para reproducir, difundir o traducir el presente estudio, o compilar o crear obras derivadas del mismo en
cualquier forma, con fines comerciales/lucrativos o sin ánimo de lucro, deberá solicitarse por escrito al
correo edicion@editorial.upv.es.
Impreso en España
Resumen
I
He hecho un esfuerzo en crear un conjunto de esquemas que permitan visualizar
los conceptos fundamentales en los que se sustentan los métodos estadísticos
de inferencia comentados a lo largo de los diferentes capítulos. Cada esquema
presenta la distribución muestral de un estadístico, resultado base en el que se
apoya el método propuesto, junto con las condiciones que deben cumplirse para
que dicha distribución sea, precisamente, la que es. Creo que estos esquemas
son un buen resumen de todo aquello que debe tenerse en cuenta a la hora de
aplicar cada uno de los métodos estadísticos descritos.
Otro aspecto importante en el que se centran los problemas resueltos es mos-
trar cómo deben redactarse las conclusiones de un estudio de inferencia. He
utilizado un lenguaje sencillo para explicar los resultados a alguien que no sepa
estadística y, también, en la mayoría de los ejercicios se muestra la forma en que
estas conclusiones deben aparecer en un informe técnico o en una publicación
de carácter científico.
Soy consciente de que los alumnos pueden caer en la trampa de creer que
los ejercicios son más sencillos de lo que en realidad son: cuando se realizan
estudios de inferencia, no sólo hay que saber cómo aplicar un determinado
método, sino que el primer paso es conocer qué método se debe aplicar y, esta
dificultad adicional se pierde si uno sabe de antemano que los ejercicios de un
capítulo aplican unos métodos concretos, y no otros. Por ello, he añadido un
capítulo que presenta los enunciados de todos los ejercicios desordenados (al
azar), de este modo el lector puede poner realmente a prueba sus conocimientos
a la hora de resolver los ejercicios.
Tanto en las clases de teoría, como en las prácticas que imparto, utilizo el
programa R para aplicar los métodos descritos en este libro. R es también el
programa que utilizo en mi tarea de investigador. Es el software estadístico
que prefiero utilizar: por su potencia, por su versatilidad y, porque además, es
gratuito.
En muchos de los ejercicios, he añadido los comandos de R que permiten ob-
tener unos resultados más precisos que los obtenidos al realizar los cálculos
utilizando las tablas de probabilidades y percentiles que aparecen al final del
libro, pero éste no pretende ser ningún manual sobre cómo utilizar este pro-
grama.
II
Cómo utilizar este libro
La primera sección de cada capítulo presenta un poco de teoría, con los aspectos
más importantes a tener en cuenta antes de aplicar los métodos estadísticos
que se describen. Esta sección debe estudiarse con detalle para poder resolver
los problemas sin dificultad. Una vez aprendida, el esquema que aparece en
la misma puede utilizarse, a modo de resumen, para repasar de forma rápida
todos estos aspectos.
Una vez estudiada esta sección, pueden abordarse los ejercicios. Los primeros
ejercicios de cada capítulo sirven de guía para intentar resolver el resto de
forma autónoma, antes de ver la solución de los mismos.
Al comienzo de cada ejercicio se indica la página en la que aparece el enun-
ciado del mismo, sin incluir su solución. De este modo, se pueden resolver los
problemas sin tener ningún tipo de pista sobre su resolución.
III
Cómo utilizar este libro
del libro. Las tablas utilizadas en los ejercicios para obtener probabilidades y
percentiles, son las que aparecen en este capítulo. Al final del mismo se presenta
una colección de problemas que os ayudará a saber cómo utilizar de forma
correcta estas tablas.
En algunos ejercicios aparecen recuadros como el siguiente:
comando en R
resultados
Este tipo de recuadros muestran los comandos que pueden utilizarse, desde el
programa R, para obtener resultados más precisos que los que obtenemos al
realizar los cálculos a mano.
Cuando en los enunciados de los ejercicios se proporcionan los datos de la
muestra utilizada para hacer el análisis estadístico pertinente, estos recuadros
presentan, además, los comandos que permiten obtener los intervalos de con-
fianza y el valor p de las pruebas de hipótesis que corresponda.
Una forma rápida de obtener ayuda adicional sobre cualquier comando de R,
es utilizar el comando help(), indicando, dentro del paréntesis, el nombre del
comando sobre el que pedimos ayuda.
help(t.test)
IV
Índice general
Resumen I
Índice general V
V
Índice general
Bibliografía 327
VI
Capítulo 1
x − µ0
z= √
σ/ n
1
Capítulo 1. Inferencia para medias: problemas de una muestra
donde:
x es la media de la muestra
n es el tamaño de la muestra (el número de unidades observadas)
σ es el valor que asumimos conocer para la desviación típica de la
población estudiada
z α/2 es el valor crítico que buscaremos en la tabla de la distribución Nor-
mal estándar (pag. 302)
µ0 es el valor considerado para la media de la población en la hipótesis
nula H0
2
1.1 Procedimientos Z (asumimos que σ es conocida)
3
Capítulo 1. Inferencia para medias: problemas de una muestra
X − µ0
Z= √ ∼ N (0 , 1)
σ/ n
Como hemos indicado, para poder aplicar los procedimientos Z, la teoría es-
tadística exige que se cumplan las siguientes condiciones (elipses azules en la
Figura 1.1):
4
1.1 Procedimientos Z (asumimos que σ es conocida)
Estas son las condiciones que debes verificar para utilizar de forma segura estos
procedimientos en la práctica:
5
Capítulo 1. Inferencia para medias: problemas de una muestra
una muestra con 27 datos que presente muchos datos anómalos y con una
marcada asimetría nos hará dudar del cumplimiento de la condición de
Normalidad y será arriesgado aplicar los procedimientos Z a esta muestra
de datos.
Siempre debes hacer un análisis descriptivo de tus datos porque, además
de comprobar los aspectos mencionados anteriormente, puede ayudarte a
detectar errores ocasionados por la captura incorrecta de los mismos.
La presencia de datos anómalos (especialmente si éstos son valores muy
extremos) puede sesgar los resultados obtenidos, ya que la media muestral
x, es un estadístico que se ve muy afectado por la presencia de estos
valores.
Si se detectan datos anómalos debe estudiarse por qué se han producido
y, salvo que se trate de errores realizados al tomar los datos, éstos no
pueden eliminarse de la muestra sin más. Lo más honesto es realizar un
segundo análisis, sin incluir los valores anómalos, para ver cómo cambian
las conclusiones, y presentar las conclusiones de ambos estudios (con y
sin datos anómalos) para contrastar los resultados.
3. σ conocida. Asumir que se conoce la desviación típica de la variable
estudiada en la población suele ser muy poco realista.
En algunas ocasiones el valor de σ se estima a partir de datos de estudios
previos; en estos casos, debería garantizarse que las condiciones en que se
realizaron estos estudios son las mismas que las actuales, y que el valor
de σ no ha cambiado.
En los problemas que permiten utilizar estos procedimientos debe expre-
sarse, de forma clara, que se asume que el valor de σ es conocido.
En general, será preferible utilizar los procedimientos t para medias como
alternativa a estos procedimientos, ya que utilizan la desviación típica de
la muestra s, para calcular el valor del estadístico de referencia, en lugar
de recurrir a la desviación típica de la población.
6
1.1 Procedimientos Z (asumimos que σ es conocida)
H0 : µ = µ0 H0 : µ = µ 0 H0 : µ = µ0
H1 : µ > µ0 H1 : µ < µ0 H1 : µ 6= µ0
7
Capítulo 1. Inferencia para medias: problemas de una muestra
8
1.1 Procedimientos Z (asumimos que σ es conocida)
H0 : µ = 40 litros
H1 : µ 6= 40 litros
x − µ0 42,5 − 40
z= √ = √ = 2,5
σ/ n 10/ 100
9
Capítulo 1. Inferencia para medias: problemas de una muestra
Z = N(0 , 1)
z = 2.5
valor p = 0.01242 Área de rechazo: α = 0.05
valor p
2
−4 −1.96 0 1.96 4
Z
2*pnorm(-2.5, lower.tail=T)
0.01241933
10
42,5 ± 1,96 √ = 42,5 ± 1,96 = [40,54 , 44,46]
100
10
1.1 Procedimientos Z (asumimos que σ es conocida)
11
Capítulo 1. Inferencia para medias: problemas de una muestra
25
20
Nº de hogares
15
10
5
0
30 40 50 60 70 30 40 50 60 70
Figura 1.4: Diagrama de caja e histograma del consumo de agua por persona y día en una
muestra de 100 hogares de la CV.
12
1.1 Procedimientos Z (asumimos que σ es conocida)
En un país pequeño, con 16,7 millones de habitantes, los altos destacan y son
la norma casi a partes iguales.
¿Siguen siendo los jóvenes españoles más bajos que los varones holandeses?
Con el fin de responder a esta pregunta se seleccionó una muestra aleatoria
de 55 universitarios españoles, con edades comprendidas entre los 18 y los 23
años.
H0 : µ = 184 cm
H1 : µ < 184 cm
13
Capítulo 1. Inferencia para medias: problemas de una muestra
x − µ0 178 − 184
z= √ = √ = −5,23
σ/ n 8,5/ 55
pnorm(-5.23, lower.tail=T)
8.475502e-08
8,5
178 ± 1,96 √ = 178 ± 2,25 = [175,75 , 180,25] cm
55
14
1.1 Procedimientos Z (asumimos que σ es conocida)
15
Capítulo 1. Inferencia para medias: problemas de una muestra
H0 : µ = 70 euros
H1 : µ < 70 euros
Si H0 fuese cierta:
x − µ0
√ ∼ N (0, 1)
σ/ n
Z = N(0 , 1)
z = −3
valor p = 0.0013 Área de rechazo: α = 0.05
valor p
−4 −1.645 0 4
Z
16
1.1 Procedimientos Z (asumimos que σ es conocida)
pnorm(-3, lower.tail=T)
0.001349898
x − 70
√ = −1,645 → x = 68,355
20/ 400
68,355 − 65
= P (N (0, 1) > √ ) = P (Z > 3,36) = 0,0004
20/ 400
17
Capítulo 1. Inferencia para medias: problemas de una muestra
pnorm(3.36, lower.tail=T)
0.9996103
20
±1,96 √ = ±1,96
400
18
1.2 Procedimientos t
1.2 Procedimientos t
x − µ0
t= √
s/ n
α/2 s
x ± tn−1 · √
n
donde:
x es la media de la muestra
s es la desviación típica de la muestra
n es el tamaño de la muestra
α/2
tn−1 es el valor crítico que buscaremos en las tablas de las distribuciones
t (pag. 303 – 304)
µ0 es el valor considerado para la media de la población en la hipótesis
nula H0
x − µ0
t= √
s/ n
19
Capítulo 1. Inferencia para medias: problemas de una muestra
20
1.2 Procedimientos t
21
Capítulo 1. Inferencia para medias: problemas de una muestra
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
H1 : µ > µ0 H1 : µ < µ0 H1 : µ 6= µ0
valor p = P (tn−1 > t) valor p = P (tn−1 < t) valor p = 2 · P (tn−1 > |t|)
Tabla 1.2: Cálculo del valor p utilizando los procedimientos t en problemas de una muestra
22
1.2 Procedimientos t
H0 : µ = 9300 euros
H1 : µ > 9300 euros
23
Capítulo 1. Inferencia para medias: problemas de una muestra
Si H0 fuese cierta:
X − µ0
√ ∼ t29
s/ n
9700 − 9300
t= √ = 1,40
1570/ 30
valor p
−4 0 1.699 4
t
24
1.2 Procedimientos t
x − 9300
√ = 1,699
1570/ 30
1570
x = 1,699 √ + 9300 = 9787
30
25
Capítulo 1. Inferencia para medias: problemas de una muestra
26
1.2 Procedimientos t
A la vista de estos resultados, ¿podemos afirmar que las medidas tomadas por
el personal responsable de medio ambiente han tenido éxito? ¿Han conseguido
aumentar la cantidad de oxígeno disuelto en el cauce del río Xúquer?
H0 : µ = 0 %
H1 : µ > 0 %
Si H0 fuese cierta:
X − µ0
√ ∼ t40
s/ n
4,2 − 0
t= √ = 2,07
13/ 41
27
Capítulo 1. Inferencia para medias: problemas de una muestra
valor p
−4 0 1.684 4
t
28
1.2 Procedimientos t
s
x ± t0,025
40 √
n
13
4,2 ± 2,021 √ = 4,2 ± 4,1 = [0,1 , 8,3] %
41
29
Capítulo 1. Inferencia para medias: problemas de una muestra
Un valor tan alto puede indicar que hay puntos del río en los que no se
produce un incremento de la cantidad de oxígeno disuelta, sino todo lo
contrario, y es por esto por lo que la desviación típica toma un valor tan
elevado. ¿Tiene sentido observar valores negativos? ¿Es posible que las
medidas adoptadas no mejoren la calidad del agua en algunos puntos del
cauce, e incluso que la empeoren?
x = 12 µg/l s = 8 µg/l
30
1.2 Procedimientos t
Prueba de hipótesis:
H0 : µ = 10 µg/l
H1 : µ > 10 µg/l
Si H0 fuese cierta:
X − µ0
√ ∼ t120
s/ n
12 − 10
t= √ = 2,75
8/ 121
x − 10
√ = 1,658
8/ 121
31
Capítulo 1. Inferencia para medias: problemas de una muestra
8
x = 1,658 √ + 10 = 11,225
121
32
1.2 Procedimientos t
68, 59, 58, 65, 65, 51, 71, 62, 59, 75, 60, 61, 51, 51, 64
33
Capítulo 1. Inferencia para medias: problemas de una muestra
Cuantiles en la muestra
0.04
80
75
0.03
70
densidad
65
0.02
60
55
0.01
50
0.00
45
45 50 55 60 65 70 75 80 30 40 50 60 70 80 90 −1 0 1
Nº envases/día Nº envases/día Cuantiles teóricos
34
1.2 Procedimientos t
9,33
61,47 ± 1,761 √ = 61,47 ± 4,24 = [57,23 , 65,71] envases
15
ventas=c(60, 62, 45, 54, 79, ..., 54, 66, 66, 58, 73, 73)
t.test(ventas, conf.level=0.9)$conf.int
57.22533 65.70800
10
1,96 √ < 2
n
35
Para seguir leyendo haga click aquí