Estadistica Inferencial Itam Guia

PROFESOR: LUIS E.
NIETO BARAJAS
Parte 2. Estadística inferencial
2.1 Distribuciones muestrales
Recordemos que el objetivo de la Estadística es hacer inferencias acerca de

los parámetros de una población con base en la información contenida en
una muestra.
Las inferencias más comunes son:

Estimación puntual
Estimación por intervalo
Prueba de hipótesis
Ya que las inferencias se basan en la información muestral, es de gran

importancia el procedimiento que se utilice para la selección de la muestra.
Las técnicas de inferencia que se verán en esta segunda parte del

curso, suponen que la muestra se seleccionó mediante un
muestreo aletorio simple (MAS).
Recordemos también que la información muestral se resume en unas

funciones llamadas estadísticas. Por ejemplo, X , S2, etc.
El procedimiento general de inferencia consiste en usar estadísticas para

aproximar los parámetros. Por ejemplo, la media muestral X nos dice algo
41 Curso: Métodos estadísticos básicos y técnicas de muestreo

PROFESOR: LUIS E. NIETO BARAJAS
acerca de la media poblacional µ. También la varianza muestral S2 nos dice

algo acerca de la varianza poblacional σ2.
En la práctica se selecciona aleatoriamente una sola muestra de tamaño n

de una población y con ella se calcula el valore de la estadística de interés.
Con el fin de conocer todos los posibles valores que puede tomar una
estadística, se tendría que examinar cada posible muestra y calcular el valor
de la estadística. La distribución de frecuencias de todos los posibles
valores que toma una estadística se le conoce como distribución de
muestreo.
Las estadísticas son funciones de la muestra aleatoria por lo tanto a su vez

son también variables aleatorias y tienen asociada cierta distribución, esa
distribución es llamada distribución de muestreo.
EJEMPLO 9. Supongamos que se tiene una v.a. X con la siguiente

distribución (población):
x 1 2 3
Frecuencia 1 4 5
P(X=x) 0.1 0.4 0.5
µ X = 2.4 y σ 2X = 0.44
Se desea estimar µX, para ello se toma una muestra de tamaño 2 con
reemplazo de la población anterior y se calcula el valor de X .
Si se observara (2,3) ⇒ X = 2.5 (no esta mal!), pero
si se observara (1,2) ⇒ X = 1.5 (no está tan bien!).

Calculemos todos los valores posibles de X para todas las muestras

posibles: ¿Cuántas muestras hay?
32 = 9 muestras diferentes
102 = 100 muestras posibles
Muestras X Probabilidad
(1,1) 1 0.1×0.1=0.01
(1,2) 1.5 0.1×0.4=0.04
(1,3) 2 0.1×0.5=0.05
(2,1) 1.5 0.4×0.1=0.04
(2,2) 2 0.4×0.4=0.16
(2,3) 2.5 0.4×0.5=0.20
(3,1) 2 0.5×0.1=0.05
(3,2) 2.5 0.5×0.4=0.20
(3,3) 3 0.5×0.5=0.25
o Las muestras producen distintos valores para X

o Muestras diferentes producen el mismo valor de X
o Distintas muestras ocurren con probabilidades diferentes
Finalmente, la distribución de muestreo de X es:
x P (X = x )
1 0.01 E( X ) = 2.4
Var( X ) = 0.22
1.5 0.08
2 0.26
Para saber que tan buena es una
2.5 0.40 estimación es necesario conocer la
3 0.25 distribución de muestreo de la estadística

¿Qué pasaría si las muestras se toman sin reemplazo?

Hay 5 muestras diferentes ¿? y
10 
  = 45 muestras posibles
2
Muestras X Probabilidad
(1,2) 1.5 1 4  10 
     = 0.09
1 1  2
(1,3) 2 1 5  10 
     = 0.11
1 1  2
(2,2) 2  4 10 
    = 0.13
 2 2
(2,3) 2.5  4  5  10 
     = 0.44
 1  1  2
(3,3) 3  5 10 
    = 0.22
 2 2
Por lo tanto, la distribución de muestreo de X es:

x P (X = x )
1.5 0.09
E( X ) = 2.4
2 0.24 Var( X ) = 0.20
2.5 0.44
3 0.22
El mismo ejemplo se podría hacer con cualquier otra estadística, por

ejemplo S2, m, Q1, etc.

RESULTADO 1. En muestreo con reemplazo de una población finita o

infinita con media µ y varianza σ2,
σ2
E (X ) = µ , Var(X ) =
n
( )
E S2 = σ 2
RESULTADO 2. En muestreo sin reemplazo de una población finita de

tamaño N con media µ y varianza σ2,
σ2  N − n 
E (X ) = µ , Var(X ) =  
n  N −1 
( )  N  2
E S2 =  σ
 N − 1
N−n
Nota:   es conocido como factor de corrección por población finita
 N −1 
→ 0 si n→N, y
→ 1 si n→1 ó N→∞
¿Para qué sirve conocer la distribución de muestreo de una estadística?.

1. Para conocer qué tan bueno es una estadística como estimador de un
parámetro, en términos de su valor esperado y su varianza.
2. Para calcular probabilidades acerca del error de estimación de una
estadística. Si,
θ̂ − θ = error de estimación, entonces
( )
P θˆ − θ ≤ B = 1 − α

Teorema central del límite. El siguiente resultado es uno de los resultados

más importantes en Estadística.
TEOREMA: Sean X1,X2,...,Xn una muestra aleatoria (v.a.’s independientes e

idénticamente distribuidas) de una población con media µ y varianza σ2.
Para valores “grandes” de n, la distribución muestral de X se aproxima a
una distribución normal con media µ y varianza σ2/n, es decir,
 σ2 
X ≈ N µ, 
 n 
COMENTARIOS:
La distribución muestral de X se puede aproximar por una distribución
normal no importando como se distribuye la variable de interés Xi.
Si la variable de interés Xi tiene una distribución normal, la distribución de
muestreo de X es normal sin importar el tamaño de muestra.
¿Qué tan “grande” debe de ser n? Depende de que tan no normal sea la
distribución original Xi. Un número de referencia es n≥30.
ESTANDARIZACIÓN: Para poder resolver problemas que involucran

probabilidades normales es necesario realizar una estandarización:
X−µ
Si X ∼ N(µ,σ2) ⇒ Z = ∼ N(0,1)
σ
X −µ
Si X ∼ N(µ,σ2/n) ⇒ Z = ∼ N(0,1)
σ n

NOTACIÓN: Sea Z ∼ N(0,1) entonces zα es tal que P(Z ≥ z α ) = α .
EJEMPLO 10. Si una lata de un galón de fertilizante cubre en promedio un

área de 513 pies2, con una desviación estándar de 31.5 pies2. ¿Cuál es la
probabilidad de que el área promedio cubierta por una muestra de 40 latas
sea entre 510 y 520 pies2?.

X ≈ N 513,
(31 .5 )2

 ⇒ P(510 < X < 520 ) = P(− 0.66 < Z < 1.34) = 0.6553
40 
 
EJEMPLO 11. Un guardabosques desea estimar el área promedio de la base

de los pinos. Después de varios años de estudio, se observó que dichas
áreas tienen una desviación estándar de 4 in2. El guardabosques desea tener
un error de menos de 1 in2 en su estimación con una probabilidad de 0.90.
¿Cuántos árboles tendría que medir para lograr tal exactitud?.
 (4 )2 
Suponiendo que n es grande ⇒ X ≈ N µ, 

 n 
 −1 1 
0.90 = P( X − µ < 1) = P(− 1 < X − µ < 1) = P <Z< 
4 n 4 n 
 1 
= 1 − 2P Z ≥ 
 4 n 
 1  1
⇒ P Z ≥  = 0.05 ⇔ z 0.05 = 1.645 = ⇔ n = 44
 4 n  4 n

Distribución de muestreo de la estadística p̂ .

Frecuentemente es de interés determinar la proporción de elemento de una
población que posee alguna característica de interés. Por ejemplo la
proporción de viviendas rurales que cuentan con servicio de agua potable.
1, si la vivienda cuenta con agua potable
X=
0 e.o.c.
Entonces,
1 n
p̂ = X = ∑ X i = proporción de viviendas que cuentan con agua
n i=1
potable en la muestra de tamaño n.
donde, Xi ∼ Ber(p) con p = prop. poblacional de viviendas con agua
Como µ = E(X i ) = p y σ 2 = Var(X i ) = p(1 − p ) entonces,
 p(1 − p ) 
p̂ = X ≈ N p, 
 n 
Nota: Esta aproximación es buena si n≥30, np≥5 y n(1−p)≥5.
DISTRIBUCIONES DE FUNCIONES DE MUESTRAS DE V.A.’S NORMALES.

( )
Sean X1,X2,...,Xn una m.a. de una población N µ X , σ 2X y sean Y1,Y2,...,Ym
otra m.a. independiente de la anterior de una población N µ Y , σ 2Y . ( )

Entonces,
Distribución Ji-cuadrada:
(n − 1)S2X
2
n
X − X
JX = = ∑  i  ∼ χ (2n −1)
σ 2X i =1  σX 
(JX se distribuye como una ji-cuadrada con n−1 grados de libertad).

Propiedades: E(J X ) = n − 1, Var(J X ) = 2(n − 1)
(
Notación: χ (2n −1),α es tal que P J X ≥ χ (2n −1),α = α )
Chi-Square Distribution
0.16 d.f.
5
10
0.12
20
density
0.08
0.04
0
0 10 20 30 40 50 60
x
Distribución t-Student:
X − µX
T= ∼ t ( n −1)
SX n
(T se distribuye como una t-Student con n−1 grados de libertad).
Student's t Distribution
0.4 d.f.
1
5
0.3
50
density
0.2
0.1
0
-7 -4 -1 2 5 8
x

n −1
Propiedades: E(T ) = 0 para n > 2, Var(T ) = para n > 3.
n −3
Notación: t ( n −1),α es tal que P(T ≥ t ( n −1),α ) = α
Distribución F:
S2X σ 2X
F = 2 2 ∼ F( n −1,m−1)
SY σ Y
(F se distribuye como una F con n−1 y m−1 grados de libertad).
2(n − 1) (m + n − 4 )
2
n −1
Propiedades: E(F) = para n>3, Var(F) = para n>5.
n −3 (m − 1)(n − 3)2 (n − 5)
Notación: F( n −1,m−1),α es tal que P(F ≥ F( n −1,m−1),α ) = α , además
1
F( n −1,m−1),1−α =
F( m−1,n −1),α
F (variance ratio) Distribution

1.2 d.f.
2,10
1 5,10
0.8 20,10
density
0.6
0.4
0.2
0
0 1 2 3 4 5
x

2.2 Estimación puntual
La estimación puntual es una de las primeras formas de hacer inferencia.

Recordemos que la forma genérica para denotar un parámetro es con la
letra griega θ.
Algunas definiciones:
ESTIMADOR: Un estimador puntual de θ es una estadística cuyos valores
serán usados para aproximar el verdadero valor de θ. Se denota como θ̂ .
ESTIMACIÓN: Es el valor que toma el estimador para una muestra dada.
MÉTODOS DE ESTIMACIÓN: Existen varios métodos de estimación, pero los

más comunes son:
Método de momentos: Consiste en igualar los momentos muestrales a los
momentos poblacionales tantos como parámetros a estimar.
( )
µ'r = E X r = r-ésimo momento poblacional (no central)
1 n r
M'r = ∑ X i = r-ésimo momento muestral (no central)
n i=1
donde r = 1,2,...
Ejemplo 12: Sea X1,X2,...,Xn una m.a. de una población N(µ,σ2).
1 n
µ'1 = E(X ) = µ M '1 = ∑ X i = X
n i=1
( )
µ' 2 = E X 2 = σ 2 + µ 2 M'2 =
1 n 2
∑ Xi
n i=1
1 n
⇒ µˆ = X y σ̂ 2 = M '2 − X 2 = ∑ (X i − X )2 .
n i=1

Método de máxima verosimilitud: Consiste en determinar el valor de los

parámetros que maximicen la probabilidad de haber observado la muestra
que se observó.
n
L(θ x ) = ∏ f (x i θ) = función de verosimilitud para θ.
i =1
donde f (x i θ) = f (x i ) es la función de densidad para la v.a. Xi haciendo
explicita la dependencia con θ.

θ̂ es tal que maximiza L(θ x )
Ejemplo 13: Sea X1,X2,...,Xn una m.a. de una población N(µ,σ2).
( ) (
L µ, σ 2 x = 2πσ 2 )−n / 2  1 n 2
exp− 2 ∑ (x i − µ ) 
 2σ i=1 
1 n
⇒ µˆ = X y σˆ 2 = ∑ (X i − X )2 .
n i=1
ALGUNOS EJEMPLOS de estimadores puntuales:

Sea X1,X2,...,Xn una m.a. de una población con media µ = E(X) y
varianza σ 2 = Var(X), entonces
1 n
µˆ = X = ∑ X i
n i=1
1 n
σˆ 2 = S2 = ∑ (X i − X )2 ¿por qué n−1 y no n?
n − 1 i=1
En el caso particular de que Xi ∼ Ber(p) ⇒ µ = E(X) = p, entonces
1 n
p̂ = X = ∑ X i
n i=1

Sea (X1,Y1),(X2,Y2),...,(Xn,Yn) una m.a. bivariada de una población con

µX = E(X), σ 2X = Var(X), µY = E(Y), σ 2Y = Var(Y) y ρ=Corr(X,Y),
entonces
n
σˆ XY
∑ X i Yi − nXY
i =1
ρˆ = r = = ,
σˆ X σˆ Y  n 2   n

 ∑ X i − nX 2  ∑ Yi2 − nY 2 
 i=1  i=1 
− 1 ≤ r ≤ 1.
Para un mismo parámetro θ pueden existir más de un estimador, digamos,

θ̂1 y θ̂ 2 , es por esto que es necesario discriminar entre ellos y decidir cuál
es mejor. Por esta razón es necesario hablar de las PROPIEDADES DE LOS
ESTIMADORES.
Insesgamiento: Un estimador θ̂ de θ se dice que es insesgado si el

promedio de sus valores es igual a θ, i.e., si E(θ̂) = θ .
Sesgo(θˆ ) = E(θˆ ) − θ
Eficiencia: Un estimador θ̂ de θ se dice que es eficiente si su varianza es la

más pequeña posible. Para comparar la varianza entre dos estimadores θˆ 1 y
θ̂ 2 es necesario calcular su eficiencia relativa definida como:
Var (θˆ 1 )
Ef (θˆ 1 , θˆ 2 ) =
Var (θˆ 2 )
Para comparar dos estimadores sesgados, es necesario tener una medida

que involucre tanto el sesgo como la variabilidad.

Error cuadrático medio (ECM): Es un promedio de las distancias al

cuadrado entre θˆ y θ, i.e.,
{ }
ECM (θˆ ) = E (θˆ − θ) = Var (θˆ ) + {Sesgo(θˆ )}
2 2
De igual manera, se puede calcular la eficiencia relativa en términos del

ECM entre ambos estimadores.
EJEMPLO 14. Sea X1,X2,...,Xn una m.a. de una población con media µ =
E(X) y varianza σ 2 = Var(X). Sean µˆ = X y σˆ 2 = S2 .
1 n  1 n 1 n
E(µˆ ) = E(X ) = E ∑ X i  = ∑ E(X i ) = ∑ µ = µ
 n i=1  n i=1 n i=1
∴ µˆ = X es un estimador insesgado para µ.
1 n  1 n 1 n 2 σ2
Var(µˆ ) = Var(X ) = Var ∑ X i  = 2 ∑ Var (X i ) = 2 ∑ σ =
 n i=1  n i=1 n i=1 n
se puede demostrar que µˆ = X es eficiente.
Para calcular el valor esperado de S2 usaremos la siguiente desigualdad,
n n
∑ (X i − X ) = ∑ (X i − µ ) − n (X − µ ) .
2 2 2
i =1 i =1
Entonces,
( ) ( )
2  1 n
E σˆ = E S = E 2
∑
2
(X i − X )  = 1  n 2 2 
E ∑ (X i − µ )  − E n (X − µ )  { }
 n − 1 i=1  n − 1   i=1  
=
1 n
 ∑
n − 1  i=1
{ } { 2 
E (X i − µ ) − nE (X − µ ) 
2
}

1 n  1 n 2  σ 2 
∑ Var(X i ) − nVar (X ) = ∑ σ − n   = σ
2
=
n − 1  i=1  n − 1  i=1  n 
∴ σˆ 2 = S2 es un estimador insesgado para σ2.

2.3 Estimación por intervalos
Muchas veces es necesario contar con un rango de valores (y no

únicamente un número) en los cuales se encuentre el verdadero valor del
parámetro.
¿En qué se basan los intervalos de confianza? en la variabilidad de los

estimadores puntuales.
NIVEL DE CONFIANZA: es el grado de seguridad que se tiene sobre la
veracidad de una afirmación sobre el parámetro de interés. Se denota como
1−α., donde α es una constante entre 0 y 1.
INTERVALO DE CONFIANZA: es un rango de valores en el cual se encuentra
el verdadero valor del parámetro θ, con un determinado nivel de confianza
1−α.
ERROR DE ESTIMACIÓN: grado de precisión de la estimación (por intervalo).
θˆ − θ ≤ B ⇔ − B ≤ θˆ − θ ≤ B ⇔ θˆ − B ≤ θ ≤ θˆ + B
Estimación puntual y por intervalo:

Valores de 1 estadística T ⇒ Estimación puntual
Valores de 2 estadísticas T1 y T2 ⇒ Estimación por intervalo
Intervalos ALEATORIOS e intervalos de CONFIANZA:

Sean T1 y T2 dos estadísticas y t1 y t2 valores observados de las estadísticas
anteriores, entonces

(T1 , T2 ) Intervalo aleatorio ⇔ P(T1 < θ < T2 ) = 1 − α
(t1 , t 2 ) Intervalo de confianza ⇔ P (t 1 < θ < t 2 ) = 1 ó 0

Conf (t 1 < θ < t 2 ) = 1 − α
¿Cómo se interpreta la confianza?

Supongamos que P(X − c < µ < X + c ) = 0.95 , por lo tanto, un intervalo de
confianza para µ es (x − c, x + c ) al 95% de confianza. Si se tuviera acceso
a todas las posibles muestras y para cada una de ellas se calculara el
intervalo de confianza anterior, el 95% de ellos contendría al verdadero
valor de µ.
MÉTODOS para la obtención de un I.C.

Existen varios métodos para la obtención de intervalos de confianza, el más
común es llamado método pivotal.
Método pivotal: consiste en encontrar una función del parámetro de interés
y de la muestra aleatoria de tal manera que se pueda pivotear (despejar) de
ella el parámetro de interés.
EJEMPLOS: Intervalos de confianza que involucran una sola población.

Sea X1,X2,...,Xn una m.a. de una población N(µ,σ2).
I.C. para µ (con σ2 conocida):
µˆ = X es in estimador puntual de µ, X ∼ N µ, σ 2 n ( )
X −µ
Cantidad pivotal: Z = ∼ N(0,1)
σ n
⇒ P(− z α / 2 < Z < z α / 2 ) = 1 − α

 X −µ 
⇔ P − z α / 2 < < z α / 2  = 1 − α
 σ n  Pivotear
(
⇔ P X − zα / 2 σ n < µ < X + zα / 2 σ )
n =1− α
Al observar la muestra, la estadística X toma el valor de x , por lo tanto
(
µ ∈ x ± zα / 2 σ n )
con (1−α)100% de confianza.
o NOTA: el intervalo de confianza anterior para µ es válido para cualquier
población si n es grande.
o RELACIÓN ENTRE LONGITUD DEL INTERVALO, NIVEL DE CONFIANZA Y
TAMAÑO DE MUESTRA. La longitud del I.C. para µ con σ2 conocida es

L = 2z α / 2 σ n
1. Si (1−α)↑ ⇒ L↑ y si (1−α)↓ ⇒ L↓
2. Si n↑ ⇒ L↓ y si n↓ ⇒ L↑
I.C. para µ (con σ2 desconocida):

(
µ ∈ x ± t ( n −1),α / 2 s n )
I.C. para σ2:

 (n − 1)s 2 (n − 1)s 2 
σ ∈ 2
2
, 2 
χ 
 ( n −1),α / 2 χ ( n −1),1−α / 2 

Si X1,X2,...,Xn es una m.a. de una población Ber(p),

I.C. para p (proporción):
(
p ∈ p̂ ± z α / 2 p̂(1 − p̂ ) n )
EJEMPLOS: Intervalos de confianza que involucran dos poblaciones.

Sea X1,X2,...,Xn una m.a. de una población N(µX,σ2X) y Y1,Y2,...,Yn otra
m.a. de una población N(µY,σ2Y) independiente de la anterior.
I.C. para µX−µY (con varianzas conocidas):
 σ 2X σ 2Y 

µX − µY ∈ x − y ± zα / 2 +
 n m 

I.C. para µX−µY (con varianzas desconocidas pero iguales):

 1 1
µ X − µ Y ∈  x − y ± t ( n + m−2),α / 2Sp + 
 n m
con (1−α)100% de confianza, donde S2p =

(n − 1)S2X + (m − 1)S2Y
n+m−2
I.C. para σ 2X σ 2Y :
σ 2X  S2X  1  S2X 
,  1 

∈
σ Y  SY  ( n −1,m−1),α / 2  SY  ( n −1,m−1),1−α / 2  
2  2 
F  2 
F

Si X1,X2,...,Xn es una m.a. de una población Ber(pX) y Y1,Y2,...,Ym es otra

m.a. de una población Ber(pY) independiente de la anterior,
I.C. para pX−pY:
 p̂ (1 − p̂ X ) p̂ Y (1 − p̂ Y ) 
p X − p Y ∈  p̂ X − p̂ Y ± z α / 2 X + 
 n m 
Sea (X1,Y1),(X2,Y2)...,(Xn,Yn) una m.a. de v.a.’s pareadas (dependientes)

con parámetros µX, σ2X, µY, σ2Y, σXY. Suponga que la diferencia Di = Xi−Yi
( )
∼ N µ D , σ 2D para i=1,...,n, con µ D = µ X − µ Y y σ 2D = σ 2X + σ 2Y − 2σ XY
I.C. para µD = µX−µY:

(
µ D = µ X − µ Y ∈ d ± t ( n −1),α / 2 s D )
n con (1−α)100% de confianza
EJEMPLO 15. En el programa para contingencias ambientales atmosféricas

en el Distrito Federal se establece que la pre-contingencia se activa si se
alcanzan niveles de ozono entre 200 y 240 IMECAS , y se activa la
contingencia Fase I si se registran niveles superiores de 240 IMECAS . La
SEMARNAT esta interesada en bajar los límites para activar la Fase I si el
porcentaje de días al año en que se esta en pre-contingencia es mayor al
40%. En una muestra de 30 días a lo largo de un año, la proporción de días
que se activó la pre-contingencia fue de 0.35. Con un 90% de confianza,
¿debería la SEMARNAT bajar los límites de la Fase I?.
1 si la medición de ozono ∈ (200, 240) en un día dado
X=
0 e.o.c.
X1,...,X30 n = 30 días ⇒ p̂ = 0.35

1−α=0.90, z 0.05 = 1.645
( )
p ∈ 0.35 ± 1.645 (0.35)(0.65) 30 = (0.206, 0.493) con 90% de confianza
(Si p > 0.40 ⇒ se bajan los límites de la Fase I)

∴ con un 90% de confianza se deberían bajar los límites de la Fase I.
EJEMPLO 16. La Secretaria del Medio Ambiente ha decidido establecer una

nueva ley sobre los niveles de contaminación que deben tener las fábricas.
Además de tener un nivel promedio diario de contaminantes por debajo de
300 u., debe de tener una desviación estándar menor a las 50 u. Una nueva
fábrica registró en el último mes un nivel promedio de 250 u. con una
desviación estándar de 40 u. Con un 95% de confianza, ¿recomendaría a la
SEMARNAT cerrar la nueva fábrica por no cumplir con los niveles
requeridos?.
X = medición de los contaminantes en un día dado
X1,...,X30 n = 30 días ⇒ x = 250 , s = 40
1−α=0.95, t ( 29),0.025 = 2.04 , χ ( 29),0.975 = 16.04 , χ ( 29),0.025 = 45.72
(
µ ∈ 250 ± 2.04 (40) )
30 = (235.1, 264.9 ) con 95% de confianza
 (29)(40) 2 (29)(40) 2 
σ∈ ,  = (31.9, 53.8) con 95% de confianza
 45 .72 16.04 
 
∴ con un 95% de confianza se recomendaría cerrar la fábrica por no
cumplir con los requerimientos en la desviación estándar.

DETERMINACIÓN DEL TAMAÑO DE MUESTRA. Para un muestreo aleatorio

simple es posible determinar el tamaño de muestra necesario para estimar
un parámetro con un error máximo de estimación de B con una confianza
de 1−α. Existen dos casos típicos:
Para la media:
P( X − µ ≤ B) = 1 − α . Se puede demostrar que B = L/2, donde L es la
longitud del intervalo de confianza para µ con 1−α de confianza. Entonces,

B = zα / 2 σ n , por lo tanto
(z α / 2 )2 σ 2
n=
B2
Para la proporción:
P( p̂ − p ≤ B) = 1 − α . Igual que para el caso anterior, se puede demostrar
que B = L/2, donde L es la longitud del intervalo de confianza para p con
1−α de confianza. Entonces, B = z α / 2 p̂(1 − p̂ ) n , por lo tanto
(z α / 2 )2 p̂(1 − p̂ )
n=
B2
EJEMPLO 17. Se desea estimar la demanda diaria promedio de agua por

vivienda en el D.F. con un error de estimación de a lo más 3 litros y con
una confianza de 95%. Se sabe por estudios anteriores que la desviación
estándar en el consumo de agua es de 20 litros. ¿Qué tan grande debe de
ser la muestra para lograr el objetivo?.
P( X − µ ≤ 3) = 0.95 ⇒ 1−α=0.95, z 0.025 = 1.96 , σ = 20 ∴ n = 171

EJEMPLO 18. Se desea estimar la proporción de viviendas con agua potable

en el estado de Hidalgo, con un error de estimación de a lo más 0.05 de la
verdadera proporción y con una confianza de 95%. ¿Qué tan grande debe
de ser la muestra para lograr el objetivo?.
P( p̂ − p ≤ 0.05) = 0.95 ⇒ 1−α=0.95, z 0.025 = 1.96 , p̂ = ? (0.5) ∴ n = 385
Tamaños de muestra
12000
9604
10000
8000
6000
n
4000
2401
2000 1068
601 385 267 196 151 119 97
0
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11
B

2.4 Pruebas de hipótesis
Las pruebas de hipótesis son la forma más importante de hacer inferencias.
HIPÓTESIS: es una aseveración acerca de un fenómeno particular y que
únicamente puede ser verdadera o falsa.
HIPÓTESIS ESTADÍSTICA: aseveración sobre el valor de algún parámetro de
interés.
EJEMPLO 19. Se desea conocer el consumo promedio diario de agua por

habitante.
X = consumo de agua (en litros) por habitante en un día dado.
µ = consumo promedio diario de agua por habitante.
H: el consumo promedio diario de agua por habitante es superior a 150 lt.
⇔ H: µ > 150
En general, si θ es el parámetro de interés, una hipótesis es una aseveración

del tipo
H: θ∈Θ,
donde Θ es el conjunto de posibles valores de θ.
Si Θ contiene un solo valor ⇒ H es llamada hipótesis simple
Si Θ contiene más de un valor ⇒ H es llamada hipótesis compuesta

Existen dos tipos de hipótesis:

HIPÓTESIS NULA: es una aseveración en donde las condiciones del proceso
están bajo control. Negación de la hipótesis de trabajo. Se denota por H0.
HIPÓTESIS DE TRABAJO O ALTERNATIVA: es una aseveración que expresa el
punto de vista inicial del investigador. Negación de la hipótesis nula. Se
denota por H1.
¡La hipótesis que queremos probar es H1!
EJEMPLO 19. (Continuación...)

H0: µ ≤ 150 vs. H1: µ > 150 (Contraste de hipótesis)
Para poder decidir cuál de las dos hipótesis es verdadera, necesitamos

información muestral, la cual se resume en estadísticas. En el lenguaje
estadístico lo que queremos es decidir si rechazar o no rechazar la hipótesis
nula H0.
ESTADÍSTICA DE PRUEBA: es una estadística cuyos valores se usarán para
determinar el rechazo o no rechazo de la hipótesis nula.
Los valores de una estadística de prueba se pueden clasificar en dos tipos:

o Los que llevan al rechazo de H0 ⇔ región de rechazo C
o Los que llevan al no rechazo de H0 ⇔ región de aceptación Cc
El o los valores de la estadística de prueba que separan las dos regiones son
llamados valores críticos.
EJEMPLO 19. (Continuación...)

H0: µ ≤ 150 vs. H1: µ > 150

Si C = {X > k} ⇒ X = estadística de prueba, k = valor crítico y
C c = {X ≤ k} .
Al tomar una decisión de rechazar o no rechazar H0 se pueden cometer dos

tipos de errores:
ERROR TIPO 1 (ET1): rechazar H0 cuando en realidad es verdadera,
ERROR TIPO 2 (ET2): no rechazar H0 cuando en realidad es falsa.
Estos errores se pueden resumir en la siguiente tabla:
Realidad
H0 verdadera H0 falsa
Decisión Rechazar H0 ET1 √

No rechazar H0 √ ET2
Una forma de medir qué tan frecuente ocurre un error es mediante su

probabilidad, es decir,
α = P(ET1) = P(rechazar H0 | H0) = P(X ∈ C H 0 )
(
β = P(ET2) = P(no rechazar H0 | H1) = P X ∈ C c H1 )
Una prueba de hipótesis se mide de acuerdo a qué tan grande es su error

tipo 1. En otras palabras,
Tamaño de prueba (o nivel de significancia) = P(ET1) = α
Una manera de medir qué tan buena es una prueba es mediante la función
potencia, denotada por π. Se define como la probabilidad de rechazar H0
cuando debe de ser rechazada porque H0 es falsa, i.e.,

π = P(rechazar H0 | H0 falsa) = P(rechazar H0 | H1)

= 1−β
Es deseable tener pruebas con tamaños de error α y β lo más pequeño

posibles, pero existe una relación inversa entre α y β, i.e.,
si α↑ ⇒ β↓, y si α↓ ⇒ β↑
¿Cómo le hacemos entonces?

Se ha establecido por convención que el ET1 es más grave que el ET2, por
lo que se controla el ET1 fijando un valor de α pequeño, y para todas las
pruebas con el mismo α encontrar aquella con el menor valor de β (o
mayor potencia π).
α pequeño ⇔ α ≤ 0.10
EJEMPLO 20. Virus de inmunodeficiencia humana. Las hipótesis son:

H0: VIH+ vs. H1: VIH−
Decisión \ Realidad H0 verdadera (VIH+) H0 falsa (VIH−)

Rechazar H0 (VIH−) ET1 √
No rechazar H0 (VIH+) √ ET2
¿Qué error es más grave, el ET1 o el ET2?
Existen dos métodos generales a seguir para realizar una prueba de

hipótesis:

MÉTODOS PARAMÉTRICOS: Suponen que la v.a. de interés tiene una

distribución que es miembro de una familia paramétrica, por ejemplo:
Normal, Bernoulli, etc. La variable tiene que ser numérica.
MÉTODOS NO PARAMÉTRICOS: No suponen que la v.a. tiene alguna

distribución específica. La variable puede ser numérica o categórica
ordinal.
¿Cuándo usar un método paramétrico o uno no paramétrico?.

o Si se satisfacen los supuestos distribucionales:
Prueba paramétrica > prueba no paramétrica
o Si no se satisfacen los supuestos distribucionales:
Prueba no paramétrica > prueba paramétrica
¿Cómo verificar los supuestos distribucionales?

Existen métodos formales para ello, pero lo más común es utilizar un
método gráfico como: Histogramas, diagramas de tallo y hojas, y gráfica
de probabilidad normal.
Normal Probability Plot

99.9
99
percentage
95
80 ¡Normal!
50
20
5
1
0.1
-3.2 -2.2 -1.2 -0.2 0.8 1.8 2.8
X

Normal Probability Plot

99.9
99
percentage 95
80 ¡No Normal!
50
20
5
1
0.1
0 4 8 12 16
Y
Las formas más comunes de pruebas de hipótesis que se presentan son:

1. H0: θ ≤ θ0 vs. H1: θ > θ0 (prueba de una cola)
H0: θ = θ0 vs. H1: θ > θ0
2. H0: θ ≥ θ0 vs. H1: θ < θ0 (prueba de una cola)
H0: θ = θ0 vs. H1: θ < θ0
3. H0: θ = θ0 vs. H1: θ ≠ θ0 (prueba de dos colas)
Para obtener un PROCEDIMIENTO DE PRUEBA, el método más común en el

cociente de verosimilitudes (generalizado). Los procedimientos de prueba
así obtenidos son los que tienen mayor potencia. Las pruebas que se
presentan a continuación fueron obtenidas mediante el método de cociente
de verosimilitudes.
Una vez que se obtiene la estadística de prueba W, la región de rechazo

para los 3 casos de hipótesis anteriores son:

H0 H1 C
θ = θ0 θ > θ0 W ≥ wα
θ = θ0 θ < θ0 W ≤ w 1−α
θ = θ0 θ ≠ θ0 W ≤ w 1−α / 2 o W ≥ w α / 2
EJEMPLOS: Pruebas de hipótesis que involucran una sola población.

Sea X1,X2,...,Xn una m.a. de una población con media µ = E(X) y varianza
σ2 = Var(X). El nivel de significancia de las siguientes pruebas es α.
Prueba de hipótesis para µ (con σ2 conocida):

Prueba paramétrica. (Supuestos: X ∼ Normal o n grande, σ2 conocida)
Hipótesis: H0: µ = µ0 vs. H1: µ ≠ µ0
X − µ 0 H0
Procedimiento: C = {Z ≥ z α / 2 }, Z = ∼ N(0,1)
σ n
Prueba de hipótesis para µ (con σ2 desconocida):

Prueba paramétrica. (Supuestos: X ∼ Normal)
Hipótesis: H0: µ = µ0 vs. H1: µ ≠ µ0
X − µ H0
Procedimiento: C = {T ≥ t ( n −1),α / 2 }, T = ∼ t ( n −1)
S n
Prueba de hipótesis para σ2 :

Prueba paramétrica. (Supuestos: X ∼ Normal)
Hipótesis: H0: σ2 = σ20 vs. H1: σ2 ≠ σ20
Procedimiento: C = J ≤ { χ (2n −1),1−α / 2 , J ≥ χ (2n −1),α / 2 }, J = (n − 1)S2 H 2

0
∼χ ( n −1)
σ2

Prueba de hipótesis para p:

Prueba paramétrica. (Supuestos: X ∼ Ber(p), n ≥ 30)
Hipótesis: H0: p = p0 vs. H1: p ≠ p0
p̂ − p 0 H0
p 0 (1 − p 0 ) n
EJEMPLOS: Pruebas de hipótesis que involucran dos poblaciones

independientes. Sea X1,X2,...,Xn una m.a. de una población con media µX,
mediana mX y varianza σ2X y Y1,Y2,...,Ym otra m.a. de una población con
media µY, mediana mY y varianza σ2Y, independiente de la anterior.
Prueba de hipótesis para la comparación de localizaciones:

Prueba paramétrica 1. (Supuestos: X ∼ Normal, Y ∼ Normal, σ2X y σ2Y
conocidas)
Hipótesis: H0: µX − µY = µ0 vs. H1: µX − µY ≠ µ0
X − Y − µ0 H0
σ 2X σ 2Y
+
n m
Prueba paramétrica 2. (Supuestos: X ∼ Normal, Y ∼ Normal, σ2X = σ2Y
desconocidas)
X − Y − µ 0 H0
Procedimiento: C = {T ≥ t ( n + m−2),α / 2 }, T= ∼ t ( n + m−2) ,
Sp 1 + 1
n m
S2p =
(n − 1)S2X + (m − 1)S2Y
n+m−2

Prueba no paramétrica. “Mann-Whitney” (Supuestos: Ninguno)

Hipótesis: H0: mX = mY vs. H1: mX ≠ mY
Procedimiento: C = {TX ≤ k ( n ,m ),1−α / 2 , TX ≥ k ( n ,m ),α / 2 },
n
n (n + 1) H0
TX = ∑ R (X i ) − ∼ TMann − Whitney
i =1 2
R (X i ) = rango asociado a la observación Xi,
k ( n ,m ),α / 2 =pto. crítico de la dist. de Mann-Whitney
Si n y m son grandes,
TX − nm 2 H0
nm(n + m + 1) 12
Prueba de hipótesis para la comparación de dispersiones:

Prueba paramétrica. (Supuestos: X ∼ Normal, Y ∼ Normal)
Hipótesis: H0: σ2X = σ2Y vs. H1: σ2X ≠ σ2Y
Procedimiento: C = {F ≤ f ( n −1,m−1),1−α / 2 , F ≥ f ( n −1,m−1),α / 2 },
S2X H0
F = 2 ∼ F( n −1,m−1)
SY
Prueba no paramétrica.“Variante de Mann-Whitney” (Supuestos: Ninguno)
Hipótesis: H0: σ2X = σ2Y vs. H1: σ2X ≠ σ2Y
Procedimiento: Tomar U i = X i − X y Vj = Yj − Y y seguir el
procedimiento de la prueba Mann-Whitney para localización.
Prueba de hipótesis para pX-pY:

Prueba paramétrica. (Supuestos: X ∼ Ber(pX), Y ∼ Ber(pY), n y m grandes)
Hipótesis: H0: pX − pY = p0 vs. H1: pX − pY ≠ p0

p̂ X − p̂ Y − p 0 H0
p̂ X (1 − p̂ X ) p̂ Y (1 − p̂ Y )
+
n m
EJEMPLOS: Pruebas de hipótesis que involucran dos poblaciones

dependientes. Sea (X1,Y1),(X2,Y2)...,(Xn,Yn) una m.a. de v.a.’s pareadas
(dependientes) con parámetros µX, mX, σ2X, µY, mY, σ2Y.
Prueba de hipótesis para la comparación de localizaciones:

Prueba paramétrica. (Supuestos: D = X−Y ∼ Normal, σ2D desconocida)
D − µ 0 H0
Procedimiento: C = {T ≥ t ( n −1),α / 2 }, donde T = ∼ t ( n −1)
SD n
Prueba no paramétrica. “Del signo”. (Supuestos: Ninguno)
Hipótesis: H0: mX = mY vs. H1: mX ≠ mY
⇔ H0: θ = 1/2 vs. H1: θ ≠ 1/2, donde θ = P(X > Y)
Procedimiento: C = {T+ ≤ k1−α / 2 , T+ ≥ k α/2 },
( )
H0
T+ = # Dif . pos. X − Y ∼ Bin n * ,1 2 , n* = {# Dif. ≠ 0}
VALOR-P: El valor-p o nivel de significancia descriptivo es el mínimo valor

de α para el cual se decide rechazar la hipótesis nula. Esta cantidad es de
suma importancia ya que la mayoría de los paquetes estadísticos lo
calculan y el usuario toma la decisión a partir de él.

¿Cómo decidir si rechazar o no rechazar H0 usando el valor-p?
Si valor-p ≤ α ⇒ se rechaza H0
Si valor-p > α ⇒ no se rechaza H0
EJEMPLO 21. Un supervisor de producción, tiene que gantizar que las

bolsas de semilla de pasto que vende una cía. pesen en promedio 25 kg.
Para verificarlo, se seleccionan 25 bolsas y se encuentra un peso promedio
de 23.8 con una desviación estándar de 6.6 kg. ¿Debería mandar cerrar esta
cía.? Utilice un nivel de significancia del 0.05.
X = peso de una bolsa de semillas de pasto
X1,...,X25 n = 25 ⇒ x = 23.8 , s = 6.6 , α = 0.05, t ( 24),0.025 = 2.06
Hipótesis: H0: µ = 25 vs. H1: µ ≠ 25

Procedimiento: C = {T ≥ 2.06}, Tobs = -0.909 ∉ C ∴ No se rechaza H0
(No hay suficiente evidencia para mandar cerrar la cía.)

Hypothesis Tests
----------------
Sample mean = 23.8
Sample standard deviation = 6.6
Sample size = 25
95.0% confidence interval for mean: 23.8 +/- 2.72435 [21.0756,26.5244]
Null Hypothesis: mean = 25.0

Alternative: not equal
Computed t statistic = -0.909091
P-Value = 0.372342
Do not reject the null hypothesis for alpha = 0.05.

EJEMPLO 22. A 8 sujetos se les pide calificar del 0 al 10 dos posibles

campañas publicitarias de ahorro de energía. Las calificaciones se
presentan en la siguiente tabla. Diga cuál de las dos campañas debe lanzar
al aire. Utilice α = 0.10.
Sujeto 1 2 3 4 5 6 7 8
Calificación C.A. 8 7 5 5 5 7 6 6
Calificación C.B. 9 8 7 5 4 9 7 8
X = Calificación de la campaña A
Y = Calificación de la campaña B
Hypothesis Tests for X-Y
Sample mean = -1.0

Sample median = -1.0
t-test
------
Null hypothesis: mean = 0.0
Computed t statistic = -2.64575

P-Value = 0.0331455
Reject the null hypothesis for alpha = 0.05.
sign test
---------
Null hypothesis: median = 0.0
Number of values below hypothesized median: 6

Number of values above hypothesized median: 1
Large sample test statistic = 1.51186 (continuity correction applied)

P-Value = 0.13057
Do not reject the null hypothesis for alpha = 0.05.

Estadistica Inferencial Itam Guia

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Estadistica Inferencial Itam Guia

Încărcat de

Drepturi de autor:

Formate disponibile

PROFESOR: LUIS E.

Parte 2. Estadística inferencial

2.1 Distribuciones muestrales

Recordemos que el objetivo de la Estadística es hacer inferencias acerca de

Las inferencias más comunes son:

Ya que las inferencias se basan en la información muestral, es de gran

Las técnicas de inferencia que se verán en esta segunda parte del

Recordemos también que la información muestral se resume en unas

El procedimiento general de inferencia consiste en usar estadísticas para

41 Curso: Métodos estadísticos básicos y técnicas de muestreo

acerca de la media poblacional µ. También la varianza muestral S2 nos dice

En la práctica se selecciona aleatoriamente una sola muestra de tamaño n

Las estadísticas son funciones de la muestra aleatoria por lo tanto a su vez

EJEMPLO 9. Supongamos que se tiene una v.a. X con la siguiente

42 Curso: Métodos estadísticos básicos y técnicas de muestreo

Calculemos todos los valores posibles de X para todas las muestras

o Las muestras producen distintos valores para X

43 Curso: Métodos estadísticos básicos y técnicas de muestreo

¿Qué pasaría si las muestras se toman sin reemplazo?

Por lo tanto, la distribución de muestreo de X es:

El mismo ejemplo se podría hacer con cualquier otra estadística, por

44 Curso: Métodos estadísticos básicos y técnicas de muestreo

RESULTADO 1. En muestreo con reemplazo de una población finita o

RESULTADO 2. En muestreo sin reemplazo de una población finita de

¿Para qué sirve conocer la distribución de muestreo de una estadística?.

45 Curso: Métodos estadísticos básicos y técnicas de muestreo

Teorema central del límite. El siguiente resultado es uno de los resultados

TEOREMA: Sean X1,X2,...,Xn una muestra aleatoria (v.a.’s independientes e

ESTANDARIZACIÓN: Para poder resolver problemas que involucran

46 Curso: Métodos estadísticos básicos y técnicas de muestreo

NOTACIÓN: Sea Z ∼ N(0,1) entonces zα es tal que P(Z ≥ z α ) = α .

EJEMPLO 10. Si una lata de un galón de fertilizante cubre en promedio un

EJEMPLO 11. Un guardabosques desea estimar el área promedio de la base

47 Curso: Métodos estadísticos básicos y técnicas de muestreo

Distribución de muestreo de la estadística p̂ .

DISTRIBUCIONES DE FUNCIONES DE MUESTRAS DE V.A.’S NORMALES.

otra m.a. independiente de la anterior de una población N µ Y , σ 2Y . ( )

(JX se distribuye como una ji-cuadrada con n−1 grados de libertad).

48 Curso: Métodos estadísticos básicos y técnicas de muestreo

Propiedades: E(J X ) = n − 1, Var(J X ) = 2(n − 1)

(T se distribuye como una t-Student con n−1 grados de libertad).

49 Curso: Métodos estadísticos básicos y técnicas de muestreo

(F se distribuye como una F con n−1 y m−1 grados de libertad).

F (variance ratio) Distribution

50 Curso: Métodos estadísticos básicos y técnicas de muestreo

2.2 Estimación puntual

La estimación puntual es una de las primeras formas de hacer inferencia.

MÉTODOS DE ESTIMACIÓN: Existen varios métodos de estimación, pero los

51 Curso: Métodos estadísticos básicos y técnicas de muestreo

Método de máxima verosimilitud: Consiste en determinar el valor de los

donde f (x i θ) = f (x i ) es la función de densidad para la v.a. Xi haciendo

explicita la dependencia con θ.

Ejemplo 13: Sea X1,X2,...,Xn una m.a. de una población N(µ,σ2).

ALGUNOS EJEMPLOS de estimadores puntuales:

52 Curso: Métodos estadísticos básicos y técnicas de muestreo

Sea (X1,Y1),(X2,Y2),...,(Xn,Yn) una m.a. bivariada de una población con

Para un mismo parámetro θ pueden existir más de un estimador, digamos,

Insesgamiento: Un estimador θ̂ de θ se dice que es insesgado si el

Eficiencia: Un estimador θ̂ de θ se dice que es eficiente si su varianza es la

θ̂ 2 es necesario calcular su eficiencia relativa definida como:

Para comparar dos estimadores sesgados, es necesario tener una medida

53 Curso: Métodos estadísticos básicos y técnicas de muestreo

Error cuadrático medio (ECM): Es un promedio de las distancias al

De igual manera, se puede calcular la eficiencia relativa en términos del