7.3 Apéndice 5 El Curso de Estadística

Unidad 5
EL TEOREMA DEL LMITE CENTRAL
5.1 Estadgrafos como estimadores de parmetros

poblacionales
Estadgrafos Estadsticos
En este captulo se tratarn funciones de las variables X1, X2, ... , Xn observadas en una
muestra aleatoria seleccionada de una poblacin bajo estudio. Las variables son
independientes y tienen una distribucin comn. Con mucha frecuencia se utilizan
ciertas funciones de v.a. observadas en una muestra para estimar o tomar decisiones con
respecto de parmetros poblacionales desconocidos. Por ejemplo, supongamos que se
desea estimar la media de una poblacin . Si obtenemos una muestra aleatoria de n
observaciones, x1, x2, ... , xn, resulta adecuado estimar a travs de la media de la
muestra:
La bondad de la estimacin del comportamiento de las v.a. X1, X2, ... , Xn y el efecto de
este comportamiento sobre . Ntese que la v.a. es una

funcin de (solamente) las v.a. X1, X2, ... , Xn y el tamao (constante) n de la muestra.
Por lo tanto la v.a. representa un estadgrafo estadstico.
Una definicin ms formal sera: Un estadstico (estadgrafo) es una funcin de las

variables que se pueden observar en una muestra y de las constantes conocidas. Los
estadsticos se utilizan para hacer inferencias (estimaciones o decisiones) con respecto a
parmetros poblacionales desconocidos.
Como el estadstico es una funcin de variables aleatorias observadas en una muestra
aleatoria, un estadstico en s, es una variable aleatoria.
Por lo anteriormente expuesto, deduciremos su distribucin de probabilidad, la cual la

llamamos Distribucin Muestral del estadstico.
Debe quedar claro que la forma de distribucin muestral terica de un estadstico

depender de la distribucin de las variables aleatorias observadas en la muestra.
5.2 Muestreo Aleatorio Simple

La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la
distribucin de un carcter en dicha poblacin y las distribuciones de dicho carcter en
todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea parte del
total de la poblacin, los gastos de recogida y tratamiento de los datos sern
menores. Por ejemplo, cuando se realizan encuestas previas a una eleccin, es
ms barato preguntar a 4.000 personas su intencin de voto, que a 30.000.000;
Mayor rapidez:
Estamos acostumbrados a ver cmo con los resultados del escrutinio de las
primeras mesas electorales, se obtiene una aproximacin bastante buena del
resultado final de unas elecciones, muchas horas antes de que el recuento final
de votos haya finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto tipo de
bombillas, no es posible en la prctica destruirlas todas para conocer su vida
media, ya que no quedara nada que vender. Es mejor destruir slo una pequea
parte de ellas y sacar conclusiones sobre las dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos con dos
problemas:
Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en este

captulo.
Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de la
poblacin (inferencia).
El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los

elementos de la poblacin tienen la misma probabilidad de ser extrados.
Muestreo aleatorio
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el
proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la
misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de
seleccin muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:

Sin reposicin de los elementos;
Con reposicin.
Muestreo aleatorio sin reposicin

Consideremos una poblacin E formada por N elementos. Si observamos un elemento
particular, , en un muestreo aleatorio sin reposicin se da la siguiente

circunstancia:
La probabilidad de que e sea elegido en primer lugar es ;
Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la
probabilidad de que sea elegido en el segundo intento es de . en el (i+1)-simo

intento, la poblacin consta de N-i elementos, con lo cual si e no ha sido seleccionado
previamente, la probabilidad de que lo sea en este momento es de .
Si consideramos una muestra de elementos, donde el orden en la eleccin de los

mismos tiene importancia, la probabilidad de eleccin de una muestra
cualquiera es
lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un caso

posible entre las VN,n posibles n-uplas de N elementos de la poblacin.
Si el orden no interviene, la probabilidad de que una muestra
sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas,
tantas veces como permutaciones en el orden de sus elementos sea posible, es decir
Muestreo aleatorio con reposicin

Sobre una poblacin E de tamao N podemos realizar extracciones de n elementos, pero
de modo que cada vez el elemento extrado es repuesto al total de la poblacin. De esta
forma un elemento puede ser extrado varias veces. Si el orden en la extraccin de la
muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos
es:
Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de la

anterior, repitindola tantas veces como manera de combinar sus elementos sea posible.
Es decir,
sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra;
sea n2 el nmero de veces que se repite cierto elemento e2;
sea nk el nmero de veces que se repite cierto elemento ek,

de modo que . Entonces la probabilidad de obtener la muestra
es
es decir,
Muestreo aleatorio Simple
El Muestreo Aleatorio Simple es aquel en que cada uno de los elementos de la

poblacin tiene la misma probabilidad de ser elegido, y en las que la seleccin de un
nuevo elemento no afecta las probabilidades de eleccin de cualquier otro elemento. De
forma ms general, se puede considerar que una muestra aleatoria simple es aquella en
la que todas las posibles muestras extradas tienen la misma probabilidad de ser
elegidas.
Adems todos las observaciones de la v.a. son independientes, es decir
5.3 El teorema del Lmite Central

Si se saca una muestra de una poblacin que es normal, tiene una distribucin
muestral que es Normal. Pero que podemos decir de la distribucin de si los Xi no
estn distribuidos normalmente?.
El Teorema del Lmite Central nos mostrar que tendr una distribucin
aproximadamente normal si el tamao de la muestra es grande.
Matemticamente lo podemos definir de la siguiente manera:
Sean X1,X2, ... ,Xn variables aleatorias independientes e idnticamente distribuidas con
E(Xi) = y V(Xi) = < . Definimos
Un = ( - )
( /n)
en donde
entonces la funcin de distribucin Un converge a una funcin de distribucin normal

estndar cuando n.
Ejemplo
Los tiempos de espera para los clientes que pasan por una caja registradora a la salida de
una tienda de menudeo son variables aleatorias independientes con una media de 1.5
minutos y una varianza de 1.0. Aproxime la probabilidad de que se pueda atender a 100
clientes en menos de 2 horas.
Solucin
Si Xi denota el tiempo de espera para el i-simo cliente, entonces se desea calcular
P( Xi 120 ) =P( 120/100)

=P( 1.20)
As la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas es

aproximadamente 0.0013. Esta pequea probabilidad indica que es prcticamente
imposible despachar a 100 clientes en menos de 2 horas.
Resumiendo, el Teorema del Lmite Central establece que cuando el tamao de la

muestra se incrementa, la distribucin de muestreo de la media (as como de otras
estadsticas muestrales) se aproxima en cuanto a su forma a la distribucin normal,
independientemente de la distribucin de la poblacin de la que fue tomada la
muestra.
Para efectos prcticos, puede suponerse que la distribucin de muestreo de la media

tiene una distribucin aproximadamente normal, incluso en las poblaciones o procesos
menos normales, siempre que el tamao de la muestra sea n 30.
Ejemplo
Un auditor toma una muestra aleatoria de tamao n =36 de una poblacin de 1000
cuentas por cobrar. El valor medio de las cuentas por cobrar para la poblacin es =
$260.00, con la desviacin estndar de la poblacin = $45.00. Cul es la probabilidad
deque la media muestral sea inferior a $250.00?
Solucin
Figura: En la figura aparece la curva de

probabilidad. La distribucin de muestreo
es descrita por la media y el error estndar.
E( ) = = 260.00 (como se estableci)
= ( /n ) = ( 45.0 / 36 ) = ( 45.0 / 6 ) = 7.50
Por lo tanto,
P( < 250.0 | = 260.0 , = 7.50 ) = P( z < -1.33 )

P( z < -1.33 ) = 0.0918 (valor tabulado).
5.4 Ley de los grandes nmeros

Convergencia en Probabilidad
Recordemos que si X es una v.a. continua y X1,X2, ... , Xn son v.a. independientes e
idnticamente distribuidas, que tienen la misma probabilidad que X.
=> Y= Xi tiene
y =E[y]=E[ Xi ] = n
z= Xi / n =
E[z]=
es una v.a.
V(Y) = n 2
V(Z) = 2 / n
Recordemos que la desigualdad de Tchebysheff

P(|X- | K /n ) 1 / k2
Si tomamos como la v.a.

=> P(| - | K /n ) 1 / k2
sea = K /n => k = n /
P(| - | ) ( 2 / 2 n )
Para > 0
Lmn P( | - |> )=0
Si se cumple esta igualdad, decimos que converge con probabilidad a .
Al hecho de que sea consistente con , o que converja en probabilidad a , suele

designarse como la Ley de los Grandes Nmeros. Esta es la justificacin terica del
procedimiento de promediar las mediciones utilizado por muchos investigadores para
obtener mayor precisin en las medidas.
Por ejemplo, un investigador puede calcular el promedio de varias mediciones del peso
de un animal para obtener una estimacin ms exacta de dicho peso. Su consideracin,
es que el promedio de muchos pesos obtenidos independientemente debe estar bastante
prximo del peso real, con una alta probabilidad.
Ejemplo
A una poblacin de cuatro mecangrafas se les pidi que escribieran la misma pgina de
un manuscrito. Los errores cometidos por cada mecangrafa fueron:
Mecangrafa No. de Errores

A 3
B 2
C 1
D 4
Solucin
Cuando se dispone de la informacin de una poblacin se puede calcular la media de

ella, entonces
x =( Xi ) / N
y la desviacin estndar
Por lo tanto
x = ( 3 + 2 + 1 + 4 ) / 4 = 2.5 errores
x = 1.12 errores ( aplicando la frmula anterior)
Si se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles

muestras (Nn = 42 = 16), si se realizara muestreo con reposicin, la media de estos
valores ( ) sera igual a 2.5, que es la media de la poblacin x.
Por otra parte, si el muestreo se hubiera realizado sin reposicin debera haber seis
muestras posibles de dos mecangrafas:
N! / [ n! ( N n )! ] = 4! / [ 2! * 2! ] = 6
A continuacin se presentan las posibles muestras
1. Total 16 muestras de n =2 y N =4, muestreo con reposicin
Muestra Mecangraf Resultados de Media

a la muestra muestral i
1 A, A 3,3 3
2 A, B 3,2 2.5
3 A, C 3,1 2
4 A, D 3,4 3.5
5 B, A 2,3 2.5
6 B, B 2,2 2
7 B, C 2,1 1.5
8 B, D 2,4 3
9 C, A 1,3 2
10 C, B 1,2 1.5
11 C, C 1,1 1
12 C, D 1,4 2.5
13 D, A 4,3 3.5
14 D, B 4,2 3
15 D, C 4,1 2.5
16 D, D 4,4 4
=2.5= x
2. Total 6 muestras posibles de n =2, N =4, muestreo sin reposicin
Muestra Mecangraf Resultados de Media

a la muestra muestral i
1 C, D 1,4 2.5
2 A, B 3,2 2.5
3 A, C 3,1 2
4 A, D 3,4 3.5
5 B, C 2,1 1.5
6 B, D 2,4 3
=2.5= x
En este pequeo ejemplo, aunque se puede observar gran fluctuacin en la media

muestral, dependiendo de las mecangrafas que se seleccionaron, no hay tanta
fluctuacin como en la poblacin real en s. El hecho de que las medias muestrales sean
menos variables que los datos de poblacin, se deriva directamente de la Ley de los
Grandes Nmeros.
5.5 Distribuciones muestrales basados en normalidad

Se ha mencionado que muchos fenmenos observados en la realidad tienen
distribuciones de frecuencias relativas que se pueden representar en forma adecuada
mediante el modelo de una distribucin de probabilidad normal. Es por esto que se
establece la distribucin muestral del estadstico
Sea una muestra aleatoria de tamao n de una distribucin normal con

media y varianza . entonces
Tiene una distribucin normal con media y varianza / n, es decir
Figura: Funcin de densidad de una v.a.

con respecto a una v.a. X que tiene
funcin de densidad de probabilidad
Normal Estndar.
Ejemplo
Una mquina embotelladora puede regularse de tal manera que llene un promedio de
onzas por botella. Se ha observado que la cantidad de contenido que suministra la
mquina presenta una distribucin normal con = 1.0 onza. De la produccin de la
mquina cierto da, se obtiene una muestra aleatoria de n = 9 botellas llenas (todas
fueron llenadas con las mismas posiciones de control operativo) y se miden las onzas
del contenido de cada una. Determinar la probabilidad de la media real para tales
posiciones del control.
Solucin
Si X1, X2, ... , X9 representan las onzas de contenido a observarse, se deduce que X i
presenta una distribucin normal con una media y una varianza =1 para i = 1,
2, ... , 9. por tanto, tiene una distribucin normal con media y X = /n = 1/9.
Se desea calcular
P( | - | 0.3 ) = P( -0.3 ( - ) 0.3 )
ya que ( - ) / ( / n ) representa una distribucin normal estndar. Aplicando los

valores tabulados, se tiene
P ( - 0.9 Z 0.9 ) = 1 2 P( Z > 0.9)
= 1 2 (0.1841)
= 0.6318
Por tanto la probabilidad es solo de 0.63 de que la media muestral diste a lo ms en 0.3
de onza de la poblacin real.
Distribucin Ji Cuadrado ( )
Sean una muestra aleatoria de tamao n de una distribucin normal

con media y varianza . Entonces Zi = ( Xi - ) / son v.a. normales estndar e
independientes, i = 1, 2, ...,n, y la suma de los cuadrados de variables aleatorias
normales estndares e independientes tiene una distribucin Ji-cuadrado con n grados de
libertad.
Bajo las condiciones anteriormente expuestas, para cuestiones ms prcticas se suele

trabajar con la siguiente frmula:
= ( n 1 ) S2 /
Ejemplo
Continuando con el ejemplo anterior, se supone que las onzas del contenido que vaca la
mquina embotelladora tiene una distribucin normal con =1. Supngase que se
desea obtener una muestra aleatoria de 10 botellas y medir el contenido en cada botella.
Si se utilizan estas 10 observaciones para calcular S2, podra ser til especificar un
intervalo de valores que incluyeran a S2 con una alta probabilidad. Encuentre los
nmeros b1 y b2 tales que
P( b1 S2 b2) = 0.90
Solucin
Ya que = 1, en consecuencia (n 1) S2 / = (n 1) S2 tiene una distribucin

con (n 1) grados de libertad. Por tanto, utilizando los valores tabulados de esta funcin
podemos encontrar dos nmeros , a1 y a2, tales que
P( a1 (n 1) S2 a2) = 0.90
Un mtodo para hacerlo es encontrar el valor a2 que limita un rea de 0.05 de la cola
derecha y un valor a1 que limita un rea de 0.05 de la cola izquierda (0.95 de rea a la
derecha). Ya que hay 9 grados de libertad, la tabla nos da a2 = 16.919 y a1 = 3.325.
As debemos tener
a1 = (n 1)b1 / = (n 1)b1 = 9 b1
a2 = (n 1)b2 / = (n 1)b2 = 9 b2
o sea
b1 = 3.325 / 9= 0.369 y b2 = 16.919 / 9 = 1.880
de donde se deduce que si se desea tener un intervalo que incluya a S2 con una
probabilidad de 0.90, uno de tales intervalos es ( 0.369, 1.880). Obsrvese que este
intervalo es bastante grande.
Distribucin t de Student
La distribucin -Student se construye como un cociente entre una normal y la raz de
una independientes. De modo preciso, llamamos distribucin t-Student con n grados

de libertad, a la de una v.a. T,
donde , . Este tipo de distribuciones aparece cuando tenemos n+1

v.a. independientes
y nos interesa la distribucin de
La funcin de densidad de es
Figura: Funcin de densidad de una de
Student
La distribucin de Student tiene propiedades parecidas a :
Es de media cero, y simtrica con respecto a la misma;

Es algo ms dispersa que la normal, pero la varianza decrece hasta 1 cuando el nmero
de grados de libertad aumenta;
Figura: Comparacin entre las funciones
de densidad de y .
Para un nmero alto de grados de libertad se puede aproximar la distribucin de Student
por la normal, es decir,
Figura: Cuando aumentan los grados de

libertad, la distribucin de Student se
aproxima a la distribucin normal
estandarizada.
Para calcular
en lugar de considerar una primitiva de esa funcin y determinar la integral definida,

buscaremos el resultado aproximado en una tabla de la distribucin . Vase la tabla
4, al final del libro.
La distribucin F de Snedecor
Otra de la distribuciones importantes asociadas a la normal es la que se define como
cociente de distribuciones independientes. Sean e v.a.

independientes. Decimos entonces que la variable
sigue una distribucin de probabilidad de Snedecor, con (n,m) grados de libertad.
Obsrvese que .
La forma ms habitual en que nos encontraremos esta distribucin ser en el caso en
que tengamos n+m v.a. independientes
y as
De esta ley de probabilidad lo que ms nos interesa es su funcin de distribucin:
y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una
tabla (la nmero 6) donde encontrar aproximaciones a esas cantidades
Figura: Funcin de densidad de .

Es claro que la distribucin de Snedecor no es simtrica, pues slo tienen densidad de
probabilidad distinta de cero, los punto de . Otra propiedad interesante de la
distribucin de Snedecor es:
5.6 Generacin de Nmeros Seudo Aleatorios

Existen varios mtodos para la generacin de nmeros seudo aleatorios, el ms utilizado
es el Mtodo de Montecarlo, tambin llamado Mtodo de la Transformada Inversa, el
cual lo analizaremos a continuacin.
Mtodo de Montecarlo
El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias simples de

una v.a. X, de la que conocemos su ley de probabilidad (a partir de su funcin de
distribucin F). Con este mtodo, el modo de elegir aleatoriamente un valor de X
siguiendo usando su ley de probabilidad es:
1. Usando una tabla de nmeros aleatorios se toma un valor u de una v.a.
.
2. Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el
caso en que X sea discreta se toma x como el percentil de X, es decir el
valor ms pequeo que verifica que .
Este proceso se debe repetir n veces para obtener una muestra de tamao n.
Ejemplo
Si queremos extraer n =10 muestras de una distribucin podemos recurrir a una

tabla de nmeros aleatorios de k =5 cifras, en las que observamos las cantidades (por
ejemplo)
A partir de ellas podemos obtener una muestra de usando una tabla de la

distribucin normal:
Nmeros aleatorios
Muestra Muestra
ti xi = F-1(ui)
76.293 0.76 0.71

31.776 0.32(=1-0.68) -0.47
50.803 0.51 0.03
71.153 0.71 0.55
20.271 0.20(=1-0.80) -0.84
33.717 0.34(=1-0.66) -0.41
17.979 0.18(=1-0.82) -0.92
52.125 0.52 0.05
41.330 0.41(=1-0.59) -0.23
95.141 0.95 1.65
Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor
de la esperanza matemtica de . Por otra parte, esto no implica

que el valor medio de la muestra sea necesariamente . Sin embargo sabemos que
su dispersin con respecto al valor central es pequea, lo que implica que

probablemente el valor medio estar muy prximo a 0, como se puede calcular:
Obsrvese que si el problema fuese el inverso, donde nicamente conocisemos las

observaciones xi y que el mecanismo que gener esos datos hubiese sido una
distribucin normal de parmetros desconocidos, con obtenida hubisemos tenido una
buena aproximacin del ``parmetro desconocido'' .
Unidad 6
ESTIMACIN PUNTUAL Y DE INTERVALOS
6.1 Estimaciones puntuales ms eficientes, insesgados y de

mxima verosimilitud
Sea X una v.a. cuya funcin de probabilidad (o densidad de probabilidad si es continua)
depende de unos parmetros desconocidos.
Representamos mediante una muestra aleatoria simple de la variable.

Denotamos mediante fc a la funcin de densidad conjunta de la muestra, que por estar
formada por observaciones independientes, puede factorizarse del siguiente modo:
Se denomina estimador de un parmetro , a cualquier v.a. que se exprese en
funcin de la muestra aleatoria y que tenga por objetivo aproximar el valor de ,
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que
aunque depende unvocamente de los valores de la muestra observados (Xi=xi), la
eleccin de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida,
se denomina estimacin el valor numrico que toma el estimador sobre esa muestra.
Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es normal,
Para muestras aleatorias de tamao n=3,
un posible estimador del parmetro es
Si al realizar un muestreo aleatorio simple obtenemos
Intuitivamente, las caractersticas que seran deseables para esta nueva variable aleatoria
(que usaremos para estimar el parmetro desconocido) deben ser:
Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al
parmetro desconocido.
El estimador es un estimador consistente de

n si para cualquier nmero positivo ,
Lmn P( | n - | )=1
su forma equivalente
Lmn P( | n - |> )=0
La notacin n se utiliza por el hecho de expresar que el estimador de se calcula

mediante una muestra de tamao n. Por ejemplo, 2 es el promedio de dos
observaciones, mientras que 100 es el promedio de las 100 observaciones contenidas
en una muestra de tamao n = 100.
Insesgado (Carencia de sesgo)

El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el
valor del parmetro.
Se dice que un estimador de un parmetro es insesgado si:
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra cualquiera se obtenga
como estimacin el valor exacto del parmetro. Sin embargo podemos pedirle que su
dispersin con respecto al valor central (varianza) sea tan pequea como sea posible.
Sea es el estimador del parmetro de la poblacin X, la cual tiene funcin de

densidad de probabilidad f(x),
Si V( ) = I ( ), al estimador se le denomina eficiente, donde
I( ) = (1 / n) E [ - ( 2 ln f(x)) / ( 2
)]
Suficiencia
El estimador debera aprovechar toda la informacin existente en la muestra.
A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de esas

caractersticas.
Estimadores de Mxima Verosimilitud
Sea X una v.a. con funcin de probabilidad
Las muestras aleatorias simples de tamao n, tienen por distribucin de

probabilidad conjunta
Esta funcin que depende de n +1 cantidades podemos considerarla de dos maneras:
Fijando , es una funcin de las n cantidades xi. Esto es la funcin de probabilidad o

densidad.
Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un
experimento aleatorio, es nicamente funcin de . A esta funcin de la
denominamos funcin de verosimilitud.
En este punto podemos plantearnos el que dado una muestra sobre la que se ha
observado los valores xi, una posible estimacin del parmetro es aquella que maximiza
la funcin de verosimilitud.
Figura: La funcin de verosimilitud se

obtiene a partir de la funcin de densidad,
intercambiando los papeles entre parmetro
y estimador. En una funcin de
verosimilitud consideramos que las
observaciones x1, ..., xn, estn fijadas, y se
representa la grfica con el valor de los
valores que tomara la funcin de densidad
para todos los posibles valores del
parmetro . El estimador mximo
verosmil del parmetro buscado, , es

aquel que maximiza su funcin de
verosimilitud, .
Como es lo mismo maximizar una funcin que su logaritmo (al ser este una funcin
estrictamente creciente), este mximo puede calcularse derivando con respecto a la
funcin de verosimilitud ( bien su logaritmo) y tomando como estimador mximo
verosmil al que haga la derivada nula:
De modo ms preciso, se define el estimador mximo verosmil como la v.a.
Los estimadores de mxima verosimilitud tienen ciertas propiedades en general que a

continuacin enunciamos:
1. Son consistentes;
2. Son invariantes frente a transformaciones biunvocas, es decir, si es el estimador
mximo verosmil de y es una funcin biunvoca de , entonces es el
estimador mximo verosmil de .
3. Si es un estimador suficiente de , su estimador mximo verosmil, es funcin

de la muestra a travs de ;
4. Son asintticamente normales;

5. Son asintticamente eficientes, es decir, entre todos los estimadores consistentes de
un parmetro , los de mxima verosimilitud son los de varianza mnima.
6. No siempre son insesgados.
Es decir, la tcnica llamada mtodo de mxima posibilidad verosimilitud selecciona

como estimaciones aquellos valores de los parmetros que maximizan la verosimilitud
(funcin de probabilidad conjunta o la funcin de densidad conjunta) de la muestra
observada.
Ejemplo
Sea x1,x2, ... ,xn una muestra aleatoria de observaciones de una distribucin uniforme
con funcin de densidad de probabilidad f(x) = 1/ , 0 x , i = 1, 2, ... , n.
Determine el estimador de mxima verosimilitud de .
En este caso la verosimilitud est dado por
L = f(x1,x2, ... ,xn) = f(x1) f(x2) ... f(xn)

= (1 / )(1 / ) ... (1 / )
= (1 / n)
Ntese que L es una funcin montona decreciente de y por lo tanto dL/ d no se

har igual a cero para ningn valor del intervalo 0 < < . Sin embargo, L crece
cuando decrece y que debe ser igual o mayor que el mximo valor observado en el
conjunto . Por lo tanto el valor de que maximiza L es la mayor observacin en la
muestra. Es decir que
= X(n) = mx (X1, ... , Xn).
Algunos estimadores fundamentales
Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las
aplicaciones resultan fundamentales: estimadores de la esperanza matemtica y varianza
de una distribucin de probabilidad.
Estimador de la esperanza matemtica
Consideremos las muestras de tamao n, , de un carcter sobre una

poblacin que viene expresado a travs de una v.a. Xque posee momentos de primer y
segundo orden, es decir, existen y :
El estimador media muestral que denotaremos normalmente como (en lugar de es
verifica:
Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye como una
v.a. Normal, es sencillo comprobar que coincide con el estimador de mxima
verosimilitud (figura superior):
Proposicin :
Demostracin: La funcin de densidad de una observacin cualquiera de la muestra es:
Por tanto la distribucin conjunta de la muestra es
Para unos valores fijados, la funcin de verosimilitud es
(en principio escribimos tambin el otro parmetro desconocido, , aunque no nos

interesamos en su estimacin por el momento). La expresin de la funcin de
verosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:
El mximo de la funcin de verosimilitud se alcanza donde lo hace su logaritmo
(monotona), por tanto derivando con respecto a e igualando a cero se llega a:

Es decir, el estimador mximo verosmil de la media poblacional, , coincide con la
media muestral
como queramos demostrar:
Figura: El estimador de mxima verosimilitud de

para una variable aleatoria Normal es la media
muestral.
Figura: La distribucin del estimador

muestral del parmetro poblacional ,
tiene por valor esperado al mismo
(insesgado), y su dispersin disminuye a
medida que aumenta el nmero de
observaciones
Estimador de la varianza
A la hora de elegir un estimador de , podemos comenzar con el

estimador ms natural:
Podemos comprobar que cuando el carcter que se estudia sobre la poblacin es

Normal, en realidad este es el estimador mximo verosmil para la varianza. Sin
embargo se comprueba tambin su falta de sesgo, lo que hace mas adecuado que se
utilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral
Proposicin:
Demostracin: Recuperamos el logaritmo de la funcin de verosimilitud escrita en la

relacin anterior, donde en esta ocasin el primer parmetro ya fue obtenido por el
mtodo de mxima verosimilitud (y vimos que era la media muestral) y tratamos de
maximizarla con respecto al segundo parmetro:
Derivando con respecto a e igualando a 0se obtiene el estimador mximo verosmil:
Despejando de esta ecuacin se obtiene que el estimador mximo verosmil coincide

con la varianza muestral,
Proposicin: El valor esperado del estimador
no es , y por tanto el estimador mximo verosmil para la varianza no es insesgado.
Ms an,
Demostracin
Comenzamos escribiendo
Por otro lado
Luego
Cuasivarianza muestral
Para tener un estimador insesgado de la varianza introducimos la cuasivarianza

muestral que se define como
Es inmediato comprobar que realmente este estimador es insesgado
Esa esperanza puede ser calculada de un modo ms directo, ya que la distribucin del
estimador es conocida:
luego
Es consecuencia de las relaciones anteriores que la distribucin de la cuasivarianza
muestral es tal que
Figura: Funcin de densidad del

estadstico que relaciona , y los
grados de libertad de la muestra (n-1). La
falta de simetra del mismo hace que su
valor esperado (n-1) se desplace a la
derecha de la moda (asimetra positiva).
6.2 Intervalos de Confianza para proporciones, medias, varianzas

y cocientes de varianzas.
Intervalo para una proporcin
Sean . Si queremos estimar el parmetro p, la manera ms

natural de hacerlo consiste en definir la suma de estas, lo que nos proporciona una
distribucin Binomial:
y tomar como estimador suyo a la v.a.

Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en las n
pruebas, .
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la normal

cuando el tamao de la muestra n es grande, y p no es una cantidad muy cercana a cero
o uno:
El estimador no es ms que un cambio de escala de X, por tanto
Esta expresin presenta dificultades para el clculo, siendo ms cmodo sustituirla por
la siguiente aproximacin:
Para encontrar el intervalo de confianza al nivel de significacin para p se considera
el intervalo que hace que la distribucin de deje la probabilidad fuera
del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y
. As se puede afirmar con una confianza de que:
Esto se resume en la siguiente expresin:
con una confianza de

Figura: Intervalo de confianza para una
proporcin.
Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello se

realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarn
a favor y 65% que votarn en contra (suponemos que no hay indecisos para simplificar
el problema). Con un nivel de significacin del 5%, calcule un intervalo de confianza
para el verdadero resultado de las elecciones.
Solucin:
Dada una persona cualquiera (i) de la poblacin, el resultado de su voto es una variable
Bernulli:
El parmetro a estimar en un intervalo de confianza con es p, y tenemos

sobre una muestra de tamao n =100, la siguiente estimacin puntual de p:
Sabemos que
En la prctica el error que se comete no es muy grande si tomamos algo ms simple

como
As el intervalo de confianza buscado lo calculamos como se indica:

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de
confianza del 95%.
En la siguiente Figura podemos observar grficamente la interpretacin del clculo

realizado.
Figura: Regin a partir de la cual se realiza

una estimacin confidencial para una
proporcin, con una confianza del 95%.
Intervalo para la media si se conoce la varianza
Este caso que planteamos es ms a nivel terico que prctico: difcilmente vamos a
poder conocer con exactitud mientras que es desconocido. Sin embargo nos
aproxima del modo ms simple a la estimacin confidencial de medias.
Para estimar , el estadstico que mejor nos va a ayudar es , del que conocemos su
ley de distribucin:
Esa ley de distribucin depende de (desconocida). Lo ms conveniente es hacer que la
ley de distribucin no dependa de ningn parmetro desconocido, para ello
estandarizamos:
Este es el modo en que se har siempre la estimacin puntual:
se buscar una relacin en la que intervengan el parmetro desconocido junto con su

estimador y de modo que estos se distribuyan segn una ley de probabilidad que es bien
conocida y a ser posible tabulada.
De este modo, fijado , consideramos la v.a. y tomamos un

intervalo que contenga una masa de probabilidad de . Este intervalo lo queremos
tan pequeo como sea posible. Por ello lo mejor es tomarlo simtrico con respecto a la
media (0), ya que all es donde se acumula ms masa.
Figura: La distribucin y el intervalo ms pequeo posible cuya

probabilidad es . Por simetra, los cuantiles y slo
difieren en el signo.
As las dos colas de la distribucin (zonas ms alejadas de la media) se repartirn a
partes iguales el resto de la masa de probabilidad, .
Vamos a precisar cmo calcular el intervalo de confianza: Regin de aceptacin
Sea el percentil de Z, es decir, aquel valor de que deja por debajo de s
la cantidad de la masa de probabilidad de Z, es decir:
Sea el percentil , es decir,
Es til considerar en este punto la simetra de la distribucin normal, y observar que los
percentiles anteriores son los mismos aunque con el signo cambiado:
El intervalo alrededor del origen que contiene la mayor parte de la masa ( ) es el

intervalo siguiente:
lo que habitualmente escribiremos como:

De este modo podemos afirmar que existe una probabilidad de de que al extraer
una muestra aleatoria de la variable en estudio, ocurra:
De este modo un intervalo de confianza al nivel para la esperanza de una normal

de varianza conocida es el comprendido entre los valores
La forma habitual de escribir este intervalo est inspirada en la Figura de abajo:
Como se dijo anteriormente: , lo que nos permite utilizar esta otra

forma de expresar el intervalo
Figura: Intervalo de confianza para la media.

Intervalo para la media cuando se desconoce la varianza de la poblacin
Como hemos mencionado, los casos anteriores se presentarn poco en la prctica, ya

que lo usual es que sobre una poblacin quizs podamos conocer si se distribuye
normalmente, pero el valor exacto de los parmetros y no son conocidos. De ah
nuestro inters en buscar intervalos de confianza para ellos.
El problema que tenemos en este caso es ms complicado que el anterior, pues no es tan
sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a ayudar de lo
siguiente:
Como se analiz en la Unidad 5. El Teorema del Lmite Central, en el tema 5.5

Distribuciones muestrales basados en la normalidad, se tiene una variable t con v grados
de libertad.
La nica diferencia entre el intervalo de confianza para la media cuando no se conoce la

varianza es que se debe estimar este parmetro por medio de su estimador s.
Ejemplo
Se quiere estimar un intervalo de confianza al nivel de significacin para la

altura media de los individuos de una ciudad. En principio slo sabemos que la
distribucin de las alturas es una v.a. X de distribucin normal. Para ello se toma una
muestra de n=25 personas y se obtiene
Solucin:
En primer lugar, en estadstica inferencial, los estadsticos para medir la dispersin ms

convenientes son los insesgados. Por ello vamos a dejar de lado la desviacin tpica
muestral, para utilizar la cuasidesviacin tpica:
Si queremos estimar un intervalo de confianza para , es conveniente utilizar el

estadstico
y tomar como intervalo de confianza aquella regin en la que
es decir,
o dicho de forma ms precisa: Con un nivel de confianza del podemos decir que la
media poblacional est en el intervalo siguiente:
Figura: Clculo del intervalo de confianza

para la media usando para ello la
distribucin t de Student y la funcin de
verosimilitud asociada, est tiene su
mximo en , ya que esta estimacin
puntual de es la mximo verosmil.
Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente
propiedad de la distribucin :
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
en la zona central de la distribucin:
Figura: Cuantiles de la distribucin .
Entonces un intervalo de confianza al nivel para la varianza de una distribucin

normal (cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe
una probabilidad de que:
Por tanto el intervalo que buscamos es

Ejemplo
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,

obtenindose en una muestra de tamao 25 los siguientes valores:
Calcular un intervalo de confianza con para la varianza de la altura de los

individuos de la ciudad.
Solucin:
Para estimar un intervalo de confianza para (varianza poblacional) el estadstico que

nos resulta til es:
Entonces el intervalo de confianza que buscamos lo obtenemos mediante
Figura: Percentiles del 2,5% y del 97,5%
para la distribucin .
Por tanto, para el valor poblacional de la desviacin tpica tenemos que
con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales
y calculados sobre la muestra.
6.3 Intervalos de Prediccin

A diferencia de lo que ocurre con un intervalo de confianza, el cual tiene que ver con la
estimacin de un valor de la poblacin, un intervalo de prediccin sirve para estimar un
valor individual, y es por lo tanto un intervalo de probabilidad.
Dara la impresin que es posible elaborar un intervalo de prediccin mediante el uso

del error estndar del estimador. No obstante, tal intervalo estara incompleto, porque el
error estndar del estimador no incluye la incertidumbre asociada con el hecho de que
la posicin de que la lnea de regresin basada en datos muestrales incluye errores de
muestreo y por lo general no es idntica a la lnea de regresin de la poblacin.
El error estndar completo para un intervalo de prediccin se llama error estndar de

pronstico, e incluye la incertidumbre asociada con la dispersin vertical alrededor de
la lnea de regresin ms la incertidumbre asociada con la posicin del mismo valor de
la lnea de regresin.
La frmula bsica para el error estndar del pronstico es
S2X1(siguiente) = S2X1 .X2 + S2 .

1 X2
La versin de clculo de la frmula del error estndar del pronstico es
Finalmente, el intervalo de prediccin para un valor individual de la variables

dependiente, con n-2 grados de libertad, es
t SX(siguiente)
Unidad 7
PRUEBA DE HIPTESIS
7.1 Hiptesis estadsticas simples y compuestas

Pueden presentarse en la prctica, situaciones en las que exista una teora preconcebida
relativa a la caracterstica de la poblacin sometida a estudio. Tal sera el caso, por
ejemplo si pensamos que un tratamiento nuevo puede tener un porcentaje de mejora
mayor que otro estndar, o cuando nos planteamos si los nios de las distintas
comunidades espaolas tienen la misma altura.
Este tipo de circunstancias son las que nos llevan al estudio de la parcela de la
Estadstica Inferencial que se recoge bajo el ttulo genrico de Contraste de Hiptesis.
Implica, en cualquier investigacin, la existencia de dos teoras o hiptesis implcitas,
que denominaremos hiptesis nula e hiptesis alternativa, que de alguna manera
reflejarn esa idea a priori que tenemos y que pretendemos contrastar con la ``realidad''.
De la misma manera aparecen, implcitamente, diferentes tipos de errores que podemos

cometer durante el procedimiento. No podemos olvidar que, habitualmente, el estudio y
las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de slo una parte de sta. De la probabilidad con la que
estemos dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la
muestra requerida.
Desarrollamos en este captulo los contrastes de hiptesis para los parmetros ms

usuales que venimos estudiando en los captulos anteriores: medias, varianzas y
proporciones, para una o dos poblaciones. Los contrastes desarrollados en este captulo
se apoyan en que los datos de partida siguen una distribucin normal.
Los contrastes de hiptesis se realizan:

Suponiendo a priori que la ley de distribucin de la poblacin es conocida.
Se extrae una muestra aleatoria de dicha poblacin.
Si la distribucin de la muestra es diferente de la distribucin de probabilidad
que hemos asignado a priori a la poblacin, concluimos que probablemente sea
errnea la suposicin inicial.
Ejemplo
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de
cierto pueblo de Ecuador. Antes de tomar una muestra, lo lgico es hacer la siguiente
suposicin a priori, (hiptesis que se desea contrastar y que denotamos H0 ):
Al obtener una muestra de tamao n =8, podramos encontrarnos ante uno de los
siguientes casos:
a. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}

b. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}
Intuitivamente, en el caso a sera lgico suponer que excepto que la muestra obtenida
sobre los habitantes del pueblo sea muy poco representativa, la hiptesis H0 debe ser
rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hiptesis H0
sea cierta, sin embargo no podramos descartarla y la admitimos por una cuestin de
simplicidad.
Este ejemplo sirve como introduccin de los siguientes conceptos: En un contraste de

hiptesis (tambin denominado prueba de hiptesis o Contraste de significacin) se
decide si cierta hiptesis H0 que denominamos hiptesis nula puede ser rechazada o no
a la vista de los datos suministrados por una muestra de la poblacin. Para realizar el
contraste es necesario establecer previamente una hiptesis alternativa (H1 Ha) que
ser admitida cuando H0 sea rechazada. Normalmente H1es la negacin de H0, aunque
esto no es necesariamente as.
La decisin de rechazar o no la hiptesis nula est al fin y al cabo basado en la eleccin

de una muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Los
errores que se pueden cometer se clasifican como sigue:
Error de tipo I:
Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer

este error es lo que se denomina nivel de significacin. Se denota con la letra
Error de tipo II:
Es el error que consiste en no rechazar H 0 cuando es falsa. La probabilidad de
cometer este error la denotamos con la letra

Elementos de una prueba estadstica:
Hiptesis nula, H0
Hiptesis alterna H1
Estadstico de la prueba
Regin de rechazo
En este tema hemos estudiado dos de los cuatro elementos, para el siguiente tema se
estudiarn los dos restantes.
7.2 Regiones de aceptacin y rechazo de una prueba de hiptesis

Las parte funcionales de una prueba estadstica son el estadstico de prueba y la regin
de rechazo asociada. El estadstico de la prueba (como estimador) es una funcin de las
mediciones muestrales en el cual se fundamenta la decisin estadstica.
La regin de rechazo (RR) especifica los valores del estadstico de la prueba para los
cuales se rechaza la hiptesis nula. Si en una muestra particular el valor calculado del
estadstico de la prueba se lo localiza en la regin de rechazo, se rechaza la hiptesis
nula H0 y se acepta la hiptesis alterna H 1. Si el valor del estadstico de la prueba no cae
en la regin de rechazo RR, aceptamos H0.
El procedimiento general consiste en definir un estadstico T relacionado con la

hiptesis que deseamos contrastar. A ste lo denominamos estadstico de la prueba. A
continuacin suponiendo que H0 es verdadera se calcula un intervalo de denominado
intervalo de aceptacin de la hiptesis nula, de manera que al calcular sobre la

muestra T=Texp el criterio a seguir sea:
El intervalo de aceptacin o ms precisamente, de no rechazo de la hiptesis nula, se

establece fijando una cantidad suficientemente pequea denominada nivel de
significacin, de modo que la probabilidad de que el estadstico del contraste tome un
valor fuera del mismo -- regin crtica--
cuando la hiptesis nula es cierta sea inferior o al ; Esto se ha de entender
como sigue:
Si H0 es correcta el criterio de rechazo slo se equivoca con probabilidad , que es la

probabilidad de que una muestra d un valor del estadstico del contraste extrao
(fuera del intervalo de aceptacin).
Ejemplo
En una encuesta poltica del candidato A se seleccionan n=15 votantes. Se desea probar
H0: p = 0.5 frente a la hiptesis alternativa H 1: p < 0.5. el estadstico de prueba es T, el
nmero de votantes en la muestra a favor del candidato A. Calcular si establecemos
RR = {t 2} como la regin de rechazo.
Solucin
= P(error tipo I) = P( rechazar H0 cuando es verdadera H0)

= P(de que el estadstico de la prueba se localice en RR cuando es verdadera H0)
= P(T 2 cuando p = 0.5)
Considerando que T es una variable Binomial con n=15 y p=0.5, se tiene
= 0.004 (utilizando la tabla de probabilidades para la v.a. binomial)
Por tanto vemos que si se decide utilizar la regin de rechazo RR= {t 2}, se asumen
un riesgo muy pequeo de concluir que el candidato A perder las elecciones si, en
realidad, es ganador.
Observaciones:
1. Ntese que la hiptesis nula H 0 contiene el valor investigado por probar del
parmetro en cuestin.
2. La hiptesis alterna trata de probar que el porcentaje no es como el candidato
piensa sino que es inferior. Esta hiptesis pudo haber sido diferente si quisieran
probar que porcentaje es mayor, esta se transformara en p>0.5. Si solamente se
hubiera querido demostrar que no es cierto este porcentaje la hiptesis alterna
quedara p 0.5.
3. El valor del estadstico siempre es calculado por medio de los valores obtenidos
de la muestra.
4. La regin de rechazo RR se la establece de acuerdo a ciertas condiciones
preestablecidas cono son el nivel de significancia, y del valor obtenido de las
tablas de probabilidades.
7.3 Potencia de una prueba y curvas OC
Potencia de la prueba
Recuerde que la bondad de una prueba se mide por y , las probabilidades de los
errores de tipo I y II, en donde se fija de antemano para determinar la regin de
rechazo. Un concepto relacionado pero ms til para evaluar el funcionamiento de una
prueba se denomina poder ( potencia) de la prueba. Bsicamente el poder de una
prueba es la probabilidad de que la prueba rechace la hiptesis nula.
Supongamos que T es un estadstico de la prueba y RR la regin de rechazo para la

prueba de una hiptesis referente al valor de una parmetro . Entonces, el poder
denotado por k(), es la probabilidad de que la prueba rechace H0 cuando el valor real
del parmetro es . Es decir,
k() = P(de que T est en RR cuando el valor del parmetro es )
Supngase que se desea probar la hiptesis nula H 0: = 0 y que 1 es un valor

particular de es cogido para H1. El poder de la prueba para = 0, k(0), es igual a la
probabilidad de rechazar H0 cuando es verdadera H0. Es decir,
k(0) = , la probabilidad de un error tipo I.
Para cualquier valor de para H1, el poder de una prueba se mide su capacidad para
detectar que la hiptesis nula es falsa. Es decir, para = 1
k(1) = P(rechazar H0 cuando = 1)
Dado que
= P(aceptar H0 cuando = 1)
tenemos que el poder de la prueba para 1 y la probabilidad de un error tipo II se

relaciona como sigue:
k(1) = 1 -
A continuacin ilustraremos dos ejemplos de curvas de poder o potencia
Figura: tpica curva de poder o potencia

para la prueba
H0: = 0 frente a la alternativa H1: 0
Figura: curva de poder ideal para la prueba
Curvas OC
Cuando el nivel de significancia y el tamao de muestra se mantienen constantes, la

probabilidad de error tipo II disminuye a medida que el valor alternativo especfico de la
media se aleja del valor de la hiptesis nula y aumenta a medida que
Una curva caracterstica OC, describe grficamente la probabilidad de aceptar la

hiptesis nula dados diversos valores alternativos de la media de la poblacin.
La siguiente curva OC es aplicable a cualquier prueba de cola inferior de una media

hipottica al nivel de significancia de 5% basada en el uso de la distribucin normal de
probabilidad.
Figura: curva de poder ideal para la prueba

Ntese que es aplicable a cualquier prueba de este tipo, porque los valores del eje
horizontal han sido enunciados en unidades del error estndar de la media. Para
cualesquiera valores a la izquierda de 0, la probabilidad de aceptacin indica la
probabilidad del error tipo II. A la derecha de 0, las probabilidades indican la
aceptacin correcta de la hiptesis nula. Tal como lo indican las lneas punteadas,
cuando = 0, la probabilidad de aceptar la hiptesis nula es 1 - o, en este caso, 1
0.05 = 0.95.
En los siguientes temas desarrollaremos algunos ejemplos de cmo aplicar las curvas
OC y la potencia de la prueba.
7.4 Pruebas de hiptesis relativas a medias, varianzas,

proporciones y cocientes de dos varianzas
en este tema se desarrollar un procedimiento para la prueba basada en el estimador ,

que tiene aproximadamente una distribucin normal con media y varianza 2.
Los estimadores referidos en la unidad anterior como , con muestras grandes

utilizados para estimar una media poblacional y proporcin poblacional p,
respectivamente, satisfacen estos requerimientos.
Junto con ellos, tambin lo hacen los estimadores para la comparacin de dos medias
(1 2) y la comparacin de parmetros binomiales (p1 p2).
Dentro del desarrollo de este tema se puede encontrar un resumen detallado de las
pruebas de hiptesis para la media, la varianza y las proporciones.
Contrastes para la media
Test de dos colas con varianza conocida
Suponemos que donde es conocido y queremos contrastar si es

posible que (desconocida) sea en realidad cierto valor fijado. Esto es un supuesto
terico que nunca se dar en la realidad pero servir para introducir la teora sobre
contrastes.
El test se escribe entonces como:

Como hemos mencionado anteriormente, la tcnica para hacer el contraste consiste en
suponer que H0 es cierta, y averiguar con esta hiptesis quien es la distribucin del
estadstico del contraste que este caso es lgico que deba estar muy relacionado con .
Si al obtener una muestra concreta se tiene que es un valor muy alejado de ,
se debe rechazar H0. Veamos esto con ms detalle:
Para poder acceder a las probabilidades de la normal, hemos normalizado (ya que los
valores para hacer la normalizacin son conocidos). Si H0 es cierta, entonces esperamos
que el valor zexp obtenido sobre la muestra
est cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de
significacin , y tomando como regin crtica , a los valores que son muy
extremados y con probabilidad en total, o sea,
Entonces la regin crtica consiste en
Luego rechazaremos la hiptesis nula si

aceptando en consecuencia la hiptesis alternativa
Figura: La regin de rechazo de la

hiptesis nula es la sombreada. Se rechaza
H0 cuando el estadstico zexp toma un valor
comprendido en la zona sombreada de la
grfica pequea, , o
equivalentemente, cuando el estadstico
toma un valor en la zona roja de la grfica
grande, .
Test de una cola con varianza conocida
Consideremos un contraste de hiptesis donde ahora la hiptesis alternativa es

compuesta:
Bajo la hiptesis nula la distribucin de la media muestral es
y como regin crtica consideraremos aquella formada por los valores extremadamente
bajos de Zexp, con probabilidad , es decir
Entonces la regin de aceptacin, o de modo ms correcto, de no rechazo de la hiptesis
nula es
Figura: Se rechaza la hiptesis nula,

cuando uno de los estadstico Z o toma
un valor en la zona roja de sus grficas
respectivas.
Es evidente que si en el contraste de significacin (primer grfico), hubisemos tomado

como hiptesis alternativa su contraria, es decir
por simetra con respecto al caso anterior, la regin donde no se rechaza la hiptesis
nula es (vase la figura de abajo y contrstese con la anterior):
Figura: Regiones de aceptacin y rechazo

para el test unilateral contrario.
Test de dos colas con varianza desconocida
Sea donde ni ni son conocidos y queremos realizar el contraste

Al no conocer va a ser necesario estimarlo a partir de su estimador insesgado: la
cuasivarianza muestral, . Por ello la distribucin del estimador del contraste ser una
de Student, que ha perdido un grado de libertad, segn el teorema de Cochran (no
evaluado en el curso presente), y la definicin de la distribucin de Student:
Consideramos como regin crtica , a las observaciones de Texp extremas
o sea
Observacin
Para dar una forma homognea a todos los contrastes de hiptesis es costumbre
denominar al valor del estadstico del contraste calculado sobre la muestra como valor
experimental y a los extremos de la regin crtica, como valores tericos. Definiendo
entonces
el resultado del contraste es el siguiente:
Figura: Regin crtica para el contraste bilateral de una

media.
tn-1 t t T
Tests de una cola con varianza desconocido
Si realizamos el contraste
por analoga con el contraste bilateral, definiremos
y el criterio para contrastar al nivel de significacin es:
Figura: Regin crtica para uno de los contrastes

unilaterales de una media.
Para el contraste contrario,
definimos Texp y Tteo como anteriormente y el criterio a aplicar es:
Figura: Regin crtica para el contrastes

unilateral de una media contrario al
anterior.
Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo
normal. Deseamos contrastar con un nivel de significacin de = 0.05 si la altura
media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una
muestra de n=25 personas se obtuvo:
Solucin:
El contraste que se plantea es:

La tcnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el
estadstico
es ``razonable" o no bajo esta hiptesis, para el nivel de significacin dado.

Aceptaremos la hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula)
si no lo es, es decir, si
Para ello procedemos al clculo de Texp:
Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174, no
hay una evidencia suficiente para rechazar esta hiptesis al nivel de confianza del .
Es decir, no se rechaza H0.
Figura: El valor de Texp no est en la regin

crtica (aunque ha quedado muy cerca), por
tanto al no ser la evidencia en contra de H0
suficientemente significativa, sta hiptesis
no se rechaza.
Ejemplo
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la
altura media de la poblacin sea igual a 174 cm, deseamos realizar el contraste sobre si
la altura media es menor de 174 cm.
Solucin:
Ahora el contraste es
Para realizar este contraste, consideramos el caso lmite y observamos si la hiptesis

nula debe ser rechazada o no. Este es:
De nuevo la tcnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que
toma el estadstico
es aceptable bajo esta hiptesis, con un nivel de confianza del . Se aceptar la

hiptesis alternativa (y en consecuencia se rechazar la hiptesis nula) si
Recordamos que el valor de Texp obtenido fue de
Texp=-1'959< t24,0'05= -t24,0'95 = -1'71
Por ello hemos de aceptar la hiptesis alternativa
Figura: El valor te Texp est en la regin

crtica, por tanto existe una evidencia
significativa en contra de H0, y a favor de
H1.
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no
exista una evidencia significativa para decir que cm, el ``simple hecho" de
plantearnos un contraste que parece el mismo pero en versin unilateral nos conduce a
rechazar de modo significativo que y aceptamos que cm. Es por ello
que podemos decir que no slo H0' es rechazada, sino tambin H0. Es en este sentido en
el que los tests con H0 y H0' los consideramos equivalentes:
Contrastes de una proporcin
Supongamos que poseemos una sucesin de observaciones independientes, de modo

que cada una de ellas se comporta como una distribucin de Bernoulli de parmetro p:
La v.a. X, definida como el nmero de xitos obtenidos en una muestra de tamao n es
por definicin una v.a. de distribucin binomial:
La proporcin muestral (estimador del verdadero parmetro p a partir de la muestra) es
Nos interesamos en el contraste de significacin de
frente a otras hiptesis alternativas. Para ello nos basamos en un estadstico (de
contraste) que ya fue considerado anteriormente en la construccin de intervalos de
confianza para proporciones y que sigue una distribucin aproximadamente normal para
tamaos muestrales suficientemente grandes:
Si la hiptesis H0 es cierta se tiene
Contraste bilateral o de dos colas
Para el contraste
extraemos una muestra y observamos el valor . Entonces se define

siendo el criterio de jnilateral o rechazo de la jnilatera nula el que refleja la siguiente
figura:
Figura: Contraste bilateral de una

jnilateral.
Contrastes Unilaterales o de una cola
Consideremos un contraste del tipo
La figura siguiente expresa el criterio de aceptacin o rechazo a seguir:
Figura: Contraste unilateral cuando

Para el test unilateral contrario, se tiene la expresin simtrica:
Luego
Figura: Contraste unilateral cuando se tiene

Contrastes sobre la diferencia de proporciones
Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones,
en la que estudiamos una variable de tipo dicotmico (Bernoulli):
Si X1 y X2 contabilizan en cada caso el nmero de xitos en cada muestra se tiene que

cada una de ellas se distribuye como una variable aleatoria binomial:
de modo que los estimadores de las proporciones en cada poblacin tienen

distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante
grandes)
El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en

cada poblacin es una cantidad conocida
Si H0 fuese cierta se tendra que
Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus

estimadores, lo que da lugar a un error que es pequeo cuando los tamaos muestrales
son importantes:
Contraste bilateral
El contraste bilateral sobre la diferencia de proporciones es
Entonces se define
y se rechaza la hiptesis nula si o si
Contrastes unilaterales
En el contraste
se rechazar H0 si . Para el test contrario
se rechaza H0 si .
Contrastes para la varianza
Consideremos que el carcter que estudiamos sobre la poblacin sea una v.a. normal
cuya media y varianza son desconocidas. Vamos a contrastar la hiptesis
frente a otras hiptesis alternativas que podrn dar lugar a contrastes bilaterales o
unilaterales. La tcnica consiste en observar que el siguiente estadstico experimental
que utiliza el estimador insesgado de la varianza, posee una distribucin , con n-1
grados de libertad:
Entonces construimos las regiones crticas que correspondan a las hiptesis alternativas
que se formulen en cada caso atendiendo a la ley de distribucin .
Contraste bilateral
Cuando el contraste a realizar es
definimos
y el criterio que suministra el contraste es el expresado en la siguiente figura:
Figura: Contraste bilateral de

una varianza.
Para un contraste de significacin al nivel del tipo
se tiene que el resultado del mismo es el que refleja la siguiente figura:
Figura: Contraste unilateral del
tipo .
Para el contraste contrario tenemos la formulacin anloga:
calculamos el extremo inferior de la regin crtica en una tabla de la distribucin
El grfico queda de la siguiente manera:
Figura: Contraste unilateral del tipo
Tabla: Estadsticos asociados a una muestra aleatoria simple,

procedente de una poblacin normal.
X1, X2, ...,
Contrastes de la razn de varianzas
Consideramos dos muestras independientes de dos poblaciones que se distribuyen

normalmente (cuyas medias y varianzas son desconocidas). Vamos a abordar cuestiones
relacionadas con saber si las varianzas de ambas poblaciones son las mismas, o si la
razn (cociente) entre ambas es una cantidad conocida, R. La igualdad entre las dos
varianzas puede escribirse o bien, la existencia de una diferencia entre
ambas ( ), del modo . Este modo de escribir la diferencia entre varianzas

(que era el adecuado para las medias) no es sin embargo fcil de utilizar para las
varianzas, de modo que nos ser ms fcil sacarle partido a las expresiones de las
relaciones entre varianzas como
Por ejemplo, si R =1 tenemos que ambas varianzas son iguales.
Consideramos entonces la hiptesis nula

la cual vamos a contrastar teniendo en cuenta que:
Por tanto el estadstico del contraste que nos conviene tiene una distribucin conocida
cuando H0 es cierta --vase la definicin de la distribucin de Snedecor:
Contraste bilateral
El contraste bilateral para el cociente de varianzas se escribe como:
Habida cuenta que la distribucin de Snedecor no es simtrica sino que slo toma
valores positivos, se rechazar la hiptesis nula cuando el el valor que tome el
estadstico del contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien,
muy grande. Es decir, se define el estadstico experimental y los lmites de la regin
crtica como:
y el criterio de aceptacin o rechazo es:
Una cuestin que conviene observar es que

dada la no simetra de F. A la hora de usar una tabla de la distribucin
podemos tal vez encontrar que no est tabulada para los valores pequeos, pero si
para . Una regla que es de bastante utilidad para estos casos es la siguiente
El primer contraste unilateral que consideramos es:
para el cual se tiene
El tests unilateral opuesto es:
y entonces
Ejemplo
Se desea comparar la actividad motora espontnea de un grupo de 25 ratas control y

otro de 36 ratas desnutridas. Se midi el nmero de veces que pasaban delante de una
clula fotoelctrica durante 24 horas. Los datos obtenidos fueron los siguientes:
Ratas de control n1=25
Ratas desnutridas n2=36
Se observan diferencias significativas entre el grupo control y el grupo desnutrido?
Solucin:
En primer lugar, por tratarse de un problema de inferencia estadstica, nos sern ms

tiles las cuasivarianzas que las varianzas. Por ello calculamos:
El contraste que debemos realizar est basado en el de la de Student para la diferencia

de medias de dos poblaciones. Para ello conocemos dos estadsticos posibles, segn que
las varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales
(homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el
contraste:
Suponiendo H0 cierta, tenemos que el estadstico del contraste conveniente es
ya que as no es necesario calcular el extremo inferior para la regin donde no se

rechaza H0. En este caso:
Como , no podemos concluir (al menos al nivel de significacin )

que H0 deba ser rechazada.
Figura: No hay evidencia significativa
para rechazar la homocedasticidad. El
estadstico del contraste ha sido elegido
de modo que el numerador de Fexp sea
mayor que el denominador, es decir,
Fexp>1.
Por lo tanto no rechazamos la hiptesis de homocedasticidad (que las dos son iguales)
de ambas poblaciones, y pasamos a contrastar la igualdad de las medias
utilizando el estadstico ms sencillo (el que no necesita aproximar los grados de

libertad mediante la frmula de Welch). Para ello calculamos en primer lugar la
cuasivarianza muestral ponderada:
y posteriormente
Como concluimos que se ha de rechazar la hiptesis de igualdad de las

medias, y por tanto aceptamos que las medias son diferentes. Adems, como se aprecia
en la figura siguiente, la evidencia a favor de la hiptesis alternativa es muy alta, y se
puede afirmar que con gran probabilidad la media poblacional de las ratas de control es
mayor que la de las ratas desnutridas.
Figura: Hay una gran evidencia en contra

de la hiptesis de que ambas medias
poblacionales coincidan, y a favor de que la
de la primera poblacin es mayor que la de
la segunda.
7.5 Contrastes para la diferencia de medias apareadas

Las muestras apareadas aparecen como distintas observaciones realizadas sobre los
mismos individuos. Un ejemplo de observaciones apareadas consiste en considerar a un
conjunto de n personas a las que se le aplica un tratamiento mdico y se mide por
ejemplo el nivel de insulina en la sangre antes (X) y despus del mismo (Y)
Paciente xi yi di
1 150 120 30
2 180 130 50
... ... ... ...
n 140 90 50
No es posible considerar a X e Y como variables independientes ya que va a existir una

dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes
han experimentado o no una mejora con el tratamiento, llamemos di a la diferencia
entre las observaciones antes y despus del tratamiento
di = xi-yi
Supongamos que la v.a. que define la diferencia entre el antes y despus del tratamiento
es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son
desconocidas
Si queremos contrastar la hiptesis de que el tratamiento ha producido cierto efecto
en el caso en que H0 fuese cierta tendramos que el estadstico de contraste que nos
conviene es
donde es la media muestral de las diferencias diy es la cuasivarianza muestral de

las mismas. El tipo de contraste sera entonces del mismo tipo que el realizado para la
media con varianza desconocida.
Contraste bilateral
Consideramos el contraste de tipo
Entonces se define
y se rechaza la hiptesis nula cuando .
Si el contraste es
entonces se rechaza H0 si . Para el test contrario
se rechaza H0 si .
Observacin
No supone ninguna dificultad el haber realizado el contraste con conocida, ya que

entonces el estadstico del contraste es
y el tratamiento sera anlogo.
Prueba de signo para un experimento aparejado
Prueba del signo para comparar dos poblaciones en un experimento aparejado (o

de Wilcoxon de rangos con signo)
Hiptesis:
H0: Las distribuciones poblacionales para las X y las Y son idnticas
H1: Las dos distribuciones difieren en ubicacin (dos colas) o bien, H 1: la
distribucin de frecuencias relativas de la poblacin para las X est desfasada
hacia la derecha de la distribucin de las Y (una cola)
Estadstico de la prueba:
1) Para una prueba de dos colas, utilice T = mn(T , T--) en donde T = suma de los
trangos de las diferencias positivas y T-- = suma de los rangos de las diferencias
negativas.
2) Para la prueba de una cola (para detectar la alternativa de una cola dada
anteriormente) utilice la suma de los rangos T-- de las diferencias negativas.
Regin de rechazo:
1) Para la prueba de dos colas, rechace H0 si T T0 en donde T0 es el valor crtico
dado en la tabla de valores crticos de T en la prueba de Wilcoxon.
2) Para la prueba de una cola, rechace H0 si T - T0
Observacin:
Para detectar un desplazamiento de la distribucin de las Y hacia la derecha de la

distribucin de las X, utilice la suma de los rangos T +, la suma de los rangos de las
diferencias positivas y rechace H0 si T+ T0.
Ejemplo
Pruebe la hiptesis nula de que no hay diferencias entre las distribuciones poblacionales
de la densidad de los pasteles para un experimento de diferencias aparejadas. Se utilizan
6 pares de pasteles, uno preparado con la mezcla A y el otro con la mezcla B. Qu se
puede decir del nivel de significancia alcanzado?
Solucin
Los datos originales y las diferencias (en onzas por pulgada cbica) para los seis pares
de pasteles se muestran en la tabla siguiente:
A B Diferencia: A B Rango
0.135 0.129 0.006 3
0.102 0.120 -0.018 5
0.108 0.112 -0.004 1.5
0.141 0.152 -0.011 4
0.131 0.135 -0.004 1.5
0.144 0.163 -0.019 6
Como en el caso de otras pruebas no para mtricas, la hiptesis nula que debe probarse
es que las distribuciones de frecuencias de las dos poblaciones de densidades de los
pasteles son idnticas. La hiptesis alternativa, que implica una prueba de dos colas, es
que las distribuciones difieren en ubicacin.
Realizaremos nuestra prueba utilizando = 0.10, porque la cantidad de datos es

pequea. De la tabla de valores crticos de T en la prueba de Wilcoxon, vemos que el
valor crtico de T para una prueba de dos colas y = 0.10, es T0 = 2. por tanto
rechazaremos H0 si T 2.
Dado que hay solamente una diferencia positiva que tiene el rango 3, T+ = 3y T-- = 18, y
por lo tanto no hay evidencia suficiente para indicar una diferencia ente las
distribuciones de frecuencias de las dos poblaciones de las densidades de las
poblaciones de los pasteles. Ya que no es posible rechazar H0 para = 0.10, solamente
podemos afirmar que el valor p > 0.10.
7.6 Tablas de Contingencia
Un problema comn en el anlisis de datos enumerativo se refiere a la independencia de
dos mtodos de clasificacin de eventos observados. Por ejemplo, podramos clasificar
una muestra de individuos segn el sexo y segn su opinin con respecto a una cuestin
poltica para probar la hiptesis de que las opiniones con respecto a esta cuestin son
independientes del sexo, o podramos clasificar a los pacientes que padecen cierta
enfermedad segn el tipo de medicamento y segn el porcentaje de recuperacin para
ver si el porcentaje de recuperacin depende del tipo de medicamento. El cada uno de
estos ejemplos queremos investigar la dependencia (o contingencia) entre dos criterios
de clasificacin.
Supngase que queremos clasificar los defectos encontrados en los muebles producidos
en cierta planta manufacturera, segn (1) el tipo de defecto y (2) el turno de produccin.
Se registr un nmero total de n = 309 muebles defectuosos y se clasificaron los
defectos como uno de cuatro tipos, A, B, C, o D. Al mismo tiempo se identific cada
mueble segn el turno de produccin en el que se les fabric. Se presentan estos datos
en la siguiente tabla conocida como Tabla de Contingencia:
Turno de Produccin Tipo de defecto Total

A B C D
1 15(22.51) 21(20.99) 45(38.94) 13(11.56) 94
2 26(22.99) 31(21.44) 34(39.77) 5(11.81) 96
3 33(28.50) 17(26.57) 49(49.29) 20(14.63) 119
Total 74 69 128 38 309
Los nmeros ente parntesis son las estimaciones de las frecuencias esperadas de las
celdas. El objetivo es probar la hiptesis nula de que el tipo de defecto es independiente
del turno de produccin, frente a la alternativa de que las dos categoras son
dependientes. Es decir, queremos probar H0: la clasificacin por columnas es
independiente de la clasificacin por renglones.
Sea pA igual a la probabilidad incondicional de que un efecto sea del tipo A. Asimismo,
se definen pB, pC, y pD como las probabilidades de observar los otros tres tipos de
defectos. Entonces estas probabilidades, que llamaremos probabilidades de columna de
la tabla anterior, satisfacen la condicin: pA + pB + pC + pD = 1
De igual manera sea pi (i = 1,2 o 3) igual a la probabilidad de rengln de que un defecto

provenga del turno i, en donde
p1 + p2 + p3 = 1
La hiptesis nula especifica solamente que la probabilidad cada celda ser igual al
producto de sus respectivas probabilidades de rengln y de columna, lo que implica la
independencia de las dos clasificaciones.
Tenemos que estimarlas probabilidades de columna y de rengln para poder estimar las
frecuencias esperadas de las celdas.
Como hemos observado, se pueden utilizar las estimaciones de las frecuencias

esperadas de las celdas en lugar de los E(n i) en la expresin de X 2, y X2 todava tendr
una distribucin que se puede aproximar por una distribucin de probabilidad 2 en un
muestreo repetitivo.
Sea nij la frecuencia observada en el rengln i y la columna j de la tabla de contingencia,

y sea pij la probabilidad de que una observacin caiga en esta celda.
pij es simplemente la frecuencia relativa observada para esta celda, es decir
ij = nij / n, i =1,...,r; j = 1,...,c
Asimismo, al considerar el rengln i como una sola celda, la probabilidad para el

rengln i est dada por pi y por lo tanto
ij = ri / n
donde r denota el nmero de observaciones en el rengln i) es el estimador de mxima

verosimilitud de pi.
Anlogamente la probabilidad para la columna es c j/n, en donde cj denota el nmero de

observaciones en la columna j.
El valor esperado de la frecuencia de celda observada n ij para una tabla de contingencia,

es igual al producto de sus respectivos totales de rengln y de columna, dividido entre la
frecuencia total. Es decir,
( nij ) = rij / n
Finalmente se construye el estadstico de la prueba por medio de las frecuencias

esperadas y observadas
X2 = [nij - (nij)]2 / (nij)
El nico obstculo restante es la determinacin del nmero apropiado de grados de

libertad asociados con el estadstico de la prueba. Para ello se establece una regla que
trataremos de justificar. Los grados de libertad asociados con una tabla de
contingencia que tiene r renglones y c columnas siempre son iguales a (r 1) (c 1).
Para el ejemplo planteado compararemos X2 con el valor crtico de una 2 con (r-1)(c-1)
= (3-1)(4-1) = 6 grados de libertad.
X2 = [nij - (nij)]2 / (nij) = (15 22.51)2/ 22.51 + (26 22.99)2/22.99 + ...

+ (20 - 14.63)2/14.63 = 19.17
Por lo tanto si utilizamos = 0.05, rechazaremos la hiptesis nula de que las dos
clasificaciones son independientes si X2 > 12. 592. Dado que el valor del estadstico de
la prueba, X2 = 19.17, es mayor que el valor crtico de 2, rechazamos la hiptesis nula
a nivel de significancia de = 0.05.El valor p asociado se da por valor p = P(2 >
19.17).
Una tabla de contingencia es un arreglo rectangular en el que se expresan los efectos de
un factor horizontal A y un factor vertical B, sobre los elementos de una misma
poblacin.
A tiene c niveles, B tiene r niveles
Factor A
Factor B Nivel 1 2 ... c
1 X11 X12 ... X1c X1.
2 X21 X22 ... X2c X2.
... ... ... ... ... ...
r Xr1 Xr2 ... Xrc Xr.
X.1 X.2 X.c n
Xij es el nmero de elementos bajo el nivel i de A y la columna j de B
La idea es verificar si el factor A y el B son independientes por medio de un contraste de

hiptesis como se muestra en el ejemplo anterior.
7.7 Ajuste de curva: la prueba no paramtrica KS y la prueba

Ji-cuadrado
El estadstico y su distribucin
Sea X una v.a. cuyo rango son los valores , de modo que pi es la
probabilidad de cada valor;
Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la

distribucin Binomial
pero nosotros vamos a usarla para v.a. ms generales. Supongamos que el resultado de
un experimento aleatorio es una clase c1, c2, ..., ck(ci, ), que puede
representar valores cualitativos, discretos o bien intervalos para variables continuas. Sea
pi la probabilidad de que el resultado del experimento sea la clase ci. Vamos a considerar
contrastes cuyo objetivo es comprobar si ciertos valores pi0, propuestos para las
cantidades pi son correctas o no, en funcin de los resultados experimentales
Mediante muestreo aleatorio simple, se toma una muestra de tamao n y se obtienen a

partir de ella unas frecuencias observadas de cada clase que representamos mediante
, , ...,
Clase Frec. Abs.
ci
c1
c2
... ...
ck
Supongamos que la hiptesis nula es cierta. Al ser pi =pi0 la proporcin de elementos de

la clase ci en la poblacin, el nmero de individuos de que presentan esta modalidad al
tomar una muestra de tamao n, es una v.a. de distribucin binomial, . Por

tanto la frecuencia esperada de individuos de esa clase es
Obsrvese que a diferencia de las cantidades , que son las frecuencias que realmente
se obtienen en una muestra, las frecuencias esperadas no tienen por que ser nmeros
enteros. De cualquier modo, bajo la suposicin de que H0 es cierta cabe esperar que las
diferencias entre las cantidades y sea pequea.
Pearson propuso el estadstico
el cual, siguiendo la lnea de razonamiento anterior debe tomar valores pequeos si H0

es cierta. Si al tomar una muestra, su valor es grande eso pone en evidencia que la
hiptesis inicial es probablemente falsa. Para decidir cuando los valores de son
grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente
resultado
Como slo son los valores grandes de los que nos llevan a rechazar H0, la regin
crtica es , tal como se muestra en la siguiente figura:

Figura: Regin crtica (sombreada) para un
contraste con el estadstico .
es decir,
Observacin
A pesar de que el contraste parece ser bilateral la forma de , nos indica que el
contraste es unilateral: Slo podemos saber si existe desajuste entre los esperado y lo
observado, pero no podemos contrastar hiptesis alternativas del tipo ``pi mayor que
cierto valor''.
Observacin
Obsrvese que en realidad no es una variable aleatoria continua: Los posibles
resultados de la muestra se resumen en las cantidades , , ..., , que nicamente

toman valores discretos. Luego las cantidades
slo puede tomar un nmero finito de valores distintos (aunque sean cantidades con
decimales). Por tanto su distribucin no es continua. Luego al realizar la aproximacin
mencionada hay que precisar en qu condiciones el error cometido es pequeo. De
modo aproximado podemos enunciar el siguiente criterio que recuerda al de la
aproximacin binomial por la distribucin normal:
1. n>30;
2. para todo .
Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la prctica. Se
utiliza entonces una regla ms flexible y que no sacrifica demasiada precisin con
respecto a la anterior:
1. Para ninguna clase ocurre que
2. para casi todos los , salvo a lo sumo un de

ellos.
Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases
que tengan menos elementos con sus adyacentes.
Observacin
El lector puede considerar los contrastes con el estadstico como una generalizacin
del contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.
Ejemplo
Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las
mujeres. Para ello se considera una muestra de n=618 individuos que padecen la
enfermedad, y se observa que 341 son hombres y el resto son mujeres. Qu
conclusiones se obtiene de ello?
Solucin:
El contraste a realizar se puede plantear de dos formas que despus veremos que son
equivalentes:
Contraste de una proporcin: Si p es el porcentaje de hombres en la poblacin de

enfermos, podemos considerar el contraste:
De la muestra obtenemos la siguiente estimacin puntual del porcentaje de enfermos de

sexo masculino:
Para ver si esto es un valor ``coherente'' con la hiptesis nula, calculemos la
significatividad del contraste:
Por otro lado,
Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en

la tabla de la distribucin normal):
Lo que nos indica que se ha de rechazar la hiptesis nula y aceptar la hiptesis

alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la
hiptesis de que la enfermedad no afecta por igual a hombres y mujeres.
Contraste con el estadstico : En este caso planteamos el contraste:
Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de

hombres y mujeres, junto a los valores esperados en el caso de que la hiptesis nula
fuese cierta:
frecuencias frecuencias
observadas esperadas diferencia
Hombres 341 9 322/309
Mujeres 277 -9 (-32)2/309
618 618 0 6,63
Consideremos entonces el estadstico

donde:
k =2 es el nmero de modalidades posibles que toma la variable sexo: hombres y

mujeres;
p =0 es el nmero de parmetros estimados;
h =1 es el nmeros de restricciones impuestas a los valores esperados. Slo hay una
(que es habitual), que consiste en que el nmero esperado de enfermos entre hombres y
mujeres es 60.
El estadstico calculado sobre la muestra ofrece el valor experimental:
que es el percentil 99 de la distribucin . De nuevo se obtiene que la significatividad

del contraste es del 1%<5%.
En conclusin, con los dos mtodos llegamos a que hay una fuerte evidencia en contra
de que hay el mismo porcentaje de hombres y mujeres que padecen la enfermedad. La
ventaja de la ltima forma de plantear el contraste (diferencia entre frecuencias
observadas y esperadas) es que la tcnica se puede aplicar a casos ms generales que
variables dicotmicas, como se ver ms adelante.
Observacin
Hay una frmula alternativa para el clculo de cuya expresin es ms fcil de utilizar
cuando realizamos clculos:
Demostracin
Distribuciones con parmetros desconocidos
Supongamos que la distribucin de X que queremos contrastar no especifica ciertos

valores de r parmetros
Estimmoslos a partir de la muestra, y consideremos las cantidades
Entonces el contraste consiste en
Contraste de una distribucin binomial
Queremos contrastar
Las cantidades pi son desconocidas, aunque tienen una forma en la que slo dependen
del nico parmetro que debe ser estimado a partir de la muestra (r=1): Realizando esta
estimacin
tenemos todas las cantidades pi,
y la distribucin del estadstico es aproximadamente .
Contraste de una distribucin normal
Si queremos contrastar si una v.a. X se distribuye normalmente
podemos realizar el contraste correspondiente mediante la tcnica del estadstico

tomando una muestra, estimando los parmetros mediante y , y agrupando las
observaciones (continuas) en un nmero finito, k, de intervalos. No rechazaremos
entonces la normalidad de X si las probabilidades esperadas de los intervalos no son
muy diferentes de las obtenidas sobre la muestra, es decir,
Intervalo
- e1
e1 - e2
e2 - e3
... ... ... ... ...
Distribuciones de parmetros conocidos
Deseamos contrastar si la v.a. X sigue una ley de distribucin
donde todos los pi estn fijados (hiptesis H0). Entonces por lo mencionado
anteriormente, el contraste consiste en:
En este contraste se comete cierto error de aproximacin y por tanto ser tanto mejor
cuanto mayor sea n.
Ejemplo
Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado segn las
leyes de Mendel, debe estar compuesto del siguiente modo:
Leyes de Mendel
Frecuencias
Fenotipo relativas
AB 9/16
Ab 3/16
aB 3/16
ab 1/16
Elegidos 300 individuos al azar de cierta poblacin se observa la siguiente distribucin

de frecuencias:
Frecuencias
Fenotipo observadas
AB 165
Ab 47
aB 67
ab 21
Total 300
Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha
poblacin?
Solucin:
El contraste a realizar es:
Para ello vamos a representar en una sola tabla las frecuencias observadas, junto con las
que seran de esperar en el caso de que H0 fuese cierta:
Fenotipo
AB 165 161,33
Ab 47 42,27
aB 67 85,91
ab 21 23,52
Total 300 300 313,03
Bajo la hiptesis de que H0 sea cierta, se tiene que:
ya que 4 son los posibles fenotipos, no se ha estimado ningn parmetro (la distribucin
segn las leyes de Mendel es conocida), y sobre las cantidades Ei existe solamente una
restriccin, que es: .

Por otro lado,
que segn la tabla de la distribucin es aproximadamente el percentil 99,5 de la
distribucin . Por tanto la significatividad del contraste es del , lo que

nos conduce a rechazar la hiptesis de que la poblacin de la que la muestra ha sido
extrada sigue las leyes de Mendel.
Al mismo resultado llegamos sin calcular con precisin la significatividad del contraste,
sino considerando que el valor terico mximo que admitimos para el estadstico
experimental con un nivel de significacin del 5% es el percentil 95 de , es decir,
y claramente ocurre que , por lo que se rechaza la hiptesis nula.
Obsrvese tambin que el que se haya rechazado la hiptesis nula significa que hay
diferencia estadsticamente significativa entre las frecuencias observadas y las
esperadas, aunque a primera vista no lo hubisemos percibido en el grfico de la Figura
siguiente:
Figura: Aunque aparentan ser
aproximadamente iguales las frecuencias
observadas y esperadas, existe diferencia
estadsticamente significativa entre ellas.
Unidad 8
REGRESIN LINEAL Y ANLISIS DE VARIANZA
8.1 El modelo de Regresin Lineal es estimado usando el

Mtodo de los Mnimos Cuadrados
un procedimiento para estimar los parmetros de cualquier modelo lineal es el mtodo

de los mnimos cuadrados, que se puede ilustrar sencillamente aplicndolo para ajustar
una lnea recta a travs de un conjunto de puntos que representan los datos. Supngase
que se desea ajustar el modelo
E(Y) = 0 + 1 x
Al conjunto de datos mostrados en la siguiente figura
Figura: Ajuste de una lnea recta a travs

de un conjunto de puntos
(Ntese que la variable independiente x podra ser w2 o bien (w)1/2 o an ln w, y as

sucesivamente, para alguna otra variable independiente w).
Es decir se postula que Y = 0 + 1x + en donde es una v.a. Si 0 y 1 son
estimadores de los parmetros 0 y 1, entonces = 0 + 1x es obviamente un
estimador de E(Y).
El procedimiento de los mnimos cuadrados para ajustar una recta a travs de un

conjunto de n puntos es similar al mtodo de que podramos utilizar para ajustar una
recta a simple vista; es decir, se pretende que las desviaciones sean pequeas en cierto
sentido. Una manera conveniente de lograr esto, es minimizar la suma de los cuadrados
de las desviaciones verticales de la recta ajustada, por lo tanto si
= 0 + 1x
es el valor que se predice del i-simo valor de y (cuando x = xi), entonces la desviacin
del valor observado de y a partir de la recta (llamada a veces el error) es
yi i
y la suma de los cuadrados de las desviaciones que deben minimizar es
SCE = (yi i)2 = [yi ( 0 + 1x)]2
La cantidad SCE se llama suma de los cuadrados de los errores por motivos que sern
obvios en seguida.
Si se tiene un mnimo este ocurrir para los valores de 0 y 1 que satisfagan las
ecuaciones,
SCE / 0 =0 Ecuaciones de
SCE / 1 = 0 Mnimos Cuadrados
Al obtener los valores de las derivadas parciales de SCE con respecto a 0 y

1,respectivamente, y al igualarlas a cero, se obtienen las ecuaciones
SCE / 0 =-2( yi - n 0 - 1 xi) = 0
SCE / 1 = - 2 ( xi yi - 0 xi - 1 xi2) = 0
ntese que las ecuaciones de mnimos cuadrados son lineales en 0 y 1, y por lo tanto
se pueden resolver simultneamente. Puede verificarse que las soluciones son
Adems se puede demostrar que la resolucin simultnea de las dos ecuaciones de los
mnimos cuadrados produce valores de 0 y 1 que minimizan SCE.
Ejemplo
Aplicar el mtodo de los mnimos cuadrados para ajustar una lnea recta a travs de los
n=5 datos contenidos en la siguiente tabla:
x y
-2 0
-1 0
0 1
1 1
2 3
Solucin Empezaremos por construir la tabla para calcular los coeficientes de las
ecuaciones de los mnimos cuadrados. Entonces se tiene:
xi yi xi yi xi2
-2 0 0 4
-1 0 0 1
0 1 0 0
1 1 1 1
2 3 6 4
xi= 0 yi = 5 xi yi = 7 xi2 = 10
De esta obtenemos los estimadores de 0 y 1
y la recta ajustada es
= 1 + 0.7 x y
se muestran los cinco puntos y la recta ajustada en la siguiente figura

Figura: representacin de los puntos y la
recta de los mnimos cuadrados para el
ejemplo.
8.2 La distribucin del error del modelo

Como lo habamos notado en el anterior tema, en el modelo de regresin lineal cuando
este es estimado por medio del mtodo de los mnimos cuadrados, observamos una
diferencia entre el valor observado de y, y el valor obtenido por medio del modelo
construido (el que se predice), es decir
= Error = yi i
Esta diferencia es denominada el error del modelo y se lo denota por .
Estudiemos ahora las propiedades de este error en el muestreo repetitivo.

Primero obsrvese que tanto Y como son variables aleatorias distribuidas
normalmente y que el error es funcin lineal de Y y . Entonces concluimos que el error
tiene una distribucin normal porque es una funcin lineal de variables aleatorias
distribuidas normalmente.
Al aplicar frmulas para encontrar el valor esperado y la varianza de una funcin lineal
de variables aleatorias, obtenemos
E() = E(Y - ) = E(Y) E()
Como E(Y) = E(),
E() = 0.
Tambin,
V() = V(Y - ) = V(Y ) + V() 2 Cov(Y, )
Como se predice un valor futuro, Y, que no se utiliz en el clculo de , sigue que Y y

son independientes y por lo tanto que la covarianza de Y y es igual a cero.
Entonces
V() = V(Y ) + V()
Por lo tanto el error tiene una distribucin de probabilidad normal con media cero y
varianza 2
8.3 Tabla de Anlisis de Varianza e Inferencias relativas al

Modelo
Los mtodos que se presentaron en el tema anterior se pueden adaptar para aplicar el
Anlisis de Varianza. Ilustraremos el mtodo estableciendo un modelo lineal para los
datos que se obtuvieron mediante un diseo completamente aleatorio con k = 2
tratamientos.
Sea Yij la variable aleatoria obtenida en la j-sima observacin del i-simo tratamiento, i
= 1, 2. Definamos una variable ficticia, o indicadora de x de la manera siguiente:
X = 1, si i = 2
0, si no
Obsrvese que x es cero si se toma la observacin de la poblacin 1 y que x es 1 si se

toma la observacin de la poblacin 2. Si utilizamos x como una variable independiente
en un modelo lineal, puede utilizarse el modelo de Yij como
Yij = 0 + 1 x + ij
En donde ij es un error aleatorio con distribucin normal con E(ij) = 0, y V(ij) = . En

este modelo
1 = E(Y1 j) = 0
2 = E(Y2 j) = 0 + 1
Por lo tanto 1 = 1 + 2 y una prueba de la hiptesis 2 - 1 = 0 es equivalente a la

prueba de que 1 = 0. Por intuicin se indica que 0 = 1 y 1 = 2 - 1 son estimadores
adecuados de 0 y 1. Se puede demostrar que realmente estos son los estimadores por
mnimos cuadrados que se obtienen ajustando el modelo lineal formulado antes.
Ejemplo
En la tabla siguiente se dan los valores codificados de la medicin de elasticidad de un

plstico, producido mediante dos procesos diferentes, para muestras
A B
6.1 9.1
7.1 8.2
7.8 8.6
6.9 6.9
7.6 7.5
8.2 7.9
De tamao seis extradas aleatoriamente de cada uno de los dos procesos. Presentan los
datos evidencia suficiente para indicar una diferencia en la elasticidad media de los
procesos?
Solucin Aunque en este ejercicio se podra utilizar la t de Student como el estadstico

de la prueba, aplicaremos la prueba F del anlisis de varianza, ya que es ms general y
se la puede utilizar para comparar ms de dos medias.
Las tres sumas de cuadrados de las desviaciones deseadas son
Puede comprobarse que la SCE es la suma ponderada de los cuadrados de las

desviaciones para las dos muestras. Tambin obsrvese que SC Total = SCT + SCE. Los
cuadrados medios para el tratamiento y el error son, respectivamente
CMT = SCT / 1 = 1.6875
CME = SCE / (2n1 2) = 5.8617 / 10 = 5.8617

Para probar la hiptesis nula 1 = 2, se calcula el estadstico de prueba
F = CMT / CME = 1.6875 / 0.58617 = 2.88
El valor crtico del estadstico F para = 0.05 es 4.96. Aunque el cuadrado medio de
los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es
suficientemente grande para rechazar la hiptesis nula. Por consiguiente, al nivel de
significancia = 0.05 no hay suficiente evidencia estadstica que indique una diferencia
entre 1 y 2. El nivel de significancia obtenido se indica mediante el valor p = P(F >
2.88) que segn la tabla para la v.a. F, es tal que p > 0.10.
Observacin
El propsito de este ejemplo era explicar los clculos implicados en un anlisis de

varianza sencillo. La prueba F para comparar dos medias es equivalente a la prueba t de
student, porque un estadstico F con un grado de libertad en el numerador es igual a t2.
Puede verificarse fcilmente que el cuadrado de t0.025 = 2.228 (que se utilizara como una
prueba de dos colas con = 0.05 y v = 10 grados de libertad) es igual a F0.05 = 4.96. Si
se hubiere utilizado la prueba t para el ejemplo anterior, habramos obtenido t = -1.6967,
que satisface la relacin t2 =(-1.6967)2 = 2.88 = F.
8.4 Coeficientes de Correlacin y Determinacin

Los modelos estudiados en las secciones anteriores son tiles en dos situaciones
prcticas muy diferentes:
Primera: el investigador puede controlar completamente la variable x, podra variar de

un experimento a otro, pero se encuentra prcticamente en un completo control del
investigador. El modelo lineal
Y = 0 + 1 x +
Implica que
E(Y) = 0 + 1 x
Segunda: la variable x puede ser un valor observado de una v.a. X. Si se pudiera

establecer una relacin funcional, entonces se podra predecir a futuro el valor de la v.a.
dependiente. Para esta situacin utilizamos el modelo
Y = 0 + 1 x +
Lo que implica que

E(Y | X = x) = 0 + 1 x
Es decir, suponemos que la esperanza condicional de Y para un valor fijo de X es una

funcin lineal del valor de x. En general, suponemos que el vector variables aleatorio,
(X, Y), tiene distribucin normal bivariable, en tal caso se puede demostrar que
E(Y | X = x) = 0 + 1 x
La teora estadstica para hacer inferencias acerca de los parmetros 0 y 1 es

exactamente la misma para ambos casos, pero deben recordarse siempre las diferencias
en la interpretacin del modelo.
Para el caso (X, Y) el investigador puede estar interesado nicamente en saber si X y Y

son v.a. independientes. Si (X, Y) tiene una distribucin normal bivariable, entonces la
prueba de la independencia equivale a probar que el coeficiente de correlacin es
igual a cero. Recurdese que es positivo si X y Y tienden a aumentar y que es
negativo si Y decrece cuando X crece.
Sea (X1, Y1), (X2, Y2),..., (Xn, Yn) una muestra aleatoria de una poblacin normal
bivariada. El estimador de mxima verosimilitud de est dado por el coeficiente de
correlacin muestral
o bien, una expresin equivalente
Ntese que el numerador de r es exactamente igual al numerador del estimador de 1,

como ambos denominadores de r y 1 son no negativos, se sigue que r y 0 tienen el
mismo signo.
Parecera lgico utilizar r como un estadstico de prueba para probar hiptesis acerca de
, pero se presentan dificultades ya que es difcil obtener la distribucin para r. Se
puede superar este problema en muestras bastantes grandes al utilizar el hecho de que
(1/2) ln[(1 + r) / (1 r)] tiene aproximadamente una distribucin normal con media
(1/2) ln[(1 + ) / (1 )] y varianza 1 / (n 3). Por lo tanto para probar la hiptesis H0:
= 0, podemos utilizar una prueba z en la cual
La forma de la regin de rechazo depende de la hiptesis alternativa, si es la
probabilidad deseada de un error tipo I. Las diferentes alternativas de mayor inters y
las regiones de rechazo correspondientes son
H1: > 0. RR: z > z.

H1: < 0. RR: z < z.
H1: 0. RR: | z | > z/2.
El Coeficiente de Determinacin R2 se define como
Adems el coeficiente de determinacin R2 se lo puede obtener de la siguiente manera
R2 = SC Regresin / SC Total
El R2 cambia con el modelo a diferencia del xy el cual no cambia con el modelo.
Cuando el R2 es el coeficiente de determinacin del modelo y = 0 + 1xi + i; i ~ N(o,

2). Tmese la raz positiva si 1 es positivo y la raz negativa si 1 es negativo.
En cada modelo hay un R2, ya que cambia de acuerdo al modelo.
Ejemplo
Los datos en la siguiente tabla representan una muestra de los resultados de un examen
de aprovechamiento en matemticas y de las calificaciones de clculo para diez
estudiantes seleccionados independientemente, de primer ao. Con esta evidencia, se
concluira que los resultados del examen de aprovechamiento en matemticas y las
calificaciones de clculo son independientes? Utilice = 0.05. obtener el
correspondiente nivel de significacin alcanzado.
Estudiante Resultado de la prueba Calificacin final de

de aprovechamiento clculo
de matemticas
1 39 65
2 43 78
3 21 52
4 64 82
5 57 92
6 47 89
7 28 73
8 75 98
9 34 56
10 52 75
Solucin
Al denotar por x los resultados del examen de aprovechamiento y por y las

calificaciones de clculo, tenemos que
xi = 460 yi = 760
xi2 = 23.637 yi2 = 59.816
xi yi = 36.854
As
proponemos como hiptesis nula que X y Y son independientes, o bien, al suponer que
(X, Y) tiene una distribucin normal bivariable, probamos H0: = 0 frente a H1: 0. El
valor del estadstico de la prueba es
Ya que z/2 = z .025 = 1.96, el valor observado del estadstico de la prueba cae en la
regin de rechazo, por lo tanto, los datos sugieren firmemente que los resultados del
examen de aprovechamiento y las calificaciones de clculo son dependientes. Ntese
que = 0.05 es la probabilidad de que nuestro estadstico de prueba caiga en la regin
de rechazo cuando es verdadera H0. Por lo tanto, se confa bastante en que hemos
tomado una decisin correcta.
Como se aplica una prueba de dos colas, el valor p = 2 P(Z > 3.231). De los valores
obtenidos de la tabla de probabilidades de la normal, sigue que P(Z > 3.231) < P(Z >
3.00) = 0.001. Por lo tanto, el valor p < 2 (0.001) = 0.002 y para cualquier valor de
mayor que 0.002 (lo que incluye = 0.05, como se utiliz al inicio de este anlisis)
concluiremos que 0.
Coeficiente de correlacin
El coeficiente de correlacin lineal de la poblacin, , se relaciona con la covarianza y

se define como
= Cov(X1, X2) / 1 2
donde 1 y 2 son las desviaciones estndar de X1 y X2 respectivamente.
Coeficiente de Determinacin R2 se define como
8.5 Potencia de Explicacin del Modelo

La potencia de explicacin del modelo se la simboliza como R2*100%
Si Y = X b; (b es el vector de los estimadores de los s)
Entonces b = (XT X) 1 XT Y
Se puede probar que

1. SC Total = yT y n 2
2. SC Reg = bT XT y n 2
3. SC Error = yT y bT XT y
yT y = y12 + y22 + ... + yn2
eT e = (y1 1)2 + ... + (yn n)2
Existe la matriz de Varianzas y Covarianzas de los estimadores
= [cov(bi, bj)]; i, j = 1, ..., p-1
(Donde p representa el nmero de parmetros que se deben estimar)
= MC Error (XT X)-1
En la tabla ANOVA se tiene que F = MC Reg / MC Error ~ F (p-1, n-p)

H0: 1 = 2 = ... = p-1 = 0 vs H1: H0
Con (1 ) 100% de confianza rechace Ho a favor de H1 si
F > F (p-1, n-p)
Para determinar cual de los i no es cero, se realizan intervalos de confianza de la

siguiente manera
bk Sbk t /2 k bk + Sbk t /2 (un intervalo de confianza de (1 )100% de confianza

para k)
Para contraste de hiptesis
H0: k = 0 vs H1: H0
Rechazar H0 en favor de H1 si | bk Sbk | > t /2 (n p)
8.6 Modelos Lineales para Regresin Mltiple y Polinmica

Si el modelo de regresin lineal expresa a E(Y) como una funcin lineal de y
solamente entonces el modelo se denomina modelo de regresin lineal simple. Si hay
ms de una variable independiente de inters, digamos x1, x2,..., xk, y si el modelo es de
E(Y) es
E(Y) = 0 + 1 x1 +...+ k xk
El modelo se conoce como modelo lineal de regresin mltiple. Ya que se consideran

como constantes conocidas, supuestamente son medidas sin error en un experimento.
Por ejemplo, si se considera que la produccin y es una funcin de la v.a. T, la
temperatura de un proceso qumico, podra suponerse x1 = T y x2 = eT y como modelo
E(Y) = 0 + 1 T +...+ k eT.
O bien, si y es una funcin de dos variables x1 y x2, pudiese elegirse una aproximacin
mediante un plano a la respuesta media real, aplicando el modelo lineal E(Y) = 0 + 1
x1 + 2 x2. Por lo tanto, E(Y) es una funcin lineal de 0, 1 y 2 que representa un plano
en el espacio y, x1, x2. De manera similar,
E(Y) = 0 + 1 x + 2 x2
Es un modelo estadstico lineal, en donde E(Y) es una funcin polinomial de segundo

grado de la variable independiente x, con x1 = x y x2 = x2. Este modelo sera apropiado
para una respuesta que traza el segmento de una parbola en la regin de
experimentacin.
El modelo estadstico lineal que relaciona una respuesta aleatoria Y con un conjunto de
variables independientes x1, x2,..., xk tiene la forma
Y = 0 + 1 x1 +...+ k xk +
En donde 0, 1,..., k son parmetros desconocidos, es una v.a. y x1, x2,..., xk son
constantes conocidas. Supondremos que E() = 0 y por lo tanto que
E(Y) = 0 + 1 x1 +...+ k xk
Obsrvese la interpretacin fsica del modelo lineal Y. Decimos que Y es igual a un

valor esperado, 0 + 1 x1 +...+ k xk (una funcin de las variables independientes x1,
x2,..., xk), ms un error aleatorio . Desde un punto de vista prctico, , traduce nuestra
incapacidad de tener un modelo exacto de la realidad. En una experimentacin repetida
Y flucta alrededor de E(Y) en una manera aleatoria porque no hemos podido incluir en
nuestro modelo toda la gran cantidad de variables que afectan a Y. Afortunadamente, el
efecto neto de estas variables indeterminadas, y que la mayora de las veces son
desconocidas, hacen que Y vare de manera que puede calcularse adecuadamente
mediante la suposicin de un comportamiento aleatorio.
8.7 Anlisis de Varianza

El procedimiento del Anlisis de Varianza trata de analizar la variacin de una
respuesta y de asignar porciones (componentes) de esta variacin a cada una de las
variables de un conjunto de variables independientes desconocidas.
El objetivo del anlisis de varianza es identificar variables independientes importantes

en un estudio y determinar como interactan y afectan a la respuesta.
Se recordar que la variabilidad de un conjunto de n mediciones es proporcional a la
suma de los cuadrados de las desviaciones (yi i)2, y que esta cantidad se utiliza
para calcular la varianza de la muestra. El anlisis de varianza divide la suma de los
cuadrados de las desviaciones llamadas suma total de los cuadrados de las
desviaciones, en partes, cada una de las cuales se atribuye a una de las variables
independientes en el experimento, ms un residuo que se asocia con el error aleatorio.
Si se utiliza un modelo lineal multivariado para la respuesta como el sugerido en el tema

anterior, la porcin de la suma total de los cuadrados de las desviaciones asignadas al
error se designara como SCE.
Se puede detectar cuando una variable est muy relacionada con la respuesta,
comparndola estimacin de 2 de una variable independiente particular, con la
estimacin obtenida a partir de SCE aplicando una prueba F. Si la estimacin para la
variable independiente es significativamente mayor, la prueba F rechazar la hiptesis
de que la variable independiente no tiene efecto y generar evidencia que indique una
relacin con la respuesta.
Tabla de anlisis de varianza para un diseo completamente aleatorizado
La siguiente es la tabla de anlisis de varianza
Fuente g.l. SC CM F
Tratamientos k1 SCT CMT CMT / CME
Error nk SCE CME
Total n-1 SC Total
g.l. representan los grados de libertad;

k es el nmero de tratamientos;
n es el nmero de observaciones;
SCT es la suma cuadrtica del tratamiento y est dada por
SCE es la suma cuadrtica del error, la cual est dada por
SC Total es la suma cuadrtica del total, est dada por
CMT es la divisin entre la SC Tratamiento para sus grados de libertad (SCT / k-1);
CME es la divisin de la SCE para sus grados de libertad (SCE / n-k);
Por ltimo se obtiene el estadstico F que es la divisin entre CMT y CME, los grados
de libertad son en el numerador los g.l. de la SCT y en el denominador los g.l. de la
SCE.
Ejemplo
En la tabla siguiente se dan los valores codificados de la medicin de elasticidad de un

plstico, producido mediante dos procesos diferentes,
A B
6.1 9.1
7.1 8.2
7.8 8.6
6.9 6.9
7.6 7.5
8.2 7.9
para muestras de tamao seis extradas aleatoriamente de cada uno de los dos procesos.
Presentan los datos evidencia suficiente para indicar una diferencia en la elasticidad
media de los procesos?
Solucin
Aunque en este ejercicio se podra utilizar la t de Student como el estadstico de la
prueba, aplicaremos la prueba F del anlisis de varianza, ya que es ms general y se la
puede utilizar para comparar ms de dos medias.
Las tres sumas de cuadrados de las desviaciones deseadas son
Puede comprobarse que la SCE es la suma ponderada de los cuadrados de las

desviaciones para las dos muestras. Tambin obsrvese que SC Total = SCT + SCE. Los
cuadrados medios para el tratamiento y el error son, respectivamente
CMT = SCT / 1 = 1.6875
CME = SCE / (2n1 2) = 5.8617 / 10 = .58617
Para probar la hiptesis nula 1 = 2, se calcula el estadstico de prueba
F = CMT / CME = 1.6875 / 0.58617 = 2.88
El valor crtico del estadstico F para = 0.05 es 4.96. Aunque el cuadrado medio de
los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es
suficientemente grande para rechazar la hiptesis nula. Por consiguiente, al nivel de
significancia = 0.05 no hay suficiente evidencia estadstica que indique una diferencia
entre 1 y 2. El nivel de significancia obtenido se indica mediante el valor p = P(F >
2.88) que segn la tabla para la v.a. F, es tal que p > 0.10.
Observacin
El propsito de este ejemplo era explicar los clculos implicados en un anlisis de

varianza sencillo. La prueba F para comparar dos medias es equivalente a la prueba t de
student, porque un estadstico F con un grado de libertad en el numerador es igual a t2.
Puede verificarse fcilmente que el cuadrado de t0.025 = 2.228 (que se utilizara como una
prueba de dos colas con = 0.05 y v = 10 grados de libertad) es igual a F0.05 = 4.96. Si
se hubiere utilizado la prueba t para el ejemplo anterior, habramos obtenido t = -1.6967,
que satisface la relacin t2 =(-1.6967)2 = 2.88 = F.
8.7.1 Modelos que involucran variables cuantitativas
Los modelos que involucran variables cuntitativas son los que se han estado analizando
a lo largo de la unidad, es decir, estos modelos no se pueden analizar cuando se tiene el
tipo de variable cualitativa, para el cual existe otro tipo de investigacin, el cual no es
objeto de estudio en este curso.
Todos los ejemplos que se encuentran en la presente unidad pertenecen a estos tipos de
modelos.
8.7.2 Modelos para un diseo Experimental de dos factores
Los modelos para un diseo bifactorial o de dos factores es el mismo que se estudi en
la unidad 7 tema 6, y en la unidad 8 tema 4. En ambos casos se presentan ejemplos
ilustrativos que ayudarn a entender mejor la aplicacin de estos modelos.
8.7.3 Principios de Confiabilidad
Si Y denota la duracin de un componente y F(y) es la funcin de distribucin de Y,

entonces a P(Y > y) = 1 F(y) se le denomina la Confiabilidad del componente.
Ejemplo
Supongamos que un sistema consta de cuatro componentes con funciones de

confiabilidad idnticas, 1 F(y), que funcionan como se indica en el siguiente diagrama
Figura: Diagrama de
componentes
El sistema funciona cuando opera una cadena intacta de componentes entre A y B. Si los
cuatro componentes funcionan independientemente, encuentre la confiabilidad del
sistema, en trminos de F(y).
Solucin
Observando el diagrama podemos ver que para que el sistema funcione deben trabajar a
la vez C1 y C2 y C3 C1 y C2 y C4 dado que no funciona C3, lo que equivale a:
Cs = P(funcione C1 ) * P(funcione C2 ) * P(funcione C3) + [P(funcione C1 ) *

P(funcione C2 ) * P(funcione C4)] * [P(no funcione C3)]
Cs = (1 F(y)) * (1 F(y)) * (1 F(y)) + [(1 F(y)) * (1 F(y)) * (1 F(y))] * [1 -
(1 F(y))]
= [(1 F(y))]3 + [(1 F(y))]3 * [1 1 + F(y)]
= [1 F(y)]3 + (1 F(y))3 F(y)
= [1 F(y)]3 [1 + F(y)]
Unidad 9
CONTROL ESTADSTICO DE PROCESOS
9.1 Diseos Experimentales para el Mejoramiento en la

Calidad de un Producto
Para iniciar este tema diremos que calidad, es la aptitud que tiene un producto (bien o
servicio) para satisfacer las necesidades para lo que fue creado.
Los objetos sobre los cuales se hacen las mediciones se denominan unidades
experimentales.
Las variables experimentales independientes se denominan factores.
Un factor cuantitativo es un factor que puede tomar valores correspondientes a los

puntos de una recta real. Los factores que no son cuantitativos se denominan
cualitativos.
Al grado de intensidad de un factor se le llama nivel.
Un tratamiento es una combinacin especfica de un factor o de factores.
Pasos para aplicar un diseo de experimentos
1. Se seleccionan los factores que deben incluirse en el experimento y se especifica

el (los) parmetro (s) poblacional (es) de inters.
2. Se decide cuanta informacin conviene utilizar acerca de el (los) parmetro (s)
de inters. (Por ejemplo, con que exactitud se desea estimar los parmetros?)
3. Se seleccionan los tratamientos [combinacin de niveles de factor(es) que deben
utilizarse en el experimento y se decide el nmero de unidades experimentales
que deben asignarse a cada uno.
4. Se decide como deben aplicarse los tratamientos a las unidades experimentales.
Un diseo aleatorizado de bloques que contiene b bloques y p tratamientos, consiste en
b bloques de p unidades experimentales cada uno. Se asignan aleatoriamente los
tratamientos a las unidades en cada bloque, y cada tratamiento aparece exactamente una
sola vez en cada bloque.
En la unidad 8 tema 3 encontramos un ejemplo que demuestra la aplicacin del tema.
9.2 Cartas de Control de Calidad

Iniciaremos el tema sealando que calidad es el conjunto de caractersticas y
aditamentos que le da a un bien (producto o servicio) la capacidad cumplir con los fines
para lo que fue creado.
El control estadstico de procesos se refiere a la aplicacin de los mtodos del control

estadstico de calidad a la vigilancia de procesos.
Especificacin es la determinacin de los parmetros sobre los cuales se manejar el

proceso. Estos pueden determinarse desde el diseo mismo del producto o mediante la
observacin de resultados muestrales a lo largo de un periodo durante el cual se
considera al proceso que est bajo control (condiciones estables).
Existen dos tipos de causas de variacin en un proceso. Las causas comunes de

variacin se deben a factores inherentes al diseo del sistema, y reflejan el monto
usual de variacin por esperar. Las causas especiales o atribuibles de variacin se
deben a factores inusuales que no forman parte ni del diseo del proceso ni del
proceso mismo.
Un proceso estable es aquel donde solo causas comunes de variacin afectan a la

calidad de la produccin. Cuando un proceso no es estable, la mejora puede alcanzarse
identificando y corrigiendo las causas especiales.
Los lmites de control son los valores mximo y mnimo que se considera son los
lmites dentro de los cuales el proceso se encuentra estable.
Una grfica de Control es un diagrama de series de tiempo que incluye los lmites de
control inferior y superior que identifican el rango de variacin susceptible de
adjudicarse a causas comunes.
Figura: Zonas para una

grfica de carta de control
LC (lnea central) equivale al valor medio de los datos obtenidos
LCS (lmite de control superior) es el valor obtenido de + 3
LCI (lmite de control inferior) es el valor obtenido de - 3
Recordemos que:
P ( - 3 x + 3 ) = 0.99
P ( - 2 x + 2 ) = 0.95
P ( + x + ) = 0.68
Al realizar el contraste de hiptesis en el proceso, aparecen las siguientes hiptesis:

hiptesis nula, es que el proceso est estable y que solamente existen causas comunes de
variacin. La hiptesis alterna, es que el proceso incluye variaciones por causas
especiales. El resultado del control estadstico de procesos se presenta en la siguiente
tabla
Condicin del Proceso

H0 cierta: Estable H0 falsa: Inestable
Continuacin del proceso Decisin correcta Error tipo II:
Decisin Permitir la
continuacin de un
proceso inestable.
Ajuste del proceso Error tipo I: Ajuste Decisin correcta
de un proceso
estable
Cuando el proceso est fuera de control?

Existen ocho pruebas para detectar la variacin por causas especiales.
Prueba 1: un punto Prueba 2: Nueve Prueba 3: Seis Prueba 4: Catorce

fuera de la zona A puntos seguidos al puntos seguidos puntos seguidos en
mismo lado de la crecientes o alternancia arriba y
lnea central decrecientes abajo
Prueba 5: Dos de Prueba 6: Cuatro de Prueba 7: Quince Prueba 8: Ocho
tres puntos en la cinco puntos puntos seguidos en puntos seguidos ms
zona A o ms all (a seguidos en la zona la zona C (a ambos all de las zonas C
uno de los lados de B o ms all (a uno lados de la lnea (a ambos lados de la
la lnea central) de los lados ...) central) lnea central)
En la siguiente tabla se muestra un resumen las frmulas para las cartas de control ms
usuales
Carta Distribucin Lnea central Lnea superior Lnea inferior

supuesta
Normal + A2 - A2
R Normal D4 D3
p Binomial
+3 -3
c Poisson +3 -3
Como podemos ver existen cartas de control para la media , para el rango R, la
proporcin p, y para la cantidad c.
es el promedio de las medias obtenidas de los valores observados
A2, D3 y D4 son valore obtenidos de la tabla de factores para grficas de control para
ajustar los valores obtenidos en la formacin de los lmites de control.
Ejemplo
En la tabla siguiente se presentan los pesos, en onzas, de una secuencia de 15 muestras

de subgrupos racionales de papas fritas, con n = 4 para cada muestra. Se reportan
asimismo las medias, desviaciones estndar y rangos muestrales. Supongamos las
especificaciones de empaque establecen un peso medio por paquete de = 15.0 oz. y
una desviacin estndar de = 0.1 oz. Con base en estos valores paramtricos,
determine
a) Muestr la lnea
a No. Pesos de paquetes (oz) s R central y
1 15,01 14,98 15,16 14,8 14,99 0,148 0,36 los
2 15,09 15,14 15,08 15,03 15,09 0,045 0,11 lmites
3 15,04 15,1 14,93 15,13 15,05 0,088 0,20 de
4 14,9 15,03 14,94 14,92 14,95 0,057 0,13
control
5 15,04 15,05 15,08 14,98 15,04 0,042 0,10
6 14,96 14,081 14,96 14,91 14,73 0,432 0,88 inferior
y 7 15,01 15,1 14,9 15,03 15,01 0,083 0,20 superior
8 14,71 14,92 14,77 14,95 14,84 0,116 0,24 de la
9 14,81 14,8 14,64 14,95 14,80 0,127 0,31 grfica
10 15,03 14,89 14,99 15,03 14,99 0,066 0,14
.
11 15,16 14,91 14,95 14,83 14,96 0,141 0,33
b) Elabore
12 14,92 15,05 15,01 15,02 15,00 0,056 0,13
13 15,06 15,03 14,95 15,02 15,02 0,047 0,11 la
14 14,99 15,14 15,04 15,11 15,07 0,068 0,15 grfica
15 14,94 15,08 14,9 15,17 15,02 0,125 0,27 de la
carta de control para
c) Se sale de control el proceso?. Si as fuese, Que prueba incumple?
d) Suponga que no se tienen las especificaciones, cuales seran las lmites superior,
inferior y la lnea central?
Solucin
a.- dado que tenemos las especificaciones del producto entonces obtenemos los lmites
de control por medio de ellos
lnea central = = 15.0 oz.

Lmite superior = + 3 /n = 15.0 + 3 * 0.1 / 4 =15.15 oz.
Lmite inferior = - 3 /n = 15.0 - 3 * 0.1 / 4 =14.85 oz.
b.-
Figura: carta de control para
la media
c.- como podemos observar en el grfico, el procesos se sale de control en las muestras
# 8 y # 9.
1. Los puntos 8 y 9 rebasan los lmites de control (prueba 1)

2. Dos de tres puntos caen en la zona A o ms all (prueba 5)
d.- Si no tuvisemos las especificaciones se debern calcular los valores utilizando las
frmulas de la tabla para cartas de control ms comunes.
Lnea central = = / k= 224.72 / 15 = 14.98

= s/k = 1.28 / 15 = 0.08551
Lmite Superior = + 3 ( / C4 n) = 14.98 + 0.14= 15.12.

Lmite Inferior = - 3 ( / C4 n) = 14.98 - 0.14 =
14.84
9.3 Muestreo de Aceptacin

En este tema analizaremos el muestreo de aceptacin el cual nos dar un apoyo al
momento de tomar una decisin sobre la aceptacin o rechazo de un lote enviado por el
proveedor, dentro de este estudio el tem que se inspecciona se calificar como
conforme o no conforme.
Dentro de las ventajas del muestreo de aceptacin tenemos las siguientes:

1. Si la inspeccin es destructiva, no es factible revisar el 100% de los tem.
2. El muestreo es ms econmico (en tiempo y dinero), adems evita el dao por
manipulacin.
3. El muestreo reduce los errores de inspeccin por fatiga del inspector.
4. El muestreo obliga al proveedor a mejorar su produccin ya que el lote entero
puede ser rechazado.
las desventajas del muestreo de aceptacin tenemos las siguientes:

1. Existe el riesgo de aceptar un lote malo o rechazar un lote bueno (riesgo del
Productor).
2. Se obtiene menos informacin del producto que al analizar todo el lote.
3. La seleccin y adopcin de un plan de muestreo requiere mas tiempo y esfuerzo
en planificar y documentar.
En el muestreo de aceptacin existen dos riesgos:

El riesgo del productor, es el error cometido al rechazar un lote bueno
El riesgo del consumidor, es el error cometido al aceptar un lote malo
El nivel aceptable de calidad (AQL) est asociado con el riesgo del productor e indica
el porcentaje mnimo de tem no conformes que puede haber en un lote para que este
pueda ser considerado como bueno.
El nivel lmite de calidad (LQL) esta es la definicin numrica de un lote pobre,

asociado con el riesgo del consumidor.
La Figura: Efecto del tamao de muestra en la curva OC, (a) si se modifica el

tamao de muestra, (b) modifica el nmero de aceptacin
curva caracterstica de operacin (OC) estudiada en la unidad de contraste de

hiptesis vuelve a ser objeto de estudio, la construimos obteniendo la probabilidad de
aceptar un lote dado una proporcin de no conformidades. Para este objeto utilizaremos
la v.a. Hipergeomtrica, cuando se desea analizar lotes de mayor tamao se utiliza la v.a.
Poisson
Tipos de planes de muestreo de aceptacin
Plan simple de muestreo: la informacin obtenida de una muestra es usada para tomar
una decisin para aceptar o rechazar el lote. Los parmetros son n tamao de muestra y
c nmero de aceptacin.
Se selecciona una muestra de tamao n y el nmero de tem defectuosos o no conformes
se compara con c. Si el nmero de defectuosos es menor o igual a c entonces el lote es
aceptado, en caso contrario el lote es rechazado.
Plan doble de muestre: en este plan se requieren de los siguientes parmetros:

Tamao de la primera muestra (n1)
Nmero de aceptacin para la primera muestra (c1)
Nmero de rechazo para la primera muestra (r1)
Tamao de la primera muestra (n2)
Nmero de aceptacin para la primera muestra (c2)
Nmero de rechazo para la primera muestra(r2)
Se selecciona una muestra de tamao n1 y se detectan el nmero de defectuosos en el

lote, si denotamos el nmero de defectuosos por d1, entonces decidimos:
Si d1 c1 => acepta el lote
Si d1 > r1 => rechace el lote
Si r1 < d1 < c1 => tome una nueva muestra
Al momento de tomar la nueva muestra se determinan n2, c2, r2 con una condicionante
que r2 = c2 + 1, y la prueba queda de la siguiente manera:
Si d1 + d2 c2 => acepta el lote
Si d1 + d2 > r2 => rechace el lote
Cuando d2 es el nmero de defectuosos en el segundo grupo muestreado.
Por ejemplo si se tiene una poblacin de tamao N = 5000, se realiza un plan de

muestreo doble con los siguientes parmetros:
n1 = 40 n2 = 60
c1 = 1 c2 = 5
r1 = 4 r2 = 6
Plan mltiple de muestreo: en este tipo de plan de muestreo se procede de la misma

manera que en el doble, incrementndose el nmero de parmetros de acuerdo a las
etapas que se deseen realizar.

7.3 Apéndice 5 El Curso de Estadística

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

7.3 Apéndice 5 El Curso de Estadística

Încărcat de

Drepturi de autor:

Formate disponibile

Unidad 5

EL TEOREMA DEL LMITE CENTRAL

5.1 Estadgrafos como estimadores de parmetros

este comportamiento sobre . Ntese que la v.a. es una

Por lo tanto la v.a. representa un estadgrafo estadstico.

Una definicin ms formal sera: Un estadstico (estadgrafo) es una funcin de las

Por lo anteriormente expuesto, deduciremos su distribucin de probabilidad, la cual la

Debe quedar claro que la forma de distribucin muestral terica de un estadstico

5.2 Muestreo Aleatorio Simple

Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en este

El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

Muestreo aleatorio sin reposicin

particular, , en un muestreo aleatorio sin reposicin se da la siguiente

La probabilidad de que e sea elegido en primer lugar es ;

probabilidad de que sea elegido en el segundo intento es de . en el (i+1)-simo

previamente, la probabilidad de que lo sea en este momento es de .

Si consideramos una muestra de elementos, donde el orden en la eleccin de los

lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un caso

Muestreo aleatorio con reposicin

Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de la

sea nk el nmero de veces que se repite cierto elemento ek,

El Muestreo Aleatorio Simple es aquel en que cada uno de los elementos de la

Adems todos las observaciones de la v.a. son independientes, es decir

5.3 El teorema del Lmite Central

Matemticamente lo podemos definir de la siguiente manera:

entonces la funcin de distribucin Un converge a una funcin de distribucin normal

Si Xi denota el tiempo de espera para el i-simo cliente, entonces se desea calcular

P( Xi 120 ) =P( 120/100)

As la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas es

Resumiendo, el Teorema del Lmite Central establece que cuando el tamao de la

Para efectos prcticos, puede suponerse que la distribucin de muestreo de la media

Figura: En la figura aparece la curva de

P( < 250.0 | = 260.0 , = 7.50 ) = P( z < -1.33 )

5.4 Ley de los grandes nmeros

Recordemos que la desigualdad de Tchebysheff

Si tomamos como la v.a.

Si se cumple esta igualdad, decimos que converge con probabilidad a .

Al hecho de que sea consistente con , o que converja en probabilidad a , suele

Mecangrafa No. de Errores

Cuando se dispone de la informacin de una poblacin se puede calcular la media de

x = 1.12 errores ( aplicando la frmula anterior)

Si se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles

A continuacin se presentan las posibles muestras

1. Total 16 muestras de n =2 y N =4, muestreo con reposicin

Muestra Mecangraf Resultados de Media

Muestra Mecangraf Resultados de Media

En este pequeo ejemplo, aunque se puede observar gran fluctuacin en la media

5.5 Distribuciones muestrales basados en normalidad

establece la distribucin muestral del estadstico

Sea una muestra aleatoria de tamao n de una distribucin normal con

Tiene una distribucin normal con media y varianza / n, es decir

Figura: Funcin de densidad de una v.a.

ya que ( - ) / ( / n ) representa una distribucin normal estndar. Aplicando los

Sean una muestra aleatoria de tamao n de una distribucin normal

Bajo las condiciones anteriormente expuestas, para cuestiones ms prcticas se suele

Ya que = 1, en consecuencia (n 1) S2 / = (n 1) S2 tiene una distribucin

b1 = 3.325 / 9= 0.369 y b2 = 16.919 / 9 = 1.880

La distribucin -Student se construye como un cociente entre una normal y la raz de

una independientes. De modo preciso, llamamos distribucin t-Student con n grados

donde , . Este tipo de distribuciones aparece cuando tenemos n+1

y nos interesa la distribucin de

La distribucin de Student tiene propiedades parecidas a :