Sunteți pe pagina 1din 22

ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS

USO DEL PAQUETE R-R COMMANDER


POBLACIONES NORMALES.

Para realizar pruebas de hiptesis acerca de la media o de la diferencia entre medias cuando los
tamaos de las muestras son pequeos, es necesario el supuesto de normalidad en las muestras.
Supongamos que es una muestra aleatoria de una poblacin normal con media y
varianza , y que es otra muestra aleatoria de otra poblacin normal con media y
varianza , ambas muestras independientes entre s.

De la teora de distribuciones muestrales sabemos que si es conocida entonces

Si es desconocida, entonces .

Si es un valor particular para , Tres hiptesis puedes ser planteadas respecto a



Si es conocida entonces el estadstico de prueba y la Regin Crtica para un valor dado de
son:
y R.C.=

Si es desconocida entonces el estadstico de prueba y la Regin Crtica para un valor dado de
son:

y R.C.= , donde

Ejemplo 1: Se tom una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registr: Valor de la matrcula (VMATRI), Estrato Socioeconmico (ESTRATO), Nmero de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos
se muestra a continuacin. Observe que en este caso no se sabe nada acerca de la distribucin de
las variables. Suponga que se desea probar si el valor de la matrcula promedio real de los
estudiantes en dicha comunidad es superior a los 640.000 pesos con base en esta muestra
aleatoria, con un nivel de significancia de .

Las hiptesis a probar son .

Para decidir que estadstico de prueba utilizar se debe realizar una prueba de Normalidad de las
observaciones de la variable, la prueba ms utilizada es la prueba de Shapiro Wilk.




: el valor de la matricula se distribuye normalmente

: el valor de la matricula no se distribuye normalmente

Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:






Despus de seleccionar el test de Shapiro Wilk aparece la siguiente ventana:




Seleccionamos la variable VMATRI y le damos aceptar y se obtiene un valor P de 0.4841, como se
muestra a continuacin con este valor P se decide aceptar la hiptesis nula de normalidad




Como los datos se distribuyen normalmente y la varianza poblacional es desconocida entonces el
estadstico de prueba es:




El procedimiento para realizar una prueba t para una media se muestra en la siguiente grfica:



El en cuadro de opciones, se selecciona la variable de Inters (X: Valor de la matricula), el valor de


Adems podemos indicar el clculo de un Intervalo de Confianza al 95% para .








Los resultados obtenidos son los siguientes:



Como el Valor P es mayor que , No tenemos suficiente evidencia para rechazar Ho, es
decir, no hay evidencia muestral suficiente para sugerir que el valor de la matrcula promedio real
de un estudiante en dicha comunidad es superior a los 640.000 pesos, con un nivel de significancia
de .


Para Diferencia de Medias.
Si lo que se desea es comparar el comportamiento promedio de una misma caracterstica en dos
poblaciones diferentes, cuando los tamaos de muestra son pequeos, no podemos usar el
Teorema Central del Lmite para construir un Estadstico de Prueba adecuado.

De nuevo, supongamos que es una muestra aleatoria de una poblacin normal con
media y varianza y que es otra muestra aleatoria de otra poblacin normal con
media y varianza , ambas muestras independientes entre s.

Un estimador insesgado para , es , pero Cul es la distribucin Muestral de ?
Consideremos dos casos:

Caso I: ,
Bajo el supuesto de Normalidad, y . Y como ambas variables son
independientes entre si, y entonces . Adems:

, entonces:




Caso II:
Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:


La demostracin de este hecho es un poco ms elaborada y por eso no se presentar aqu. Las
hiptesis a probar son entonces:

Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean
desconocidas, podemos realizar una prueba de hiptesis para igualdad de Varianzas:



Estadstico de Prueba: dado.

Si la hiptesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En
caso contrario podemos asumir que las varianzas poblacionales son iguales.

Las hiptesis de inters a ser probadas son:

donde es un valor particular.

Usualmente se toma como cero y entonces hablamos de una prueba de Igualdad de Medias.

Caso I: , El estadstico de prueba es: .
La regin crtica es similar al caso de una muestra aleatoria: , dado. El
valor P de esta prueba se calcula como .

Caso II: .El estadstico de Prueba es:
La regin crtica es similar al caso anterior:: , dado. El valor P de esta prueba
se calcula como .



Ejemplo 2: Se tom una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registr: Valor de la matrcula (VMATRI), Estrato Socioeconmico (ESTRATO), Nmero de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este
caso no se sabe nada acerca de la distribucin de las variables. Suponga que se desea probar si el
valor de la matrcula promedio real de los estudiantes que trabajan es superior al promedio de los
que no trabajan con base en esta muestra aleatoria.

Si definimos:
: el valor de la matricula promedio de los estudiantes que trabajan

: el valor de la matricula promedio de los estudiantes que no trabajan

: vs

Para elegir el estadstico de prueba primero debemos verificar si las dos muestras aleatorias
provienen de poblaciones normales, es decir,

: el valor de la matricula de los que trabajan se distribuye normalmente

: el valor de la matricula de los que trabajan no se distribuye normalmente


Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:

En la ventana superior llamada R Scrip se digita:

shapiro.test(Datos$VMATRI[Datos$TRAB=="SI"]), luego se le da ejecutar y se obtiene:



Como se obtiene un valor P de 0.3668, con este valor P se decide aceptar la hiptesis nula de
normalidad.

Ahora realizamos la prueba de hiptesis de normalidad para los que no trabajan



: el valor de la matricula de los que no trabajan se distribuye normalmente

: el valor de la matricula de los que no trabajan no se distribuye normalmente


Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:

En la ventana superior llamada R Scrip se digita:


shapiro.test(Datos$VMATRI[Datos$TRAB=="NO"]), luego se le da ejecutar y se obtiene:




Como se obtiene un valor P de 0.4578, con este valor P se decide aceptar la hiptesis nula de
normalidad.

Luego como las dos muestras aleatorias son normales y las varianzas poblacionales son
desconocidas, se debe probar si las varianzas son iguales o no.

Para verificar si las varianzas son iguales se debe realizar la siguiente prueba de hiptesis:

: vs :

Para realizar est prueba de hiptesis en R commander se procede de la siguiente manera:



Al seleccionar test F para dos varianzas aparece la siguiente ventana




En esta ventana seleccionamos la variable VMATRI y en grupos seleccionamos la variable TRAB,
y le damos aceptar, obtenindose:





Como el valor P es menor que , se acepta la hiptesis nula, es decir hay evidencia
muestral suficiente para sugerir que las varianzas son iguales.


Luego retomando la hiptesis que deseamos probar es:

: vs


Como las dos muestras aleatorias provienen de poblaciones normales con varianzas desconocidas
pero iguales, el estadstico de prueba es:




Usando el R commander realizamos los siguientes pasos:




Despus de seleccionar el Test t para muestras independientes aparece la siguiente ventana:




En sta ventana seleccionamos la variable VMATRI y el grupo TRAB, y luego hacemos clic en
opciones y se abre la siguiente ventana:



Luego seleccionamos Diferencia NO - SI <0, y en suponer que las varianzas son iguales
seleccionar S, y se obtiene:








Como el valor P es mayor que , no se rechaza la hiptesis nula, es decir, no hay evidencia
muestral suficiente para sugerir que el valor de la matricula promedio de los estudiantes que
trabajan es superior al valor de la matricula de los estudiantes que no trabajan, con un nivel de
significancia de 0.05.


POBLACIONES NO NORMALES
Para todos los casos suponemos que es una muestra aleatoria de una poblacin con
media y varianza , y que es otra muestra aleatoria de otra poblacin con media
y varianza , ambas muestras independientes entre si.

Pruebas de Hiptesi s para Medias.

Sea una muestra aleatoria de una de una poblacin con media y varianza . Si el
tamao de la muestra es grande y es conocida, el Teorema Central del Lmite garantiza que
, y de esta manera un Intervalo de confianza aproximado al
para es de la forma:

, donde .

Si es desconocida, esta es estimada usando la varianza Muestral: y un
Intervalo de Confianza aproximado al para es de la forma: .

Si es un valor particular para , podemos establecer tres hiptesis alternativas respecto al valor
real de :

Estadstico de prueba .

Usando R commander se pueden calcular y para ser usados en la inferencia respecto a la
media de la poblacin. Cabe Anotar que R commander asume que las poblaciones involucradas
SON NORMALES independiente del tamao de la muestra. Si las poblaciones no son normales,
para realizar pruebas de hiptesis para la Media con muestras grandes, debe hacerse
manualmente. Similarmente pasa para la diferencia de medias de dos poblaciones con muestras
grandes.

Ejemplo 3: Se tom una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registr: Valor de la matrcula (VMATRI), Estrato Socioeconmico (ESTRATO), Nmero de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba
(TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este
caso no se sabe nada acerca de la distribucin de las variables. Suponga que se desea probar si el
nmero de horas semanales promedio real que los estudiantes de dicha universidad dedican a
estudiar es inferior a 32 horas, con base en esta muestra aleatoria, use un .

Las hiptesis a probar son vs .

Primero debemos verificar si el nmero de horas dedicado a estudiar se distribuye normalmente,
para ello se realiza la siguiente prueba de hiptesis:

: el nmero de horas dedicado a estudiar se distribuye normalmente

: el nmero de horas dedicado a estudiar no se distribuye normalmente

Usando el R commander se obtiene:



Como el valor P es menor que , se rechaza la hiptesis nula, es decir, el nmero de horas
dedicado a estudiar no se distribuye normalmente.

Como la variable, el nmero de horas dedicado a estudiar no se distribuye normalmente, la prueba
de hiptesis sobre la media no se puede realizar en R commander, pero se puede utilizar el R
commander para realizar algunos clculos como la media y la desviacin estndar muestrales,
obtenindose:


numSummary(Datos[,"HORAS"], statistics=c("mean", "sd"), quantiles=c(0,.25,.5,.75,1))
mean sd n
29.971 7.091858 1000

Como la muestra aleatoria no proviene de una poblacin normal, , y la varianza
poblacional es desconocida, se debe usar como estadstico de prueba:




Al reemplazar los valores se obtiene: .

Valor P= la cual es aproximadamente igual a cero, como el valor P es menor que
, se rechaza la hiptesis nula, es decir, hay evidencia muestral suficiente para sugerir que
el nmero de horas semanales promedio real que los estudiantes de dicha universidad dedican a
estudiar es inferior a 32 horas, con un nivel de significancia de 0.05.











Ejemplo 4: Se tom una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registr: Valor de la matrcula (VMATRI), Estrato Socioeconmico (ESTRATO), Nmero de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribucin de las variables. Suponga que se desea
probar si la media del promedio de los estudiantes que trabajan es superior a la media del
promedio de los estudiantes que no trabajan, con base en esta muestra aleatoria, use un .

Definamos

: la media del promedio de los estudiantes que trabajan

: la media del promedio de los estudiantes que no trabajan

Las hiptesis a probar son vs .

Primero debemos verificar si el promedio de los estudiantes que trabajan se distribuye
normalmente, para ello se realiza la siguiente prueba de hiptesis:

: el promedio de los estudiantes que trabajan se distribuye normalmente

: el promedio de los estudiantes que trabajan no se distribuye normalmente

Usando el R commander se obtiene:



Como el valor P es menor que , se rechaza la hiptesis nula, es decir, hay evidencia
muestral suficiente para decir que, el promedio de los estudiantes que trabajan no se distribuye
normalmente, con .

Verifiquemos si el promedio de los estudiantes que no trabajan se distribuye normalmente, para
ello se realiza la siguiente prueba de hiptesis:

: el promedio de los estudiantes que no trabajan se distribuye normalmente

: el promedio de los estudiantes que no trabajan no se distribuye normalmente

Usando el R commander se obtiene:



Como el valor P es menor que , se rechaza la hiptesis nula, es decir, hay evidencia
muestral suficiente para decir que, el promedio de los estudiantes que no trabajan no se distribuye
normalmente, con .

Como las dos muestras aleatorias no se distribuyen normalmente, la prueba de hiptesis sobre las
medias no se puede realizar en R commander, pero se puede utilizar el R commander para realizar
algunos clculos como la media y la desviacin estndar muestrales, de cada una de las muestras,
obtenindose:


numSummary(Datos[,"PROM"], groups=Datos$TRAB, statistics=c("mean", "sd"),
quantiles=c(0,.25,.5,.75,1))

mean sd n
NO 3.402473 0.4121154 647
SI 3.408782 0.3958692 353


Como las muestras aleatorias no provienen de poblaciones normales, ,
, y las varianzas poblacionales son desconocidas, se debe usar como estadstico de
prueba:




Al reemplazar los valores se obtiene: .

Valor P= , como el valor P es mayor que , no se rechaza la
hiptesis nula, es decir, no hay evidencia muestral suficiente para sugerir que, la media del
promedio de los estudiantes que trabajan es superior a la media del promedio de los estudiantes
que no trabajan, con un nivel de significancia de 0.05.


Ejemplo 6. Se tom una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registr: Valor de la matrcula (VMATRI), Estrato Socioeconmico (ESTRATO), Nmero de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribucin de las variables. Suponga que se desea
probar si la proporcin de estudiantes que no trabajan es superior a 0.6, con base en esta muestra
aleatoria, use un .

Sea P: la probabilidad de un un estudiante seleccionado al azar trabaje.

vs

Como , se puede usar el teorema del lmite central, el estadstico de prueba es:



Usando el R commander se procede de la siguiente manera:



Luego aparece la siguiente ventana:


Se selecciona la variable y se eligen las opciones, obtenindose:





En opciones selecciono un test de cola derecha , y que utilice la aproximacin normal, y
luego se obtiene:




Como el valor P es 0.001343, menor que , se rechaza la hiptesis nula, es decir, hay
evidencia muestral suficiente para sugerir que la proporcin de estudiantes que no trabajan es
superior a 0.6.


Ejemplo 7. Se tom una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se
les registr: Valor de la matrcula (VMATRI), Estrato Socioeconmico (ESTRATO), Nmero de
horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si
trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que
en este caso no se sabe nada acerca de la distribucin de las variables. Suponga que se desea
probar si los estudiantes que dedican ms de 20 horas al estudio, la proporcin de estudiantes que
no trabajan es diferente a la proporcin de estudiantes que trabajan, con base en esta muestra
aleatoria, use un .

Sea Nmero de estudiantes que No trabajan en la muestra y sea Nmero de estudiantes que
trabajan en la muestra. Suponga que y , donde y , son las
proporciones de estudiantes en la universidad que dedican ms de 20 horas al estudio que No
trabajan y Trabajan respectivamente, y son los tamaos de muestra respectivos. e son
variables aleatorias Estadsticamente Independientes.

Las hiptesis que se desea contrastar son: . El estadstico de
Prueba en este caso es:

.

Como y son desconocidos, no podemos evaluar directamente este estadstico de prueba. Dos
alternativas pueden ser propuestas para resolver este problema.

1. Cambiar y por sus estimadores de mxima verosimilitud: y . As el
estadstico de prueba ser:



2. Bajo la hiptesis nula, sabemos que y son iguales. Al reemplazar a y por el valor
comn , el estadstico de prueba ser:


Como tambin es desconocido puede ser estimado por usando un promedio ponderado
. As, el estadstico de Prueba ser:




Para aplicar el procedimiento en R commander primero debemos crear una variable categrica que
indique si el estudiante dedica ms de 20 horas al estudio. En la opcin Datos creamos la variable
MAYOR:

Para realizar esta re codificacin realizamos los siguientes pasos: DatosModificar variable de
conjunto de datos activoRecodificar variables




Parte de la Base de Datos de los 1000 estudiantes encuestados con la variable re codificada






































Los resultados obtenidos son los siguientes:



Tanto el Valor P de la Prueba como el Intervalo de Confianza para indica que las
proporciones no son diferentes. Es decir no hay evidencia muestral suficiente para sugerir que de
los estudiantes que dedican ms de 20 horas al estudio, la proporcin de estudiantes que no
trabajan es diferente a la proporcin de estudiantes que trabajan.

S-ar putea să vă placă și