Inferencia Estadística para una y dos muestras

Sumário
1 Inferencia Estadística para una muestra 2

1.1 Distribución Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Intervalo de confianza y prueba de hipótesis para p . . . . . . . 4
2 Inferencia Estadística para dos muestras 5

2.1 Intervalo de confianza y prueba de hipótesis para la diferencia
de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Para muestras Independientes . . . . . . . . . . . . . . . . . . . 6
2.3 Para muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . 7
3 Análisis de Varianza - ANOVA 9
Página 1 de 14
1 Inferencia Estadística para una muestra
1.1 Distribución Z
Para la Distribucion Z (Cuando la varianza es conocida) R no posee los
comandos para desarrollar esta prueba de manera directa. La forma estadís-
tica para probar una media de datos con varianza conocida es desarrollarla de
forma simple.
X̄ − µ
Z= √ (1)
σ/ n
Ejemplo. Se esta interesado en obtener una estimacion del peso, de una
especie de ave en una cierta poblacion que se ubica en una zona seca. Se
toman 30 muestras de forma aleatoria de la misma especie y se determina el
peso para cada una de ellas. El peso medio reportado fue de 37.4 gramos con
una varianza de 25. Supongase que los datos asumen una distribucion apro-
ximadamente normal. Con un nivel de confianza del 95%, es posible concluir
que el peso medio de las aves de esa población sea igual a 40 gramos?
xbar=37.4
n = 30
mu = 40
var = 25
Z0<-(xbar-mu)/(var/sqrt(n))
Z0
-0.5696315
pvalor<-pnorm(Z0)
pvalor
0.5689277
Recordando que Zteorico es 1.96, observe que (Z0) cae en la región de

aceptación, por tanto NO se rechaza H0 y se concluye que el peso medio de
las aves es igual a 40 gramos.
1.2 Distribución t
Estudiemos ahora la función en el lenguaje R,
t.test(datosx , datosy = N U LL, alternative = ”two.sided”, mu = 0, paired =
F ALSE, var.equal = F ALSE, conf.level = 0.95)
Las opciones indicadas son todas las ofrecidas por defecto. Podemos indi-
car sólo un conjunto de datos para muestras unidimensionales (estimaciones
puntuales) o dos conjuntos para comparación de muestras.
El argumento alternative indica el tipo de contraste, bilateral (two.sided); si
la hipótesis alternativa es mayor (greater ); si la hipótesis alternativa es menor
(less).
En mu indicamos el valor de la hipótesis nula. En paired=FALSE estamos ante
Página 2 de 14
una situación de datos no pareados; para indicar que estamos ante datos pa-
reados se debe indicar paired=TRUE.
Con var.equal estamos trabajando con los casos de igualdad o no de varianzas
que sólo se emplean en comparación de dos poblaciones. Si var.equal=T las
varianzas de las dos poblaciones son iguales si var.equal=F las varianzas de
ambas poblaciones no se suponen iguales. Por último tenemos el argumento
conf.level en el que indicamos el nivel de confianza de la prueba.
Ejemplo. Los siguientes datos corresponden al rendimiento por hectárea

de cierta nueva variedad de trigo, medido en 9 lotes experimentales: 3.35;
3.92; 4.26; 3.36; 3.72; 4.19, 3.42; 4.38; 4.5. Construya un intervalo de confi-
anza del 90% de confianza para el rendimiento promedio de la nueva variedad
de trigo si suponemos que el rendimiento por hectárea se distribuye aproxima-
damente normal.
En el lenguaje R procedemos como sigue:
X<-c(3.35,3.92,4.26,3.36,3.72,4.19,3.42,4.38,4.5)
t.test(X,conf.level=0.90)
One Sample t-test
data: X
t = 25.674, df = 8, p-value = 5.681e-09
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
3.617526 4.182474
sample estimates:
mean of x
3.9
El intervalo de confianza pedido es [3.6175;4.1824]. Note que el output en-

trega además la media con valor 3.9 y por defecto, el test de hipótesis
H0 : µ = 0
H1 : µ 6= 0
Se rechaza la hipótesis nula ya que el valor de la prueba es p-value = 5.681e-
09.
El valor t = 25.674 es el valor
X̄ − µ 3.9 − 0
t0 = √ = √ = 25674 (2)
s/ n 0.4557137/ 9
df =8 indica que la muestra tenía 9 datos.
Imaginemos que deseamos verificar la hipótesis que el rendimiento medio

es mayor que 4;
H0 : µ = 4
H1 : µ > 4
Página 3 de 14
En el lenguaje R procedemos como sigue:
X<-c(3.35,3.92,4.26,3.36,3.72,4.19,3.42,4.38,4.5)
t.test(X,conf.level=0.90,alternative="greater",mu=4)
One Sample t-test
data: X
t = -0.6583, df = 8, p-value = 0.7356
alternative hypothesis: true mean is greater than 4
3.687817 Inf
sample estimates:
mean of x
3.9
La hipótesis nula no se rechaza ya que el valor p-value = 0.7356 es alto.
1.3 Intervalo de confianza y prueba de hipótesis para p

Ejemplo. Se desea estudiar la proporción de individuos menores de 40
años en una determinada ciudad. Se tomó una muestra aleatoria de 800 indi-
viduos y se encontró que 600 de ellos tenían menos de 40 años. Determine
la verdadera proporción de personas menores de 40 años en la mencionada
ciudad mediante un intervalo de confianza al 99% de confianza.
Podemos afirmar con un 99% de confianza que la proporción de individuos

menores de 40 años en la ciudad está entre 0.71 y 0.79.
Podemos determinar el intervalo de confianza con el lenguaje R usando la

función:
> prop.test(600, 800,conf.level = 0.99)
El ejemplo, anteriormente desarrollado, se obtiene:

> prop.test(600, 800,conf.level = 0.99)
Página 4 de 14
1-sample proportions test with continuity correction
data: 600 out of 800, null probability 0.5

X-squared = 199.0012, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.5
0.7079660 0.7878565
sample estimates:
p
0.75
> prop.test(600, 800,conf.level = 0.99)(signo)conf.int
[1] 0.7079660 0.7878565

attr(,"conf.level")
[1] 0.99
2 Inferencia Estadística para dos muestras

2.1 Intervalo de confianza y prueba de hipótesis para la di-
ferencia de medias
Ejemplo La pintura para autopista se surte en dos colores: blanco y ama-
rillo. El interés se centra en el tiempo de secado de la pintura. Se sospecha
que la pintura de color amarillo se seca más rápidamente que la blanca.
Se obtienen mediciones de ambos tipos de pintura, que dan los siguientes
tiempos de secado, en minutos:
Blanca: 120, 132, 123, 122, 140, 110, 120, 107
Amarilla: 126, 124, 116, 125, 109, 130, 125, 117, 129, 120
Encuentre un intervalo de confianza del 95% para la diferencia entre los
tiempos de secados medios, suponiendo que las desviaciones estándar de
éstos son iguales. ¿Existe alguna evidencia que indique que la pintura amarilla
seca más rápidamente que la blanca?
Intervalo de Confianza para la diferencia de medias, varianzas desco-
nocidas e iguales. Si x̄1 , x̄2 , s21 e s22 son medias y varianzas muestrales de
dos muestras aleatorias de tamaños n1 y n2 , respectivamente, provenientes
de dos poblaciones normales independientes, com varianzas desconocidas,
sin embrago iguales, entonces un intervalo de confianza de 100(1-α)% para
la diferencia de medias µ1 y µ2 será
r r
1 1 1 1
x̄1 −x̄2 −tα/2,n1 +n2 −2 sc + ≤ µ1 −µ2 ≤ x̄1 −x̄2 +tα/2,n1 +n2 −2 sc +
n1 n2 n1 n2
El estimador combinado de σ 2 , denotado por Sc2 , es definido por:
(n1 − 1)S12 + (n2 − 1)S22

Sc2 =
n1 + n2 − 2
Página 5 de 14
Introduciomos las dos muestras en dos variables:
> blancas <- c(120, 132, 123, 122, 140, 110, 120, 107)
> amarillas <- c(126, 124, 116, 125, 109, 130, 125, 117, 129, 120)
Configuramos la función a un nivel del 95% y con varianzas iguales cómo
nos indica el enunciado del problema:
> t.test(blancas, amarillas, conf.level = 0.95, var.equal= TRUE)
Y se recibe el resultado:
Two Sample t-test
data: blancas and amarillas

t = -0.0857, df = 16, p-value = 0.9328
alternative hypothesis: true difference in means is not equal to 0
-9.008911 8.308911
sample estimates:
mean of x mean of y
121.75 122.10
Como podemos observar, nos ofrece bastante información sobre el estudio,

lo que nos interesa en este caso, es el intervalo de confianza: [-9.008911,
8.308911]
(Podemos comprobar fácilmente con el ejercicio propuesto, que las soluci-
ones coinciden).
2.2 Para muestras Independientes

Ejemplo sobre la perdida de peso (kg) em dos grupos de pacientes diferen-
tes; cada paciente siguiendo la dieta designada para su grupo.
Dieta1<-c(12,8,15,13,10,12,14,11,12,13)
Dieta2<-c(15,19,15,12,13,16,15)
Verifique normalidade dos dados
> shapiro.test(Dieta1)
Shapiro-Wilk normality test

data: Dieta1
W = 0.9615, p-value = 0.8029
> shapiro.test(Dieta2)

data: Dieta2
W = 0.926, p-value = 0.5178
Página 6 de 14
Verifique homogeneidad de varianzas:
var.test(Dieta1,Dieta2))
F test to compare two variances
data: Dieta1 and Dieta2

F = 0.8, num df = 9, denom df = 6, p-value = 0.7325
alternative hypothesis: true ratio of variances is not equal to 1
0.1448382 3.4557775
sample estimates:
ratio of variances
0.8
Prueba-t para dos muestras independientes, pero com varianzas iguales.

La hipótesis nula es que no hay una diferencia en la pérdida de la masa media
y la alternativa es que hay una diferencia.
t.test(Dieta1,Dieta2, var.equal=TRUE,alternative="two.sided")
Two Sample t-test
data: Dieta1 and Dieta2

t = -2.9021, df = 15, p-value = 0.01095
-5.2033162 -0.7966838
sample estimates:
mean of x mean of y
12 15
Como puede ser visto en el resultado, hay una diferencia significativa en

la pérdida de masa media y la pérdida es mayor para pacientes siguiendo la
Dieta 2.
2.3 Para muestras Pareadas

La masa de 10 pájaros migratorios fue medida en dos ocasiones, la primera
en agosto y los mismos pájaros (marcados individualmente y recapturados) fu-
eron medidos nuevamente en septiembre.
> ago<-c(10.3,11.4,10.9,12.0,10.0,11.9,12.2,12.3,11.7,12.0)
> sept<-c(12.2,12.1,13.1,11.9,12.0,12.9,11.4,12.1,13.5,12.3)
Podemos visualizar las dos muestras
> boxplot(ago,sept,names=c("Agosto","Setembro"))
Página 7 de 14
Figura 1: Box-plots de poblaciones pareadas
shapiro.test(ago)
data: ago
W = 0.8701, p-value = 0.1002
shapiro.test(sept)
data: sept
W = 0.9302, p-value = 0.45
> var.test(ago,sept)
data: ago and sept

0.4097496 6.6414787
sample estimates:
Página 8 de 14
ratio of variances
1.649649
Los datos son normales y las varianzas son homogéneas. Podemos correr
el test - t con las dos muestras pareadas. La prueba es bicaudal con las vari-
anzas iguales.
> t.test(ago,sept,paired=TRUE,alternative="two.sided",var.equal=TRUE)
Paired t-test
data: ago and sept

t = -2.6119, df = 9, p-value = 0.02818
-1.6421526 -0.1178474
sample estimates:
mean of the differences
-0.88
El resultado indica que hay una diferencia significativa entres las medias
de las dos muestras y concluimos que el aumento en masa entre agosto y
septiembre es significativo.
3 Análisis de Varianza - ANOVA

En la figura a seguir se plantea un ejercicio para comparar dos medias.
Obtenga la tabla ANOVA, realice el análisis en R.
Figura 2: Ejemplo ANOVA un factor
Página 9 de 14
Creamos los dos vectores con las respuestas de medida de colesterol, los
cuales representan las dos poblaciones.
colesterolA<-c(51.3,39.4,26.3,39,48.1,34.2,69.8,31.3,45.2,46.4)
colesterolB<-c(29.6,47,25.9,13.0,33.1,22.1,34.1,19.5,43.8,24.9)
VERIFICACIÓN DE LOS SUPUESTOS DE NORMALIDAD

Para realizar un Análisis de Varianza, las poblaciones deben verificar el supu-
esto de normalidad.
shapiro.test(colesterolA)
data: colesterolA
W = 0.9406, p-value = 0.5602
shapiro.test(colesterolB)
data: colesterolB
W = 0.9697, p-value = 0.8884
VERIFICACIÓN DE LOS SUPUESTOS DE HOMOCEDASTICIDAD o va-

rianza constante
Se supone que las dos poblaciones tiene varianzas aproximadamente igual.

Para ello se realiza una prueba de hipótesis para probar si las varianzas son
homogénes en las dos poblaciones.
var.test(colesterolA,colesterolB)
data: colesterolA and colesterolB

0.3338537 5.4113109
sample estimates:
ratio of variances
1.344093
Página 10 de 14
Obtención de la Tabla ANOVA
Observación: Una vez que se verifican los supuestos, ahora se pro-
cede a realizar el análisis de varianza
Las hipótesis que se van a contrastar son:
H0 : µcolA = µcolB
H1 :Las medias de colesterol son diferentes
Preparamos los datos para entrar en R como variable respuesta y factor.

La variable respuesta la llamaremos colesterol que incluye a colesterolA y co-
lesterolB. dieta, incluye 10 veces A y 10 veces B.
colesterol<-c(51.3,39.4,26.3,39,48.1,34.2,69.8,31.3,45.2,46.4,29.6,47,25.9,13.0,33.1,22.1,34.1,19.5,43.
colesterol
dieta<- c("A","A","A","A","A","A","A","A","A","A", "B","B","B","B","B","B","B","B","B","B")
Obteniendo las medias y sd de cada población:

tapply(colesterol, dieta, mean)
tapply(colesterol, dieta, sd)
> tapply(colesterol, dieta, mean)

A B
43.1 29.3
> tapply(colesterol, dieta, sd)
A B
12.25479 10.57040
También es útil graficar la población estratificada por el factor:

boxplot(colesterol dieta)
anova<-aov(colesterol dieta)
anova
summary(anova)
> summary(anova)
Df Sum Sq Mean Sq F value Pr(>F)
dieta 1 952.2 952.20 7.2711 0.01476 *
Residuals 18 2357.2 130.96
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1
Cálculo del F teórico en R. Valor teórico de una F con 1 grado de libertad

en el numerador y 18 en el denominador
qf(0.05, 1, 18, lower.tail = F)
4.413873
Página 11 de 14
Figura 3: Ejemplo ANOVA un factor, realizando los cálculos
Preparamos tres vectores:

tiempoM1<-c(15,16,14,15,17)
tiempoM2<-c(14,13,15,16,14)
tiempoM3<-c(13,12,11,14,11)
VERIFICACIÓN DE LOS SUPUESTOS DE NORMALIDAD
shapiro.test(tiempoM1)
Página 12 de 14
VERIFICACIÓN DE LOS SUPUESTOS DE HOMOCEDASTICIDAD o vari-
anza constante
var.test(tiempoM1,tiempoM2)
Obtención de la Tabla ANOVA

tiempo<-c(15,16,14,15,17,14,13,15,16,14,13,12,11,14,11)
metodo<-c("M1","M1","M1","M1","M1","M2","M2","M2","M2","M2","M3","M3","M3","M3","M3")
Obteniendo las medias y sd de cada población:

tapply(tiempo, metodo, mean)
tapply(tiempo, metodo, sd)
También es útil graficar la población estratificada por el factor:

boxplot(tiempo metodo)
Las hipótesis que se van a contrastar son:
H0 : µM 1 = µM 2 = µM 3
H1 :Al menos una media es diferente
anova<-aov(tiempo metodo)
anova
summary(anova)
> summary(anova)
Df Sum Sq Mean Sq F value Pr(>F)
metodo 2 26.8 13.4000 9.3488 0.003568 **
Residuals 12 17.2 1.4333
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1
Cálculo del F teórico en R. Valor teórico de una F con 2 grados de libertad

en el numerador y 12 en el denominador:
qf(0.05, 2, 12, lower.tail = F)
3.885294
Página 13 de 14
Ejercicio. Realizar el análisis de Varianza Completo del siguiente pro-
blema:
Estamos interesados en conocer si hay colores más atractivos para los in-
sectos. Para ello se diseñaron trampas con los siguientes colores: amarillo,
azul, blanco y verde. Se cuantificó el número de insectos que quedaban atra-
pados:
Azul: 16 11 20 21 14 7
Verde: 37 32 15 25 39 41
Blanco: 21 12 14 17 13 17
Amarillo: 45 59 48 46 38 47
Página 14 de 14

Inferencia Estadística para una y dos muestras

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Inferencia Estadística para una y dos muestras

Încărcat de

Drepturi de autor:

Formate disponibile

Sumário

1 Inferencia Estadística para una muestra 2

2 Inferencia Estadística para dos muestras 5

3 Análisis de Varianza - ANOVA 9

Recordando que Zteorico es 1.96, observe que (Z0) cae en la región de

Ejemplo. Los siguientes datos corresponden al rendimiento por hectárea

En el lenguaje R procedemos como sigue:

One Sample t-test

El intervalo de confianza pedido es [3.6175;4.1824]. Note que el output en-

Imaginemos que deseamos verificar la hipótesis que el rendimiento medio

La hipótesis nula no se rechaza ya que el valor p-value = 0.7356 es alto.

1.3 Intervalo de confianza y prueba de hipótesis para p

Podemos afirmar con un 99% de confianza que la proporción de individuos

Podemos determinar el intervalo de confianza con el lenguaje R usando la

El ejemplo, anteriormente desarrollado, se obtiene:

data: 600 out of 800, null probability 0.5

> prop.test(600, 800,conf.level = 0.99)(signo)conf.int

[1] 0.7079660 0.7878565

2 Inferencia Estadística para dos muestras

El estimador combinado de σ 2 , denotado por Sc2 , es definido por:

(n1 − 1)S12 + (n2 − 1)S22

Two Sample t-test

data: blancas and amarillas

Como podemos observar, nos ofrece bastante información sobre el estudio,

2.2 Para muestras Independientes

Shapiro-Wilk normality test

Shapiro-Wilk normality test

F test to compare two variances

data: Dieta1 and Dieta2

Prueba-t para dos muestras independientes, pero com varianzas iguales.

Two Sample t-test

data: Dieta1 and Dieta2

Como puede ser visto en el resultado, hay una diferencia significativa en

2.3 Para muestras Pareadas

Podemos visualizar las dos muestras

Shapiro-Wilk normality test

Shapiro-Wilk normality test

F test to compare two variances

data: ago and sept

data: ago and sept

3 Análisis de Varianza - ANOVA

Figura 2: Ejemplo ANOVA un factor

VERIFICACIÓN DE LOS SUPUESTOS DE NORMALIDAD

Shapiro-Wilk normality test

Shapiro-Wilk normality test

VERIFICACIÓN DE LOS SUPUESTOS DE HOMOCEDASTICIDAD o va-

Se supone que las dos poblaciones tiene varianzas aproximadamente igual.

F test to compare two variances

data: colesterolA and colesterolB

Las hipótesis que se van a contrastar son:

Preparamos los datos para entrar en R como variable respuesta y factor.

Obteniendo las medias y sd de cada población:

> tapply(colesterol, dieta, mean)

También es útil graficar la población estratificada por el factor:

Cálculo del F teórico en R. Valor teórico de una F con 1 grado de libertad

Preparamos tres vectores:

VERIFICACIÓN DE LOS SUPUESTOS DE NORMALIDAD

Obtención de la Tabla ANOVA

Obteniendo las medias y sd de cada población:

También es útil graficar la población estratificada por el factor:

Las hipótesis que se van a contrastar son:

Cálculo del F teórico en R. Valor teórico de una F con 2 grados de libertad

S-ar putea să vă placă și