Sunteți pe pagina 1din 14

Sumário

1 Inferencia Estadística para una muestra 2


1.1 Distribución Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Intervalo de confianza y prueba de hipótesis para p . . . . . . . 4

2 Inferencia Estadística para dos muestras 5


2.1 Intervalo de confianza y prueba de hipótesis para la diferencia
de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Para muestras Independientes . . . . . . . . . . . . . . . . . . . 6
2.3 Para muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . 7

3 Análisis de Varianza - ANOVA 9

Página 1 de 14
1 Inferencia Estadística para una muestra
1.1 Distribución Z
Para la Distribucion Z (Cuando la varianza es conocida) R no posee los
comandos para desarrollar esta prueba de manera directa. La forma estadís-
tica para probar una media de datos con varianza conocida es desarrollarla de
forma simple.

X̄ − µ
Z= √ (1)
σ/ n
Ejemplo. Se esta interesado en obtener una estimacion del peso, de una
especie de ave en una cierta poblacion que se ubica en una zona seca. Se
toman 30 muestras de forma aleatoria de la misma especie y se determina el
peso para cada una de ellas. El peso medio reportado fue de 37.4 gramos con
una varianza de 25. Supongase que los datos asumen una distribucion apro-
ximadamente normal. Con un nivel de confianza del 95%, es posible concluir
que el peso medio de las aves de esa población sea igual a 40 gramos?

xbar=37.4
n = 30
mu = 40
var = 25
Z0<-(xbar-mu)/(var/sqrt(n))
Z0
-0.5696315
pvalor<-pnorm(Z0)
pvalor
0.5689277

Recordando que Zteorico es 1.96, observe que (Z0) cae en la región de


aceptación, por tanto NO se rechaza H0 y se concluye que el peso medio de
las aves es igual a 40 gramos.

1.2 Distribución t
Estudiemos ahora la función en el lenguaje R,
t.test(datosx , datosy = N U LL, alternative = ”two.sided”, mu = 0, paired =
F ALSE, var.equal = F ALSE, conf.level = 0.95)

Las opciones indicadas son todas las ofrecidas por defecto. Podemos indi-
car sólo un conjunto de datos para muestras unidimensionales (estimaciones
puntuales) o dos conjuntos para comparación de muestras.
El argumento alternative indica el tipo de contraste, bilateral (two.sided); si
la hipótesis alternativa es mayor (greater ); si la hipótesis alternativa es menor
(less).
En mu indicamos el valor de la hipótesis nula. En paired=FALSE estamos ante

Página 2 de 14
una situación de datos no pareados; para indicar que estamos ante datos pa-
reados se debe indicar paired=TRUE.
Con var.equal estamos trabajando con los casos de igualdad o no de varianzas
que sólo se emplean en comparación de dos poblaciones. Si var.equal=T las
varianzas de las dos poblaciones son iguales si var.equal=F las varianzas de
ambas poblaciones no se suponen iguales. Por último tenemos el argumento
conf.level en el que indicamos el nivel de confianza de la prueba.

Ejemplo. Los siguientes datos corresponden al rendimiento por hectárea


de cierta nueva variedad de trigo, medido en 9 lotes experimentales: 3.35;
3.92; 4.26; 3.36; 3.72; 4.19, 3.42; 4.38; 4.5. Construya un intervalo de confi-
anza del 90% de confianza para el rendimiento promedio de la nueva variedad
de trigo si suponemos que el rendimiento por hectárea se distribuye aproxima-
damente normal.

En el lenguaje R procedemos como sigue:

X<-c(3.35,3.92,4.26,3.36,3.72,4.19,3.42,4.38,4.5)
t.test(X,conf.level=0.90)

One Sample t-test

data: X
t = 25.674, df = 8, p-value = 5.681e-09
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
3.617526 4.182474
sample estimates:
mean of x
3.9

El intervalo de confianza pedido es [3.6175;4.1824]. Note que el output en-


trega además la media con valor 3.9 y por defecto, el test de hipótesis
H0 : µ = 0
H1 : µ 6= 0
Se rechaza la hipótesis nula ya que el valor de la prueba es p-value = 5.681e-
09.
El valor t = 25.674 es el valor

X̄ − µ 3.9 − 0
t0 = √ = √ = 25674 (2)
s/ n 0.4557137/ 9
df =8 indica que la muestra tenía 9 datos.

Imaginemos que deseamos verificar la hipótesis que el rendimiento medio


es mayor que 4;
H0 : µ = 4
H1 : µ > 4

Página 3 de 14
En el lenguaje R procedemos como sigue:
X<-c(3.35,3.92,4.26,3.36,3.72,4.19,3.42,4.38,4.5)
t.test(X,conf.level=0.90,alternative="greater",mu=4)
One Sample t-test

data: X
t = -0.6583, df = 8, p-value = 0.7356
alternative hypothesis: true mean is greater than 4
90 percent confidence interval:
3.687817 Inf
sample estimates:
mean of x
3.9

La hipótesis nula no se rechaza ya que el valor p-value = 0.7356 es alto.

1.3 Intervalo de confianza y prueba de hipótesis para p


Ejemplo. Se desea estudiar la proporción de individuos menores de 40
años en una determinada ciudad. Se tomó una muestra aleatoria de 800 indi-
viduos y se encontró que 600 de ellos tenían menos de 40 años. Determine
la verdadera proporción de personas menores de 40 años en la mencionada
ciudad mediante un intervalo de confianza al 99% de confianza.

Podemos afirmar con un 99% de confianza que la proporción de individuos


menores de 40 años en la ciudad está entre 0.71 y 0.79.

Podemos determinar el intervalo de confianza con el lenguaje R usando la


función:
> prop.test(600, 800,conf.level = 0.99)

El ejemplo, anteriormente desarrollado, se obtiene:


> prop.test(600, 800,conf.level = 0.99)

Página 4 de 14
1-sample proportions test with continuity correction

data: 600 out of 800, null probability 0.5


X-squared = 199.0012, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is not equal to 0.5
99 percent confidence interval:
0.7079660 0.7878565
sample estimates:
p
0.75

> prop.test(600, 800,conf.level = 0.99)(signo)conf.int

[1] 0.7079660 0.7878565


attr(,"conf.level")
[1] 0.99

2 Inferencia Estadística para dos muestras


2.1 Intervalo de confianza y prueba de hipótesis para la di-
ferencia de medias
Ejemplo La pintura para autopista se surte en dos colores: blanco y ama-
rillo. El interés se centra en el tiempo de secado de la pintura. Se sospecha
que la pintura de color amarillo se seca más rápidamente que la blanca.
Se obtienen mediciones de ambos tipos de pintura, que dan los siguientes
tiempos de secado, en minutos:
Blanca: 120, 132, 123, 122, 140, 110, 120, 107
Amarilla: 126, 124, 116, 125, 109, 130, 125, 117, 129, 120
Encuentre un intervalo de confianza del 95% para la diferencia entre los
tiempos de secados medios, suponiendo que las desviaciones estándar de
éstos son iguales. ¿Existe alguna evidencia que indique que la pintura amarilla
seca más rápidamente que la blanca?
Intervalo de Confianza para la diferencia de medias, varianzas desco-
nocidas e iguales. Si x̄1 , x̄2 , s21 e s22 son medias y varianzas muestrales de
dos muestras aleatorias de tamaños n1 y n2 , respectivamente, provenientes
de dos poblaciones normales independientes, com varianzas desconocidas,
sin embrago iguales, entonces un intervalo de confianza de 100(1-α)% para
la diferencia de medias µ1 y µ2 será
r r
1 1 1 1
x̄1 −x̄2 −tα/2,n1 +n2 −2 sc + ≤ µ1 −µ2 ≤ x̄1 −x̄2 +tα/2,n1 +n2 −2 sc +
n1 n2 n1 n2

El estimador combinado de σ 2 , denotado por Sc2 , es definido por:

(n1 − 1)S12 + (n2 − 1)S22


Sc2 =
n1 + n2 − 2

Página 5 de 14
Introduciomos las dos muestras en dos variables:
> blancas <- c(120, 132, 123, 122, 140, 110, 120, 107)
> amarillas <- c(126, 124, 116, 125, 109, 130, 125, 117, 129, 120)
Configuramos la función a un nivel del 95% y con varianzas iguales cómo
nos indica el enunciado del problema:
> t.test(blancas, amarillas, conf.level = 0.95, var.equal= TRUE)
Y se recibe el resultado:

Two Sample t-test

data: blancas and amarillas


t = -0.0857, df = 16, p-value = 0.9328
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-9.008911 8.308911
sample estimates:
mean of x mean of y
121.75 122.10

Como podemos observar, nos ofrece bastante información sobre el estudio,


lo que nos interesa en este caso, es el intervalo de confianza: [-9.008911,
8.308911]
(Podemos comprobar fácilmente con el ejercicio propuesto, que las soluci-
ones coinciden).

2.2 Para muestras Independientes


Ejemplo sobre la perdida de peso (kg) em dos grupos de pacientes diferen-
tes; cada paciente siguiendo la dieta designada para su grupo.

Dieta1<-c(12,8,15,13,10,12,14,11,12,13)
Dieta2<-c(15,19,15,12,13,16,15)
Verifique normalidade dos dados

> shapiro.test(Dieta1)

Shapiro-Wilk normality test


data: Dieta1
W = 0.9615, p-value = 0.8029

> shapiro.test(Dieta2)

Shapiro-Wilk normality test


data: Dieta2
W = 0.926, p-value = 0.5178

Página 6 de 14
Verifique homogeneidad de varianzas:

var.test(Dieta1,Dieta2))

F test to compare two variances

data: Dieta1 and Dieta2


F = 0.8, num df = 9, denom df = 6, p-value = 0.7325
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.1448382 3.4557775
sample estimates:
ratio of variances
0.8

Prueba-t para dos muestras independientes, pero com varianzas iguales.


La hipótesis nula es que no hay una diferencia en la pérdida de la masa media
y la alternativa es que hay una diferencia.

t.test(Dieta1,Dieta2, var.equal=TRUE,alternative="two.sided")

Two Sample t-test

data: Dieta1 and Dieta2


t = -2.9021, df = 15, p-value = 0.01095
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-5.2033162 -0.7966838
sample estimates:
mean of x mean of y
12 15

Como puede ser visto en el resultado, hay una diferencia significativa en


la pérdida de masa media y la pérdida es mayor para pacientes siguiendo la
Dieta 2.

2.3 Para muestras Pareadas


La masa de 10 pájaros migratorios fue medida en dos ocasiones, la primera
en agosto y los mismos pájaros (marcados individualmente y recapturados) fu-
eron medidos nuevamente en septiembre.

> ago<-c(10.3,11.4,10.9,12.0,10.0,11.9,12.2,12.3,11.7,12.0)
> sept<-c(12.2,12.1,13.1,11.9,12.0,12.9,11.4,12.1,13.5,12.3)

Podemos visualizar las dos muestras

> boxplot(ago,sept,names=c("Agosto","Setembro"))

Página 7 de 14
Figura 1: Box-plots de poblaciones pareadas

shapiro.test(ago)

Shapiro-Wilk normality test

data: ago
W = 0.8701, p-value = 0.1002

shapiro.test(sept)

Shapiro-Wilk normality test

data: sept
W = 0.9302, p-value = 0.45

> var.test(ago,sept)

F test to compare two variances

data: ago and sept


F = 1.6496, num df = 9, denom df = 9, p-value = 0.4674
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.4097496 6.6414787
sample estimates:

Página 8 de 14
ratio of variances
1.649649

Los datos son normales y las varianzas son homogéneas. Podemos correr
el test - t con las dos muestras pareadas. La prueba es bicaudal con las vari-
anzas iguales.

> t.test(ago,sept,paired=TRUE,alternative="two.sided",var.equal=TRUE)

Paired t-test

data: ago and sept


t = -2.6119, df = 9, p-value = 0.02818
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.6421526 -0.1178474
sample estimates:
mean of the differences
-0.88

El resultado indica que hay una diferencia significativa entres las medias
de las dos muestras y concluimos que el aumento en masa entre agosto y
septiembre es significativo.

3 Análisis de Varianza - ANOVA


En la figura a seguir se plantea un ejercicio para comparar dos medias.
Obtenga la tabla ANOVA, realice el análisis en R.

Figura 2: Ejemplo ANOVA un factor

Página 9 de 14
Creamos los dos vectores con las respuestas de medida de colesterol, los
cuales representan las dos poblaciones.
colesterolA<-c(51.3,39.4,26.3,39,48.1,34.2,69.8,31.3,45.2,46.4)
colesterolB<-c(29.6,47,25.9,13.0,33.1,22.1,34.1,19.5,43.8,24.9)

VERIFICACIÓN DE LOS SUPUESTOS DE NORMALIDAD


Para realizar un Análisis de Varianza, las poblaciones deben verificar el supu-
esto de normalidad.
shapiro.test(colesterolA)

Shapiro-Wilk normality test

data: colesterolA
W = 0.9406, p-value = 0.5602

shapiro.test(colesterolB)

Shapiro-Wilk normality test

data: colesterolB
W = 0.9697, p-value = 0.8884

VERIFICACIÓN DE LOS SUPUESTOS DE HOMOCEDASTICIDAD o va-


rianza constante

Se supone que las dos poblaciones tiene varianzas aproximadamente igual.


Para ello se realiza una prueba de hipótesis para probar si las varianzas son
homogénes en las dos poblaciones.

var.test(colesterolA,colesterolB)

F test to compare two variances

data: colesterolA and colesterolB


F = 1.3441, num df = 9, denom df = 9, p-value = 0.6667
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3338537 5.4113109
sample estimates:
ratio of variances
1.344093

Página 10 de 14
Obtención de la Tabla ANOVA
Observación: Una vez que se verifican los supuestos, ahora se pro-
cede a realizar el análisis de varianza

Las hipótesis que se van a contrastar son:

H0 : µcolA = µcolB
H1 :Las medias de colesterol son diferentes

Preparamos los datos para entrar en R como variable respuesta y factor.


La variable respuesta la llamaremos colesterol que incluye a colesterolA y co-
lesterolB. dieta, incluye 10 veces A y 10 veces B.
colesterol<-c(51.3,39.4,26.3,39,48.1,34.2,69.8,31.3,45.2,46.4,29.6,47,25.9,13.0,33.1,22.1,34.1,19.5,43.
colesterol
dieta<- c("A","A","A","A","A","A","A","A","A","A", "B","B","B","B","B","B","B","B","B","B")

Obteniendo las medias y sd de cada población:


tapply(colesterol, dieta, mean)
tapply(colesterol, dieta, sd)

> tapply(colesterol, dieta, mean)


A B
43.1 29.3
> tapply(colesterol, dieta, sd)
A B
12.25479 10.57040

También es útil graficar la población estratificada por el factor:


boxplot(colesterol dieta)
anova<-aov(colesterol dieta)
anova
summary(anova)

> summary(anova)
Df Sum Sq Mean Sq F value Pr(>F)
dieta 1 952.2 952.20 7.2711 0.01476 *
Residuals 18 2357.2 130.96
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1

Cálculo del F teórico en R. Valor teórico de una F con 1 grado de libertad


en el numerador y 18 en el denominador
qf(0.05, 1, 18, lower.tail = F)
4.413873

Página 11 de 14
Figura 3: Ejemplo ANOVA un factor, realizando los cálculos

Preparamos tres vectores:


tiempoM1<-c(15,16,14,15,17)
tiempoM2<-c(14,13,15,16,14)
tiempoM3<-c(13,12,11,14,11)

VERIFICACIÓN DE LOS SUPUESTOS DE NORMALIDAD

shapiro.test(tiempoM1)

Página 12 de 14
shapiro.test(tiempoM2)
shapiro.test(tiempoM3)
VERIFICACIÓN DE LOS SUPUESTOS DE HOMOCEDASTICIDAD o vari-
anza constante

var.test(tiempoM1,tiempoM2)
var.test(tiempoM1,tiempoM3)
var.test(tiempoM2,tiempoM3)

Obtención de la Tabla ANOVA


tiempo<-c(15,16,14,15,17,14,13,15,16,14,13,12,11,14,11)
metodo<-c("M1","M1","M1","M1","M1","M2","M2","M2","M2","M2","M3","M3","M3","M3","M3")

Obteniendo las medias y sd de cada población:


tapply(tiempo, metodo, mean)
tapply(tiempo, metodo, sd)

También es útil graficar la población estratificada por el factor:


boxplot(tiempo metodo)

Las hipótesis que se van a contrastar son:

H0 : µM 1 = µM 2 = µM 3
H1 :Al menos una media es diferente

anova<-aov(tiempo metodo)
anova
summary(anova)

> summary(anova)
Df Sum Sq Mean Sq F value Pr(>F)
metodo 2 26.8 13.4000 9.3488 0.003568 **
Residuals 12 17.2 1.4333
---
Signif. codes: 0 ?***? 0.001 ?**? 0.01 ?*? 0.05 ?.? 0.1 ? ? 1

Cálculo del F teórico en R. Valor teórico de una F con 2 grados de libertad


en el numerador y 12 en el denominador:
qf(0.05, 2, 12, lower.tail = F)
3.885294

Página 13 de 14
Ejercicio. Realizar el análisis de Varianza Completo del siguiente pro-
blema:
Estamos interesados en conocer si hay colores más atractivos para los in-
sectos. Para ello se diseñaron trampas con los siguientes colores: amarillo,
azul, blanco y verde. Se cuantificó el número de insectos que quedaban atra-
pados:
Azul: 16 11 20 21 14 7
Verde: 37 32 15 25 39 41
Blanco: 21 12 14 17 13 17
Amarillo: 45 59 48 46 38 47

Página 14 de 14

S-ar putea să vă placă și