Documente Academic
Documente Profesional
Documente Cultură
Curso 2014/15
Bloque II: Metodos estadsticos
Contenidos
H0 : = 1. 80.
H1 : 6= 1. 80.
p,
!
La tecnica del p-valor ha revolucionado la forma de realizar contrastes de hipotesis.
Esto es debido al incremento de la potencia de calculo de cuantiles de cualquier
distribucion de probabilidad, incremento que es posible a la implementacion de
tecnicas numericas al servicio de la Inferencia estadstica en cualquier ordenador.
!
Un contraste de hipotesis esta disenado para rechazar una hipotesis estadstica.
Desde ese punto de vista, el p-valor, que es una probabilidad, es mas significativo
cuanto mas pequeno es; es decir, si esta proximo a cero es muy significativo y si esta
proximo a uno es nada significativo.
!
Debido al criterio de comparacion con un nivel de significacion, cuanto mas pequeno
es el p-valor mayor es la cantidad de niveles de significacion que permiten rechazar la
hipotesis nula.
El p-valor
La tecnica basica en todos los contrastes de hipotesis para aceptar o rechazar una
hipotesis estadstica se basa en la comparacion de la realizacion h del estadstico de
prueba del contraste con los cuantiles de la variable aleatoria que gobierna la
distribucion del estadstico de prueba a un cierto nivel de significacion.
En estas condiciones, el p-valor del contraste es
el estadstico del contraste alcance el valor de la
p=P H0 es cierta ,
realizacion del estadstico de prueba o valores mayores
o mas precisamente,
p = P || h/H0 es cierta .
!
El p-valor permite decidir si las diferencias entre los valores observados y la hipotesis
nula son atribubles al azar (de acuerdo a la variacion del modelo probabilstico
propuesto), o bien se deben a la falsedad de la hipotesis nula.
!
Cuanto mas pequeno sea el p-valor que proporciona el contraste a partir de la
muestra mas significativo es desde el punto de vista estadstico porque se puede
rechazar la hipotesis nula para un intervalo de niveles de significacion mayor
(p, 1].
Por el contrario, cuanto mas grande sea el p-valor, este se convierte en menos
significativo desde el punto de vista estadstico: permite rechazar la hipotesis nula
para un intervalo menor de niveles de significacion.
!
El uso de programas de analisis estadstico esta muy extendido. Por esa razon la
extraccion de conclusiones estadsticas mediante contrastes de hipotesis se basa muy
frecuentemente en el p-valor. No obstante existen casos en los que el p-valor puede
conducir a conclusiones erroneas. En esos casos, la toma de decisiones puede resultar
mas acertada si se hace a partir del intervalo de confianza. R proporciona el p-valor e
intervalo de confianza, dejando al usuario extraer conclusiones a partir de uno u otro.
[[2]]
[1] 409 411 412 413 417
Fuentes de informacion
La principal fuente de informacion que permite abordar la importacion desde otros
programas que almacenan y manipulan datos es el enlace titulado
R Data Import/Export
disponible en la portada del sistema de ayuda del programa.
R permite importar datos desde muchos programas que almacenan datos. Se
presentaran brevemente algunos modos de importacion de datos de ficheros
de texto, caracterizados habitualmente por su extension .txt o .csv.
hojas de calculo Excel, caracterizados habitualmente por su extension .xls o
.xlsx.
de datos de SPSS, caracterizados habitualmente por su extension .sav.
!
La forma mas facil de importar grandes cantidades de datos a R es preparar un
fichero de texto (un fichero .csv se puede crear y rellenar con un paquete ofimatico
libre), en el que los decimales esten delimitados por el punto (.) y no por la coma (,).
!
RStudio permite importar datos desde ficheros de texto facilmente.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 20 / 102
Almacenamiento, manipulacion e importacion datos con R
a
Disponible despues de cargar el paquete xlsx de R
a
Disponible despues de cargar los paquetes foreign y Hmisc de R
b
Tambien se puede usar la orden spss.get
Ordenes de R
Los contrastes de una y dos muestras presentados estan dedicados a proporciones e
igualdad de proporciones, igualdad de varianzas y medias y diferencia de medias. Estos
tres tipos contrastes se realizan por medio de las tres sentencias siguientes
Resulta obligado acompanar estas sentencias del nivel de confianza elegido y de la hipo-
tesis alternativa. Ambas posibilidades se introducen mediante modificadores anadidos
dentro de las sentencias anteriores.
!
Explorar y experimentar con la sentencia binom.test de R.
!
La prueba de igualdad de varianzas es una obligacion previa al contraste de
diferencia de medias de dos poblaciones normales independientes.
data: x and y
F = 0.3, num df = 34, denom df = 38, p-value = 0.0005208
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.15 0.58
sample estimates:
ratio of variances
0.3
Como el p-valor del contraste, p = 5. 208 104 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 29 / 102
Contrastes de hipotesis de una y dos muestras con R
data: x and z
F = 1.1, num df = 34, denom df = 38, p-value = 0.7518
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.57 2.17
sample estimates:
ratio of variances
1.1
!
El valor por defecto para el modificador paired en el comando t.test es FALSE, por
tanto no es necesario utilizarlo cuando se contrastan poblaciones independientes.
data: x and y
t = -1.7, df = 60, p-value = 0.09137
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-7.05 0.54
sample estimates:
mean of x mean of y
8.7 12.0
Como el p-valor del contraste, p = 9. 137 102 , es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
data: x and z
t = 2.6, df = 72, p-value = 0.01162
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.76 5.81
sample estimates:
mean of x mean of y
8.7 5.5
Como el p-valor del contraste, p = 1. 162 102 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
data: y and z
t = 0.8188, df = 38, p-value = 0.418
alternative hypothesis: true difference in means is not equal to 5
95 percent confidence interval:
2.732202 10.348311
sample estimates:
mean of the differences
6.540256
Como el p-valor del contraste, p = 0. 4180, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
!
El programa R no tiene implementado el contraste para el valor de una media donde
la varianza de la poblacion normal es conocida, como tampoco tiene implementado el
contraste sobre el valor de la varianza de una poblacion normal.
!
Explorar y experimentar con la sentencia poisson.test de R.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 35 / 102
Contrastes de hipotesis de una y dos muestras con R
data: x
t = 3.9642, df = 34, p-value = 0.0001794
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
7.150123 Inf
sample estimates:
mean of x
8.749429
Como el p-valor del contraste, p = 1. 794 104 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
Contraste de homogeneidad
De dos experimentos tipo Bernoulli se han realizado 100 intentos con 27 y 19 exitos
respectivamente. Se pretende contrastar si las proporciones de exito son la misma
en ambos experimentos o si son distintas. Este contraste se puede presentar como un
contraste de homogeneidad donde la poblacion total se divide en dos grupos, resultados
del primer y del segundo experimento, B1 y B2 , y la caracterstica X se agrupa en exitos
y fracasos, A1 y A2 . Por tanto el contraste
(
H0 : todas las muestras son homogeneas respecto de la variable
H1 : alguna muestra es diferente
data: Tabla
X-squared = 1.8069, df = 1, p-value = 0.1789
Como el p-valor del contraste, p = 0. 1789, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
data: Tabla
X-squared = 1.3834, df = 1, p-value = 0.2395
> prop.test(c(27,19),c(100,100),alternative="two.sided",conf.level=0.95,correct=TRUE)
2-sample test for equality of proportions with continuity correction
!
En el caso de un modelo probabilstico para una proporcion presentado como el
numero de exitos y fracasos, este contraste coincide con el contraste sobre una
proporcion sin correccion de continuidad.
El contraste
H0 : el modelo probabilstico propuesto para la variable aleatoria es correcto
H1 : el modelo probabilstico propuesto no es correcto
data: frecuenciasobservadas
X-squared = 16.6113, df = 1, p-value = 4.588e-05
data: frecuenciasobservadas
X-squared = 16.6113, df = 1, p-value = 4.588e-05
Como el p-valor del contraste, p = 4. 588 105 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
!
Para contrastar proporciones, el contraste de bondad de ajuste coincide con el
contraste sobre una proporcion sin correccion de continuidad resuelto mediante el
comando prop.test (vease la trasparencia 25).
data: longitudesobservadas
X-squared = 10.8583, df = 4, p-value = 0.0282
!
Como los parametros de la normal estan dados en el modelo los grados de libertad
del estadstico son los que indica el programa, numero de clases menos uno: cuatro.
data: longitudesobservadas
X-squared = 1.4414, df = 4, p-value = 0.837
Como se han hecho dos estimaciones sobre los parametros de la normal los grados del
estadstico de prueba indicados por el programa no son correctos. En este caso son dos,
cinco clases menos dos parametros estimados menos uno.
!
Se debe prestar atencion a la hora de determinar los grados de libertad en los
contrastes de bondad de ajuste mediante una 2 .
!
Los contrastes estan disenados para rechazar la hipotesis nula, pero este se produce
cuando los datos proporcionan evidencias estadsticas que contradicen fuertemente la
hipotesis nula. Muchas son las distribuciones que son susceptibles de gobernar una
variable de la que se posee una muestra, por lo tanto al igual que en el resto de los
contrastes, los datos deben ladrar para descartar un modelo probabilstico.
Contraste de Kolmogorov-Smirnov
El comando rpois va a generar una muestra aleatoria de una variable Poisson P (15)
> poisson<-rpois(25,15)
> table(poisson)
poisson
6 10 12 13 14 15 16 17 18 19 21 25
1 1 2 1 1 7 3 3 2 2 1 1
data: poisson
D = 0.2358, p-value = 0.1241
alternative hypothesis: two-sided
!
Como proceder cuando los contrastes de Kolmogorov-Smirnov y de Lilliefors para la
normalidad de una variable aleatoria proporcionan resultados contradictorios? Se
atreve usted a indagar en busca de la respuesta?
Contraste de Lilliefors
Dada la muestra anterior llamada poisson se procede a realizar el contraste de nor-
malidad de Lilliefors
H0 : la variable aleatoria sigue una distribucion normala
H1 : la variable aleatoria no sigue una distribucion normal
data: poisson
D = 0.132, p-value = 0.3151
Como el p-valor del contraste, p = 0. 3151, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
a
La media y varianza de esta distribucion normal coinciden con la media y la
varianza de la muestra dada
data: poisson
D = 0.132, p-value = 0.7761
alternative hypothesis: two-sided
En este caso ambos contrastes dan lugar a la misma decision estadstica. Notar que
ambos contrastes tienen la misma realizacion del estadstico pero diferentes p-valores.
Contraste de Shapiro-Wilks
Este proceso de comparacion comparte con el contraste de Lilliefors su diseno especfico
para determinar la normalidad de una variable aleatoria, y desde el punto de vista de
R, su sencillez en la ejecucion, basta aplicar shapiro.test a la muestra dada.
> shapiro.test(poisson)
Shapiro-Wilk normality test
data: poisson
W = 0.9468, p-value = 0.2126
2 1 0 1 2
Cuantiles teoricos
!
Otra prueba muy extendida para establecer la condicion de homocedasticidad de
varianzas es el contraste de Levene, mas recomendable que el contraste de Bartlett si
no se puede establecer con rotundidad la normalidad de los datos.
!
Ah, es que hay mas contrastes? Claro! La Estadstica esta en constante crecimiento.
Contraste de Bartlett
Para ilustrar los metodos ANOVA se generaran cinco muestras aleatorias normales
de distintos tamanos llamadas muestra1, muestra2, muestra3, muestra4 y muestra5.
Dado el modelo de probabilidad elegido se omiten los contrastes de normalidad de las
muestras. Las ordenes siguientes generan las muestras anunciadas
> muestra1<-rnorm(100,10,10)
> muestra2<-rnorm(105,9.8,10.5)
> muestra3<-rnorm(102,9.7,9.8)
> muestra4<-rnorm(107,4,10)
> muestra5<-rnorm(104,3,5)
Contraste de Bartlett (y V)
A la luz de los p-valores de los contrastes anteriores, 3. 695 1011 y 0. 4389, a nivel de
significacion = 0. 05, se rechaza la igualdad de varianzas entre las distribuciones que
gobiernan la primera y la quinta muestra y no se rechaza la igualdad de varianzas entre
la primera y la tercera. Por tanto, se realizara una prueba de Bartlett para contrastar
(
H0 : 12 = 22 = 32 = 42 .
H1 : existen i , j {1, 2, 3, 4} tal que i2 6= j2 .
!
El analisis anterior para determinar que varianzas satisfacen la condicion de
homocedasticidad nunca puede sustituir al rigor inherente a un contraste de
hipotesis, en el caso de interes, el contraste de Levy.
El comando que permite este contraste es anova, cuya respuesta se completa con la
que proporciona el comando aov.
El tamano de las muestras involucradas no tiene que ser constante pero para utilizar
los comando de R s deben ser iguales. Para ello se debe completar cada muestra hasta
el tamano de la mayor con el dato NA, que es la forma que tiene el programa de indicar
que falta ese dato (esta inclusion no altera los resultados de la pruebas).
Comparacion de medias
Tras establecer la homogeneidad de las varianzas de las distribuciones que gobiernan
las cuatro primeras variables se procede a contrastar la homogeneidad de sus medias.
(
H0 : 1 = 2 = 3 = 4 .
H1 : existen i , j {1, 2, 3, 4} tal que i 6= j .
Las siguientes sentencias permiten, completando las muestras dadas mediante la indi-
cacion de datos desaparecidos (Not Available / Missing Values), obtener muestras
del mismo tamano.
> m1<-c(muestra1,rep(NA,7))
> m2<-c(muestra2,rep(NA,2))
> m3<-c(muestra3,rep(NA,5))
> m4<-muestra4
!
El comando rep aplicado sobre una par (a,b), repite el caracter a tantas veces como
indica el contador b.
$m2
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-14.180 1.442 9.107 8.742 17.670 32.770 2
$m3
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-20.0600 0.6353 9.5320 9.1730 16.0800 35.5000 5
$m4
Min. 1st Qu. Median Mean 3rd Qu. Max.
-22.670 -2.040 3.241 3.608 10.370 29.450
!
El comando gl (del ingles generate factor levels), permite definir los factores o
niveles. Los dos numeros que acompanan a la orden indican el numero de factores y
el tamano de cada uno de ellos.
Response: coleccion
Df Sum Sq Mean Sq F value Pr(>F)
niveles 3 2459 819.76 7.3383 8.407e-05 ***
Residuals 410 45801 111.71
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Terms:
niveles Residuals
Sum of Squares 2459.29 45801.38
Deg. of Freedom 3 410
!
Solamente falta ilustrar los contrastes de comparacion multiple de Tukey y de
Student-Newman-Keuls para detectar diferencias entre las medias.
!
Gracias al modelo lineal creado ejecutar el contraste de homogeneidad de varianzas
de Levenea es tambien muy sencillo como revela la sentencia siguiente
> leveneTest(modelo)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 0.5143 0.6727
410
a
Disponible despues de cargar el paquete car de R
$niveles
diff lwr upr p adj
m2-m1 -0.7817061 -4.591326 3.027914 0.9519367
m3-m1 -0.3502205 -4.187072 3.486631 0.9953998
m4-m1 -5.9152789 -9.707491 -2.123067 0.0003956
m3-m2 0.4314857 -3.358956 4.221927 0.9911796
m4-m2 -5.1335728 -8.878822 -1.388323 0.0025456
m4-m3 -5.5650585 -9.338004 -1.792113 0.0009371
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 69 / 102
Metodos ANOVA con R
m2m1
m3m1
m4m1
m3m2
m4m2
m4m3 95% familywise confidence level
8 6 4 2 0 2 4
Differences in mean levels of niveles
m4
m3
m2
m1
30 20 10 0 10 20 30
coleccion
. . . fruto de la orden
> stripchart(coleccion~niveles)
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 72 / 102
Metodos ANOVA con R
Contraste de Student-Newman-Keuls
La aplicacion de este contraste sobre las cuatro medias de interes arroja el resultado
> SNK.test(modelo,"niveles",alpha=0.05)
Study:
continua ...
Critical Range
2 3 4
2.889158 3.457194 3.791327
. . . y no se han hecho todas las posibles pruebas de diferencia de medias dos a dos . . .
!
El comando summary aplicado al modelo lineal que determina la muestra, lm(y~x),
tambien permite obtener la respuesta de este contraste.
data: datosregresion
Bartlett's K-squared = 1.687, df = 3, p-value = 0.6399
porque el p-valor no es significativo.
Tambien superan de foma individual las pruebas de normalidad de Lilliefors como
revelan la secuencia de contrastes siguientes (observese que ninguno de los p-valores
proporcionados por ellos es significativo).
> lillie.test(x)
Lilliefors (Kolmogorov-Smirnov) normality test
data: x
D = 0.1327, p-value = 0.1122
data: y
D = 0.1293, p-value = 0.1335
> lillie.test(z)
Lilliefors (Kolmogorov-Smirnov) normality test
data: z
D = 0.092, p-value = 0.6165
> lillie.test(t)
Lilliefors (Kolmogorov-Smirnov) normality test
data: t
D = 0.1158, p-value = 0.2569
Por tanto las muestras satisfacen todas las condiciones exigidas por las pruebas intro-
ducidas sobre regresion.
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 670 670 193 1.4e-15 ***
Residuals 34 118 3
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Como el p-valor del contraste, p = 1. 4 1015 , es extremadamente significativo se
rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 83 / 102
Contraste de hipotesis sobre regresion lineal con R
Residuals:
Min 1Q Median 3Q Max
-3.597 -1.434 0.332 1.189 3.469
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2481 0.7227 -0.34 0.73
x 1.0587 0.0762 13.90 1.4e-15 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
data: residuos
W = 0.964, p-value = 0.2852
Grafico QQ de normalidad
Cuantiles muestrales
1 2 3
1
3
2 1 0 1 2
Cuantiles teoricos
0 5 10 15 20
Valores ajustados
!
Este contraste proporciona la misma respuesta sobre el rechazo o no de la hipotesis
nula que el contraste sobre la pendiente de la recta de regresion de dos poblaciones.
data: x and y
t = 13.9, df = 34, p-value = 1.332e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.852 0.960
sample estimates:
cor
0.922
Como el p-valor del contraste, p = 1. 332 1015 , es menor que el nivel de significacion
= 0. 05, p > , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
5 10 15 20 5 0 5 10 15
15
10
x
5
0
20
15
y
10
5
10
5
z
0
5
15
10
5
t
0
5
0 5 10 15 5 0 5 10
data: x and z
t = 1.33, df = 34, p-value = 0.1916
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.114 0.514
sample estimates:
cor
0.223
0 5 10 15
x
0 5 10 15
x
!
Las cuentas de R son las formulas de siempre!
!
Si consigue establecer las conexiones entre las
tecnicas tradicionales y las tecnicas modernas,
que problema estadstico se le resistira?