Sunteți pe pagina 1din 20

ASIGNATURA: AMPLIACION DE ESTADISTICA

Titulaci
on: Grado en Tecnologas Industriales
Curso Acad
emico: 2014/2015
Trabajo en grupo. Grupo 3
Alumnos:

Adolfo del Cacho Egea


Juan Jos
e Rojo Ferrer
Javier Ib
aez Gabarr
on
Pedro Antonio Guill
en Caparr
os
Paula Romero Bermejo
Clara Navarro Van Iseghem

Instrucciones: Se resolveran los siguientes problemas con ayuda del programa informatico visto en practicas (R
y R Commander). La nota de este trabajo constituye un 10 % de la nota final de la asignatura para los miembros
del grupo. Se valoraran tanto la exposicion de resultados como los razonamientos y conclusiones asociados a los
mismos. Tambien seran objeto de evaluacion las respuestas proporcionadas a preguntas del profesor.
1. Waugh estudio en 1957 la evolucion de la demanda de la carne de cerdo y de ternera en Estados Unidos durante el perodo 1925-1941. El fichero carne log.txt contiene los datos (tras su transformacion logartimica)
que fueron objeto de estudio.
a) Considerando el logaritmo del consumo de cerdo (ConsCerdo) variable respuesta, Cual sera la primera
variable regresora que entara en el modelo? Pista: Obtener los coeficientes de correlaci
on.
b) Si consideramos un modelo lineal con todas las posibles variables regresoras, Cual sera la primera en
abandonar el modelo? Pista: Observar los p-valores correspondientes a los coeficientes.
c) Seleccionar las variables que se incluiran en el modelo de regresion mediante los metodos de eliminacion
hacia atras y seleccion hacia delante. Especificar el modelo definitivo con los p-valores correspondientes
on se obtiene para la varianza del error?
a cada coeficiente. Calcular el valor de R2 . Que estimaci
d) Para el modelo definitivo comprobar las hip
otesis del modelo de regresion lineal, tanto grafica como
numericamente.

2. El cloro se usa en la depuracion de aguas como agente desinfectante. Este agente se a


nade al agua a tratar
en la cantidad suficiente como para eliminar agentes pat
ogenos evitando el exceso del mismo. Por tanto, es
de interes conocer la cantidad de cloro necesaria en cada tratamiento. En el archivo cloro.txt se encuentran
los datos de demanda de cloro en una planta de tratamiento de aguas residuales durante todo 2008. Nos
interesa conocer si existen diferencias significativas en la demanda de cloro entre las distintas estaciones del
a
no.
Se pide:
a) Cuales son la variable respuesta, el factor, sus niveles? Cuales son las hip
otesis del modelo?
b) Existen diferencias significativas en la demanda de cloro en las distintas estaciones? Presentar la tabla
ANOVA.
c) Cual es el p-valor del test ANOVA?
d) Realizar la verificaci
on de las hip
otesis del modelo mediante graficas de residuos y analisis numericos.
Comentar lo observado.
e) Realizar comparaciones por pares, mostrando graficamente los intervalos de confianza entre pares y
clasificando en grupos. Es logica la clasificacion obtenida?
1

3. En el fichero clas temp2.txt se encuentran los datos correspondientes a la demanda (en miles de unidades)
de un determinado producto. Los datos se han recopilado por trimestres (datos trimestrales), comenzando
en el primer trimestre de 1980.
a) Representa los datos de la demanda en un grafico temporal y comenta los aspectos mas relevantes.
La serie presenta estacionalidad? C
omo diras que es la tendencia?
b) Determina si se trata de un modelo aditivo o multiplicativo (realiza un grafico de desviaciones tpicas
frente a medias para cada a
no).
c) Extrae las componentes de la serie (Tendencia-Ciclo, Estacionalidad e Irregular) y comenta los resultados.
d) Obten un modelo determinista que nos permita realizar predicciones.
e) Con el modelo del apartado anterior, calcula los valores de la serie para los trimestres observados (93
trimestres) y los 8 trimestres siguientes. Es decir, queremos predecir la demanda para los pr
oximos dos
a
nos.
f ) Representa en un mismo grafico la secuencia de la serie observada y de la serie predicha con el modelo
determinista.
g ) Que tecnica de alisado exponencial te parece mas adecuada para analizar esta serie?. Razona tu
respuesta.
h) Aplica la tecnica de alisado que has considerado adecuada, seleccionando como parametros de alisado
aquellos que minimizan la suma de cuadrados de los errores. Determina como quedaran las formulas
recurrentes de las series alisadas e interpreta el significado de los parmetros de alisado obtenidos.
i) Representa en un mismo grafico la serie original y los valores ajustados por el modelo. En otro grafico,
representa los errores de predicci
on (residuos). Comenta los resultados obtenidos.
j) Compara los residuos obtenidos mediante esta tecnica de alisado con los residuos de la descomposicion
clasica y razona que metodo es mas adecuado para realizar predicciones.
k) Realiza una prediccion con el metodo de alisado exponencia de la demanda para los 2 a
nos siguientes.
Representa la serie original y las predicciones en un mismo grafico temporal.

EJERCICIO 1
Cargamos los datos desde formato texto. Tenemos 10 variables. Planteamos un modelo de regresin lineal
ltiple sie do la va ia le expli ada el o su o de a e de e do Co sCe do .

a) Matriz de correlaciones:
Estadsticos-Resmenes-Matriz de correlaciones (seleccionamos todas las variables):

El valor ms alto de correlacin, siendo este el ms cercano a 1, se obtiene para la variable precio de la
carne de cerdo PrecCerdo , lo cual tiene sentido. Esta sera la primera variable en entrar en el modelo.

b) Nuestro modelo lineal tendra la forma:


ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac + IPrecRelatAlim + IRentaDispPC +
IRentaRealDPC + PrecCerdo + PrecTernera
Los p-valores parciales, d. tpica de los residuos, valores de R cuadrado y p-valor del modelo son:
Estadsticos - Ajustes del modelo - Regresin lineal
(cogemos como v. explicativa: ConsCerdo y explicadas las dems)

El p-valor ms alto corresponde a Intercept, variable de posicin del hiperplano.


El p-valor ms alto correspondiente a variables explicativas es IConsAlimPC.
Estas seran las primeras variables en salir del modelo.
c) Utilizando los mtodos de eliminacin hacia atrs y seleccin hacia delante con criterio de
Akaike respectivamente: Modelos->Seleccin paso a paso
Backward:

Forward:

Ambas conducen al mismo resultado: un modelo lineal donde las 9 variables explicativas influyen.
R2 es por tanto el anteriormente calculado, 0.995(99.5% de la variabilidad explicada por los regresores),
mientras que la varianza del error es el cuadrado de su desviacin tpica: S2=0.011832=0.0001399489

d) Procedemos a la comprobacin de hiptesis del modelo. Empezamos por mtodos grficos:


Modelos - Grficas - Grficas bsicas de diagnstico

Vemos que aunque principalmente se cumplen las hiptesis de homocedasticidad(residuos formando una
banda en torno a valores ajustados) y normalidad(cuantiles de la muestra cercanos a cuantiles tericos),
existen observaciones atpicas.
Procedemos ahora a la comprobacin numrica:
Modelos - Diagnsticos numricos - Test Durbin-Watson

(rho=!0)

Durbin-Watson test
data: ConsCerdo ~ ConsTernera + Fecha + IConsAlimPC + IPCAlimentac +
IRentaDispPC + IRentaRealDPC + PrecCerdo + PrecTernera
DW = 2.7775, p-value = 0.702
alternative hypothesis: true autocorrelation is not 0

IPrecRelatAlim +

Segn las tablas:


Los valores crticos para 9 regresores y una muestra de 17 datos son, para un nivel de significacin del 5%:
T K

dL

dU

17. 9. 0.35639 2.75688


No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.
Probamos con un nivel de significacin de 2.5%:
T K

dL

dU

17. 9. 0.29928 2.66621


No hay pruebas para la correlacin positiva; la prueba no es concluyente para correlacin negativa.
Sucesivos niveles de significacin no arrojan nuevos datos sobre la correlacin de los residuos. Pero al estar
los datos ordenados cronolgicamente podemos referirnos al grfico de residuos:
plot(nombredelmodelo$res)

Vemos que forman una nube de datos ms o menos dispersa que no sigue ningn patrn claro. Asumimos
la hiptesis de independencia de los residuos.
Para la normalidad, procedemos con el test de Shapiro-Wilks:
shapiro.test(nombredelmodelo$res)
Shapiro-Wilk normality test
data: RegModel.1$res
W = 0.95879, p-value = 0.6088
Este test contrasta la hiptesis nula de normalidad de datos numricos (en nuestro caso residuos de un modelo
ajustado). Como el p-valor es muy alto, no rechazamos la hiptesis nula. Esto confirma la hiptesis de normalidad
de los residuos.
No se puede comprobar la hiptesis de homocedasticidad numricamente si no hay repeticin de datos para las
mismas variables explicativas. Como los datos son variables continuas, no podemos aplicar el test de Levenne. La
homocedasticidad slo puede comprobarse grficamente.

Comprobamos que existen problemas de colinealidad (algunas variables explicativas dependen unas de
otras). Esto puede observarse realizando el determinante de la matriz de varianzas-covarianzas (cambiar
cor por cov en la matriz de correlaciones y almacenar esa matriz como variable, det(nombre de la
matriz)), el cual es igual a 5. 79 5ee a o a e o, sig ifi a ue existe oli ealidad , o ie
representando la matriz de diagramas de dispersin(Grficas->Matriz de diagramas de dispersin), en el
que se ven relaciones claras de dependencia lineal entre alguna variable u observando la matriz de
correlaciones, la cual tiene valores absolutos altos entre algunas variables explicativas. Podramos utilizar
en la seleccin paso a paso otro criterio con ms significacin, como por ejemplo el basado en los
estadsticos F parciales, seleccionando un F de entrada y uno de salida(generalmente F en=Fsal), y siguiendo
los mismos pasos del criterio AIC. El procedimiento termina cuando no se puede incluir ninguna variable
ms porque su F parcial es menor que la de entrada y ninguna puede extraerse porque su F parcial es
mayor que la de salida. Esto aumentara los residuos y disminuira el R2 (criterio menos potente), pero el
modelo resultara ms sencillo, con menos variables.
Nota: Para Reg. Lineal mltiple, un mtodo de seleccin de modelos es ms significativo cunto menos
probabilidad hay de incluir variables en el modelo, y esto implica que sea menos potente (ms
probabilidad de desechar variables que realmente importen). Hay que buscar un equilibrio entre
significacin y potencia. En este caso se ha comprobado que las variables explicativas dependan unas de
otras, podra ser interesante utilizar otro mtodo de seleccin como el ya mencionado.

Re o da do ue la va ia le Co sCe do e a loga t i a, el

odelo fi al se a:

Consumo de carne de cerdo=e(-0.9*ConsTernera


1.1*IConsAlimPC
-

11.35*IPCAlimentac

11.6RentaRealDPC

+ 11.41*IPrecRelatAlim

0.42*PrecCerdo

0.007*Fecha

+ 11.34*IRentaDispPC

0.62PrecTernera)

EJERCICIO 2
Introducir los datos desde el portapapeles y poner tabuladores.
a) Factor: estacin del ao
Respuesta: cantidad de cloro necesaria en cada tratamiento
Niveles: 4 niveles (k=4) -> invierno= , primavera= , verano= e invierno=
Hiptesis del modelo:

: = = = (no influye la estacin del ao)

: algn

b) Estadsticos -> medias -> anova para un factor (factor: estacin y variable: cloro)

Es ANOVA de un factor ya que solo estamos evaluando la demanda de cloro en las distintas estaciones (las
fechas no influyen).
En la tabla se muestran las sumas de cuadrados, grados de libertad y medias cuadrticas para el factor y los
residuos, as como el estadstico F (en este caso F = 60.25) y el p-valor asociado al test de hiptesis.
Encontramos un p-valor muy pequeo (p-valor = <2x10-16), con lo que podemos rechazar la hiptesis
nula y afirmar con mucha confianza que existen diferencias significativas en la demanda de cloro en las
distintas estaciones. De esta informacin podemos obtener tambin la estimacin de la varianza del
modelo (que sabemos que es la media cuadrtica residual, con un valor de 0.72).
(Calculamos tambin el valor de F de forma manual, por comprobar los resultados obtenidos con R
Commander; pero no podamos calcular nuestra F tomando un valor directamente de las tablas, porque
nuestro n-k es 290 y en la tabla aparece 200 e .
Hemos considerado que no es necesario obtener dicho valor F equivalente a F290, 0 , ya ue to a do
tanto 200 como os da valo es pa a F de: 2
y 2 0
espe tiva e te; y la F al ulada edia te
la ta la ANOVA es de 02 , po ta to pode os afi a o total otu didad ue se va a e o t a e la
regin de rechazo, lo que significa que vamos a rechazar la hiptesis nula.)

c) Encontramos un p-valor muy pequeo (p-valor = <2x10-16): sacado de la tabla ANOVA

d) Analizando grficamente: Modelos -> grficas -> grficas bsicas para el diagnstico

aov(Demanda_Cl ~ Estacion)

3.5

4.0

Fitted values

4.5

4
0

229
126
214

-2

2
1
0
-2 -1

Residuals

229
126
214

3.0

Normal Q-Q
Standardized residuals

Residuals vs Fitted

-3

-2

-1

Theoretical Quantiles

Nos interesan las dos grficas de la parte superior. En la de la izquierda podemos observar los residuos
frente a las medias (o valores ajustados). Como no se observa ningn patrn seguido por los datos,
podemos decir que se cumple la homocedasticidad (=se acepta la igualdad de varianzas, hiptesis nula).
En el grfico de la derecha aparece un grfico cuantil-cuantil (Q-Q plot) de los residuos, en el que se
observa una tendencia lineal, que nos lleva a poder decir que tambin se est cumpliendo la hiptesis de
normalidad.
Analizando numricamente: Estadsticos -> Varianzas -> Test de Bartlett / Test de Levene

En ambos test numricos el p-valor obtenido (barlett: 2.049e-06 y levene: 0.0002851) es muy inferior al
alfa=0.05 por lo que no podemos aceptar la igualdad de varianzas y confirmamos que no hay
homocedasticidad.
Para el chequeo numrico de la hiptesis de normalidad debemos utilizar los residuos Podemos aplicar un
test de normalidad de Shapiro-Wilks y/o de Kolmogorov-Smirnov a los residuos:
Estadisticos -> resmenes -> test de normalidad de shapiro-wilks

ks.test(AnovaModel.n$res,pnorm,mean(AnovaModel.n$res),sd(AnovaModel.n$res))

Se obtiene, para los test de Shapiro-Wilks un p-valor de 5.604e-07 y para el de kolmogorov 0.09149. Al
tratarse de un p-valor bajo, rechazamos la hiptesis de que los residuos siguen una distribucin normal.
Aunque los mtodos grficos y numricos se contradigan siempre debemos tener en cuenta antes los
numricos. Los mtodos grficos pueden estar afectados por unos datos atpicos que nos lleven a tomar
esa conclusin. Aun as para asegurarnos podemos realizar dos grficas mas, un histograma y un diagrama
de cajas y bigotes: Grficas -> histograma

30
20
10
0

frequency

40

50

diagrama de caja

Demanda_Cl

3
2
1
0
-1
-2

Como podemos observar en el histograma una cola a la derecha que se corresponden con los datos
atpicos del diagrama de cajas y bigotes, para llegar a una conclusin clara deberamos eliminarlos y volver
a realizar estos test.
Aunque este sea un caso dudoso debido a los p-valores tan bajos podemos llegar a la conclusin de que
no hay igualdad de varianzas ni normalidad.
Para comprobar la hiptesis de independencia, que debera cumplirse si el diseo del experimento es
adecuado, realizamos un test de Durbin-Watson. Elegimos como hiptesis alternativa la bilateral:
Modelas -> Diagnsticos numricos -> Test de Durbin-Watson para autocorrelacin

Luego no rechazamos la hiptesis nula (que haya independencia)

e) Estadisticos -> medias -> anova de un factor (marcar la casilla de comparaciones 2 a 2)

95% family-wise confidence level

OTOO - INVIERNO

RIMAVERA - INVIERNO

VERANO - INVIERNO

PRIMAVERA - OTOO

VERANO - OTOO

ERANO - PRIMAVERA

-0.5

0.0

0.5

1.0

1.5

2.0

Linear Function

Si lo ordenamos respecto a la media mas alta, que mirando la tabla anova del apartado b sabemos que la
mayor demanda es en verano (a), luego otoo y primavera (b) y por ltimo invierno (c), lo cual es un
resultado lgico.

EJERCICIO 3

Al cargar los datos, hay que poner en el carcter decimal comas.


Primero tenemos que generar una serie de datos en formato fecha.
Para ello usamos los comandos ts:

clas_temp2.ts<-ts(clas_temp2$V1,start=1980,frequency=4)
Los datos se han recopilado por trimestres (datos trimestrales), comenzando
en el primer trimestre de 1980. (La frecuencia por tanto es 4, ya que en un ao hay 4
trimestres)
Para la grfica:

plot(clas_temp2.t
s)

A grandes rasgos,
la demanda ha ido
creciendo con los
aos.
Tendencia: lineal y
creciente.
Estacionalidad:
presenta
estacionalidad,
todos los aos se
repite el mismo
patrn. (especie de
rayo de Harry
Potter)

b)

Aqu usaremos dos funciones: mean para calcular las medias y sd para calcular las
desviaciones tpicas.
medias<-aggregate(clas_temp2.ts,FUN=mean)
desviaciones<-aggregate(clas_temp2.ts,FUN=sd)
Para que el grfico salga de forma adecuada:
plot(medias[1:23.25],desviaciones[1:23.25])

23.25 porque son 23 aos y un cuarto, es decir, 23 aos y un trimestre. Es aditivo.


= + +

c) clas_temp2.dec<-decompose(clas_temp2.ts,type="additive")
Despus tenemos que escribir clas_temp2.dec para que nos aparezcan los resultados.
Comentar que en las componentes tendencia-ciclo e irregular, aparece NA tanto en los
dos primeros datos como en los dos ltimos. Esto es debido a que en el procedimiento
se han calculado las medias mviles centradas de orden L=2p=4 y por tanto se han perdido
p=2 datos por arriba y por abajo. La series suavizada tendr 2p datos menos que la
original.
plot(clas_temp2.dec)

Estacionalidad: hay estacionalidad. Cada ao se repite el mismo patrn.


Tendencia-ciclo: creciente y lineal. Est suavizada y no tiene picos como en la grfica
de las observaciones.
Irregular: no sigue ningn patrn. La media terica de los datos es 0, y por ellos
sabemos que la serie temporal es un ruido blanco.
En el ao 1991 en concreto, hubo una crecida muy pronunciada de la demanda, que se
ve reflejada en las grficas observada y tendencia. (curva en medio)

d) El modelo determinista permite predecir las observaciones futuras en funcin de


las observaciones pasadas.
Creamos una nueva variable que represente al regresor tiempo.
Ponemos 93 porque son el nmero de datos que tenemos.
Tendencia.
tiempo<-1:93
(tendencia temporal)
Tt<-clas_temp2.dec$trend
Vamos a realizar un ajuste lineal, puesto en la grfica anterior, la componente
tendencia parece lineal.
RegModel.3 <- lm(Tt~tiempo)
summary(RegModel.3)

Se han eliminado 4 observaciones por estar ausentes, las correspondientes a los 4 datos
perdidos por calcular las medias mviles de orden 4.
La componente Tendencia-Ciclo podra modelarse segn la expresin:
=

+ .

La parte determinista de la serie temporal es: (por ser tendencia lineal)


=

+ .

E y f)
Se escribe 1:101, porque son 93 datos + 8 trimestres que queremos predecir.
estimado<(67.60528+0.73621*(1:101))+c(clas_temp2.dec$seasonal,clas_temp2.dec$seasonal[1:
4])
Se pone 1:4 porque 4 es el perodo. (IMP: el + se pone por ser modelo aditivo)
estimado [94:101] (En estimado se pone 94, porque tenemos 93 datos y queremos
empezar a predecir a partir del 94, es decir, del dato que ya no tenemos; y 101 porque
es el ltimo dato que queremos predecir).
> estimado[94:101]
[1] 134.4638 137.9325 137.4289 141.8281 137.4087 140.8774 140.3737 144.7730
plot(1:101,estimado, type="l", col = "red")
lines(tiempo,clas_temp2$V1,type="l")

g)
Al considerar que la serie tiene estacionalidad, necesitamos un mtodo de alisado
exponencial triple. El nico estudiado es el mtodo de Holt-Winters para modelos
aditivos, porque presenta estacionalidad, y el grfico de desviaciones tpicas frente a
medias no sigue ningn patrn.
h) Esta es la funcin que nos permite aplicar el mtodo de Holt-Winters sobre nuestra
serie temporal.
a,seaso al=additive)

HoltWinters(x,alpha,beta,ga

Para elegir los parmetros de alisado que minimicen la suma de cuadrados de los
errores, como pide en el enunciado, lo que hay que hacer es no especificar valores
para los parmetros de alisado.
clas_temp2.hw<-HoltWinters(clas_temp2.ts,seasonal="additive")
clas_temp2.hw
La estimacin del nivel en el intstante t:
Xt ) + (1 0.41) ( 1 + 1 )
= .
La estimacin de la pendiente:

= 0.43 (

1 )

+ (1 0.43 )

La estimacin del factor estacional :


= . Xt ) + (1 0.54 )

(En la L debemos poner nuestro perodo, que es 4)


Interpretacin de los parmetros:
Alfa > Cuando alfa toma el valor 1, se utiliza exclusivamente la observacin ms reciente;
cuando alfa toma el valor 0, las observaciones antiguas cuentan con tanto peso como las
recientes.
Gamma

. ->Los valores prximos a 1 indican un mayor peso para los valores recientes.

Delta . ->Los valores prximos a 1 corresponden a un mayor peso para las observaciones
recientes.

No estn muy prximos a 1, por lo tanto los valores recientes no tienen ms peso que
los antiguos, pero tampoco tienen todos el mismo peso.

i)

plot(clas_temp2.hw)

residuals(clas_temp2.hw)
plot(residuals(clas_temp2.hw))
Obteniendo:

Podemos observar que, salvo algn dato atpico, los residuos se sitan en una banda
ms o menos estrecha en torno al 0. El modelo alisado predice bastante bien la serie.

j) Comparamos las sumas de cuadrados:


Anlisis clsico:
Residuos2<-(clas_temp2$V1-estimado[1:93])
sum(residuos2^2)
> sum(residuos^2)
[1] 975.1697
Holt Winters: sum(residuos^2)
> sum(residuos^2)
[1] 89.70172
Observamos que el sumatorio de los residuos al cuadrado es menor en el mtodo de
Holt-Winters, por lo tanto es ms adecuado para realizar predicciones.
k)
La prediccin para los 2 aos siguientes es:
predict(clas_temp2.hw,n.ahead=8)
En ahead se pone el tiempo que quieres predecir en forma de perodo, es decir, 2 aos son
8 trimestres.
Para la grfica:

En el intervalo ponemos los aos de los datos que tenemos, y los aos que queremos
predecir. Los datos van hasta el primer trimestre de 2003.

plot(clas_temp2.ts,xlim=c(1980,2005))
lines(predict(clas_temp2.hw,n.ahead=8),col=red)

S-ar putea să vă placă și