Documente Academic
Documente Profesional
Documente Cultură
DE
OVIEDO
Unidad de Consultora
Estadstica
Curso Avanzado del Paquete Estadstico R
Introduccin a la modelizacin estadstica
1201B
U N I O V I
C
E
Unidad de Consultora
Estadstica
Coordinador:
Emilio Torres Manzanera
Departamento de Estadstica e Investigacin Operativa y Didctica de la Matemtica
Universidad de Oviedo
E.U. Jovellanos - Campus de Viesques
torres@uniovi.es
Han colaborado en la elaboracin de este material docente: Susana Montes Rodrguez, Ignacio
Montes , Pelayo Izquierdo Garca, Tania Iglesias Cabo, Patricia Daz Daz.
Universidad de Oviedo
Unidad de Consultora Estadstica
http://uce.uniovi.es
c/ Luis Moya 261- 33203 Gijn- Spain
Tel. 985 182061
email: uce@uniovi.es
Se concede permiso para copiar, distribuir o modificar este documento bajo los trminos de la
Licencia de Documentacin Libre de GNU, versin 1.3 o cualquier otra versin posterior publicada por la Free Software Foundation; sin Secciones Invariantes ni Textos de Portada ni Textos de
Contraportada.
Unidad de Consultora
Estadstica
ndice
1. Iniciar R-Commander
2. Conceptos bsicos
2.1. Anlisis descriptivo . . . .
2.2. Variable cualitativa-nominal
2.3. Cuantitativa-discreta . . .
2.4. Cuantitativa-continua . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
8
9
3. Contrastes de hiptesis
3.1. Introduccin . . . . . . . . . . . . . . .
3.2. Tests para el promedio . . . . . . . . .
3.3. Comparacin de dos promedios . . . .
3.4. Comparacin de dos varianzas . . . . .
3.5. Test para la proporcin . . . . . . . . .
3.6. Comparacin de dos proporciones . . .
3.7. Relaciones entre variables . . . . . . .
3.8. Comparacin de ms de dos promedios
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
13
17
22
24
27
28
30
4. Regresin lineal
4.1. Modelizacin estadstica . . . . .
4.2. Modelo de regresin lineal simple
4.3. Transformaciones de variables . .
4.4. Regresin lineal mltiple . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
43
50
57
5. Anlisis de la varianza
5.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales . . . . . . . . . .
5.2. Modelo lineal con un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Interacciones entre factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
64
64
68
6. Anlisis de la covarianza
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2. El consumo de energa segn la produccin de TBC y la lnea.
6.3. Variables indicadoras . . . . . . . . . . . . . . . . . . . . . . .
6.4. Modelo completo . . . . . . . . . . . . . . . . . . . . . . . . .
73
73
74
78
82
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7. Redaccin de un artculo
95
8. Ejercicios
99
A. Bases de datos
105
A.1. Produccin de acero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2. Consumo de alcohol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Unidad de Consultora
Estadstica
1.
Iniciar R-Commander
Figura 2: R-Commander
Unidad de Consultora
Estadstica
Para abrir una base de datos, accedemos al men de Datos (Fig.3) y si deseamos trabajar con un
fichero con el formato nativo de R (.rda), escogemos la opcin Cargar conjunto de datos
(Fig. 4).
Unidad de Consultora
Estadstica
2.
2.1.
Conceptos bsicos
Anlisis descriptivo
La estadstica descriptiva es la parte de la Estadstica que se dedica a resumir los datos. Este anlisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obtenidas tras el
anlisis descriptivo proporcionan un poder de inferencia mnimo, pero facilitan la utilizacin de tcnicas ms avanzadas (inferencia, contrastes). Una vez depurados los posibles errores de los datos,
sintetizamos la informacin mediante tablas, grficos y medidas descriptivas.
Las variables estadsticas se clasifican en tres categoras: nominales, ordinales y numricas. Las
variables nominales clasifican segn modalidades, atributos o niveles, como por ejemplo el estado
civil, grupo sanguneo, etc. Las variables ordinales corresponden a otro caso particular de variables
no numricas y ocurre cuando existe una relacin de orden entre los atributos, como por ejemplo,
nivel de estudios (primarios, secundarios, superiores), capacitacin laboral (baja, media, alta), etc.
Las variables numricas cuantifican alguna magnitud: velocidad, edad, tiempo, etc. Las dos primeras se integrarn en las llamadas caractersticas cualitativas (factores), mientras que el tercer tipo
corresponde a caractersticas cuantitativas (numricas). Dentro de las cuantitativas tambin se pueden hacer dos grupos: discretas y continuas. Una variable discreta es aquella que entre dos valores
posibles de la variable, siempre existe uno que no puede ser un valor posible de la variable. Por
ejemplo, el nmero de hijos de una familia, puesto que pueden ser 3 o 4, pero no pueden ser 30 5.
Otros ejemplos de variables discretas son el nmero de cilindros de un coche, el nmero de averas
en una hora, etc. Por otro lado, se dice que una variable numrica es continua si entre cualesquiera
dos valores posibles de la variable, siempre existe un valor posible. Una variable continua sera la
estatura de una persona, puesto que al poder ser 10 70 10 75 metros, en potencia al menos podra
tomar cualquier valor intermedio como 10 73 metros, por ejemplo. Longitudes, pesos, temperaturas,
etc. son otros ejemplos de variables continuas.
Una vez identificadas, recopiladas y organizadas, las variables se tratarn combinando medidas
estadsticas con representaciones grficas. Conviene seleccionar y mostrar, en cada caso, aquellas
que aportan informacin relevante (cuadro 1).
Cuadro 1: Principales estadsticos de resumen.
Tipo de
Variable
Medidas
posicin
Cualitativa-nominal
(sexo, raza,. . . )
Moda
Porcentajes
Diagrama de barras
Diagrama de sectores+
Cualitativa-ordinal
(nivel de estudios,. . . )
Mediana
Percentiles
Diagrama de barras
Diagrama de sectores+
Cuantitativa-discreta
(N dias, N errores)
Media
Percentiles
Desviacin
tpica
Diagrama de barras
Diagrama de sectores+
Cuantitativa-continua
(peso, consumo,. . . )
Media
Percentiles
Desviacin
tpica
Histograma
Diagrama de cajas
2.2.
Medidas
dispersin
Grficos ms
habituales
No se recomienda.
Variable cualitativa-nominal
Dentro de la base de datos acero aparece la variable averias, que consta de dos modalidades
(S, No). Por lo tanto, es evidente que es de naturaleza cualitativa y nominal.
Ejemplo 2.1. Obtenga la moda y los porcentajes de la variable averias.
Unidad de Consultora
Estadstica
Solucin: Estos estadsticos se obtienen de la siguiente forma:
Estadsticos
Resmenes
Distribucin de frecuencias...
No S
89 28
> 100 * Tabla/sum(Tabla)
No
S
76.06838 23.93162
As, se ha obtenido el nmero de casos de cada modalidad y el porcentaje que representan dentro
de la muestra. La moda es el dato que ms se repite; en este caso, la modalidad No.
Ejemplo 2.2. Obtenga el grfico de barras de la variable averias.
Solucin: Los grficos de barras se obtienen con la opcin del men Grficas. En particular,
Grficas
Grfica de barras...
Con esto se obtendra el grfico de barras correspondiente. Para modificar las etiquetas de los
ejes, se podran cambiar los nombres que aparecen en la ventana de instrucciones como sigue:
Unidad de Consultora
Estadstica
2.3.
Cuantitativa-discreta
Como ejemplo de una variable cuantitativa discreta disponemos en la base de datos de la variable
naverias. Tal como se coment en el Cuadro 1, para esta variable interesa obtener su media, su
desviacin tpica y algunos de sus percentiles.
Ejemplo 2.3. Calcule la media, desviacin tpica y percentiles de la variable naverias.
Solucin: Estos valores se obtienen de la siguiente forma:
Estadsticos
Resmenes
Resmenes numricos
Unidad de Consultora
Estadstica
Solucin: Nos hemos de percatar que al ser una variable numrica, R la considera continua y, por
tanto, no nos permitira hacer este grfico. Debemos pues, crear en primer lugar una nueva variable
de tipo factor con estos datos.
Datos
Modificar variables del conjunto. . .
Convertir variable numrica en factor
y
y
Grficas
Grfica de barras
2.4.
Cuantitativa-continua
Dentro de la base de datos acero escogemos la variable consumo como ejemplo de variable
cuantitativa continua. Para las variables continuas, tal como vimos en el Cuadro 1, los descriptivos que nos interesa obtener son la media, la desviacin tpica y los percentiles (en particular los
cuartiles).
Ejemplo 2.5. Calcule los principales estadsticos descriptivos de la variable consumo.
Unidad de Consultora
Estadstica
Solucin: Estos valores se consiguen mediante el siguiente procedimiento:
Estadsticos
Resmenes
Resmenes numricos
Con esta informacin podemos concluir que el consumo medio se sita en torno a 1390 46 Megavatios/hora, con una desviacin tpica de 550 19 Mg./hora. El consumo mnimo desciende hasta 170 5
y el mximo asciende hasta 2900 72. El 25 % de los casos analizados consumen 990 09 megavatios o
menos, el 50 % menos de 1400 07 y un 25 % consume ms de 1820 48.
Grficas
Histograma. . .
10
Unidad de Consultora
Estadstica
Grficas
Diagrama de caja. . .
yAceptar
A partir de dicho diagrama se observa, por ejemplo, que no existen datos atpicos para la
variable (consumo) en esta muestra.
11
Unidad de Consultora
Estadstica
3.
3.1.
Contrastes de hiptesis
Introduccin
Los mtodos descriptivos proporcionan una idea de cmo es la muestra. Para obtener conclusiones relativas a la poblacin necesitamos utilizar tcnicas de inferencia estadstica. Dentro de stas
la ms habitual es el contraste de hiptesis.
Una hiptesis es una afirmacin sobre las caractersticas estadsticas de un proceso, por lo
que se puede considerar una hiptesis como una conjetura. Por ejemplo: si un tcnico observa el
consumo de energa durante varias horas, sabr el consumo medio de las horas que observ. Con
la ayuda de la inferencia, puede avanzar un paso ms y conjeturar que el consumo medio de todas
las horas de trabajo en esa fbrica es de 120. El proceso cientfico consiste entonces en probar su
hiptesis contra una hiptesis alternativa:
Hiptesis nula
Hiptesis alternativa
H0 :
H1 :
consumo medio
consumo medio
=
6=
120
120
Un test consiste en un procedimiento estadstico para determinar la validez de una hiptesis (la
hiptesis nula). Si los datos de la muestra resultan poco crebles de obtenerse en caso de ser cierta
dicha hiptesis, nuestra razn nos obligar a rechazarla. En caso contrario, no hay base suficiente
para rechazarla. La aceptacin de la hiptesis nula es muy difcil si slo se usan procedimientos
estadsticos. Sin embargo, desde el punto de vista prctico, el no rechazo de una hiptesis nos
llevar a concluir que no hay evidencias significativas en contra de dicha hiptesis y, por tanto, que
puede considerarse admisible.
La forma habitual de presentar los resultados de un test de hiptesis es a travs del p-valor o nivel
crtico. Simplemente con este nmero se puede concluir si la hiptesis nula es o no rechazada a
un nivel de significacin (). El p-valor es el nivel de significacin menor que llevara al rechazo
de la hiptesis nula H0 . Una vez que se conoce el p-valor, el responsable de tomar las decisiones
puede determinar por s mismo en qu medida son significativos los datos sin que se le imponga
formalmente un nivel de significacin predeterminado. Una vez conocido el valor del p-valor y fijado
el nivel de significacin del contraste, la decisin a tomar se obtiene comparando ambos valores, tal
como puede verse en el cuadro 2.
12
Unidad de Consultora
Estadstica
Comparacin de proporciones: El porcentaje de horas con averas es mayor cuando estaba encendido el sistema que cuando no?
Desviacin tpica: La variabilidad del consumo es menor de 50?
Comparacin de desviaciones tpicas: La variabilidad del consumo es la misma durante
las horas que hubo averas y durante las que no?
Ejemplos de la mayora de los contrastes anteriores sern analizados en detalle en las Secciones
3.2 a 3.6.
3.2.
Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el contraste adecuado en el caso en estudio, establecer quines son H0 y H1 en ese contraste e interpretar
el p-valor. En un test sobre el valor promedio de la poblacin, debemos tener en cuenta si los datos
siguen aproximadamente una distribucin normal o no, as como el tamao de la muestra, y segn
sea el resultado, decidir qu contraste realizamos (cuadro 3).
Distribucin aproximadamente
normal o n grande?
S
No
Tipo de test
Test t para una muestra
Test de Wilcoxon para una muestra
13
Unidad de Consultora
Estadstica
REGLA DE DECISIN
P-valor < = Rechazo H0 (la distribucin no es normal)
P-valor = No rechazo H0 (se puede admitir la normalidad)
Generalmente se considera = 00 05
En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener 117
datos ya podemos utilizar directamente el test t para una muestra. As pues, estamos en condiciones
de realizar un contraste para la media, comparndola con el valor 120. El test adecuado en este caso
es el test t para una muestra, cuyas hiptesis a contrastar (H0 y H1 ) pueden ser de tres tipos:
H0 : = 120
H1 : 6= 120
H0 : 120
H1 : < 120
H0 : 120
H1 : > 120
H0 :
H1 :
Estadsticos
Medias
Test t para una muestra...
14
Unidad de Consultora
Estadstica
simplemente debemos considerar el valor del p-valor asociado a este contraste para esta muestra
y, en base a l, tomar la decisin correspondiente. Puesto que hemos obtenido que el p-valor es
00 0002210, ste es menor que = 00 05, por lo que la decisin es rechazar la hiptesis nula (H0 ).
Como conclusin podemos decir que la media poblacional es distinta de 120.
El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hiptesis alternativa es que
el valor del parmetro es distinto de un nmero. Cuando la alternativa lleve el smbolo menor (<) o
mayor (>), en lugar del smbolo distinto (6=, se denomina test unilateral. En ejemplo de dicho tipo de
test unilateral puede verse a continuacin.
Ejemplo 3.2. El consumo medio es menor de 140?
Solucin: En este caso, tal como comentamos en el ejemplo anterior, se verifican las hiptesis para
utilizar el test t para una muestra. As, el test adecuado para contestar a esta pregunta contrastara
las siguientes hiptesis:
H0 :
H1 :
Estadsticos
Medias
Test t para una muestra
y
y
15
Unidad de Consultora
Estadstica
Solucin: Comenzaremos seleccionando los datos para quedarnos slo con aquellos que corresponden a das en los que hubo averas. Para ello podemos seguir los siguientes pasos:
Datos
Conjunto de datos activo
Filtrar el conjunto de datos...
Datos
Conjunto de datos activo
Actualizar conjunto de datos activo
As, disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos a las
horas en las que hubo avera. Como son 28 datos, tal como vimos en el ejemplo 2.1, no podemos
aplicar sin ms el test t para la media y debemos comprobar si se cumple la hiptesis de normalidad.
Realizaremos pues el test de normalidad a la variable pr.galv1.
Estadsticos
Resmenes
Test de normalidad de Shapiro. . .
yAceptar
Seleccionar pr.galv1
> shapiro.test(acero2$pr.galv1)
Shapiro-Wilk normality test
data: acero2$pr.galv1
W = 0.8805, p-value = 0.004117
Como el p-valor (00 004118) es menor que = 00 05, se rechaza la hiptesis nula, por lo tanto no
hay normalidad.
16
Unidad de Consultora
Estadstica
Cmo podemos hacer para contrastar la hiptesis sobre el valor promedio de la produccin
de galvanizado 1 en las horas con averas? Al no haber normalidad y disponer de pocos datos,
debemos realizar el test de Wilcoxon para una muestra. Para ste los distintos tipos de contrastes
de hiptesis para la mediana son:
H0 : M e = 400
H1 : M e 6= 400
two.sided
H0 : M e 400
H1 : M e < 400
less
H0 : M e 400
H1 : M e > 400
greater
wilcox.test(acero2$PR.GALV1,alternative="less",mu=400)
y pinchamos en Ejecutar.
3.3.
17
Unidad de Consultora
Estadstica
Cuadro 4: Contrastes para igualdad de promedios.
Contrastes para
comparar dos
Distribuciones
aproximadamente
normales o tamaos
muestrales grandes?
Independientes?
Medias
Medias
Medianas
Medianas
S
S
No
No
S
No
S
No
Tipo de test
Solucin: Lo primero de todo ser volver a activar la base de datos acero. Para ello, pinchamos a
la derecha de Conjunto de datos:, en el botn que pone acero2 y seleccionamos de nuevo
la base de datos acero.
Una vez hecho esto, vamos a verificar la normalidad del consumo para cada uno de las dos
situaciones (cuando haya averas y cuando no) mediante el test de Shapiro-Wilk. Para esto ponemos
en la lnea de comandos:
18
Unidad de Consultora
Estadstica
Quines son H0 y H1 en ese contraste?
Dependiendo de la hiptesis alternativa considerada, los tres contrastes que podemos realizar
con el test t para muestras independientes para comparar las medias de dos poblaciones son:
H0 : 1 = 2
H1 : 1 6= 2
H0 : 1 2
H1 : 1 < 2
H0 : 1 2
H1 : 1 > 2
Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase 1
con media 1 ) y como segunda clase (clase 2 con media 2 ). Por defecto, el programa considera el
orden alfabtico, es decir, si como en este caso las clases son No y S, la primera clase corresponde
al no (sin averas y la segunda al s (con avera). Que consuma ms con avera se traducira por lo
tanto en 2 > 1 , por lo que para este ejemplo vamos a considerar el contraste:
Estadsticos
Medias
Test t para muestras independientes
Seleccionar
y
y
19
Unidad de Consultora
Estadstica
Qu ocurrira si las poblaciones no fueran independientes?
En tal caso, si suponemos normalidad, realizamos el test t para muestras relacionadas. Se elige
la siguiente opcin del men:
Estadsticos
Medias
Test t para muestras relacionadas
Sera este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y despus de
aplicarle un procedimiento en el horno, el nivel de glbulos rojos de una persona antes y despus
de recibir un determinado tratamiento o la produccin de galvanizado tipo 1 y la produccin de
galvanizado tipo 2.
Cuando las poblaciones no son normales y no tienen suficiente nmero de datos (habitualmente
se suele exigir al menos 30) se realiza el test de Wilcoxon para dos muestras si las poblaciones
son independientes, o el test de Wilcoxon para muestras pareadas si tal independencia no es
supuesta. Realicemos unos ejemplos para aclarar tales situaciones.
Ejemplo 3.5. Estudie el comportamiento de la produccin de galvanizado 1 en funcin de las averas.
Solucin: Aunque ya sabemos que no podemos asegurar que la produccin de galvanizado 1 siga
una distribucin normal, vamos a actuar como si an no conocisemos dicha informacin. As, determinamos el tipo de test ms apropiado. Para ello aplicamos el test de normalidad de Shapiro-Wilk
a ambas poblaciones:
20
Unidad de Consultora
Estadstica
A la vista de los resultados (ambos p-valores son menores de 00 0042) podemos considerar la no
normalidad de los datos y no disponemos de un nmero suficiente de datos (para horas con avera
slo contamos con 28 observaciones, tal como vimos en el ejemplo 2.1). Por tanto vamos a abordar
este problema realizando un test para muestras sin normalidad, el test de Wilcoxon. En este caso,
dada la naturaleza de los datos, se realizar el test de Wilcoxon para muestras independientes.
Para este problema, puesto que el No representa la clase 1 y el S la clase 2, las hiptesis a
contrastar son:
Estadsticos
Test no paramtricos
Test de Wilcoxon para dos muestras
21
Unidad de Consultora
Estadstica
Estadsticos
Test no paramtricos
Test de Wilcoxon para muestras pareadas
3.4.
Normalidad?
Varianzas
Varianzas
S
No
Tipo de test
Test F para dos varianzas
Test de Levene
En nuestro ejemplo comparamos el consumo con o sin averas y ya habamos visto que se podan
suponer ambas poblaciones normales. Por lo que realizaremos el test F para dos varianzas.
Quines son H0 y H1 en ese contraste?
Los distintos tipos de contrastes de hiptesis para dos varianzas, segn la hiptesis alternativa
considerada, son:
H0 : 12 = 22
H1 : 12 6= 22
two.sided
H0 : 12 22
H1 : 12 < 22
less
H0 : 12 22
H1 : 12 > 22
greater
En el contraste de igualdad de medias, la comprobacin previa consiste precisamente en el primero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente ejemplo.
Ejemplo 3.6. Son iguales las varianzas del consumo con o sin averas?
Solucin: Las hiptesis para el test son las siguientes.
H0 : 12 = 22 (varianzas iguales)
H1 : 12 6= 22 (varianzas distintas)
Los pasos a seguir para obtener el p-valor asociado a dicho contraste son:
Estadsticos
Varianzas
Test F para dos varianzas...
22
Unidad de Consultora
Estadstica
ySealar Bilateral
yAceptar
H0 : 12 = 22 (varianzas iguales)
H1 : 12 6= 22 (varianzas distintas)
La realizacin de este test se lleva acabo como sigue:
Estadsticos
Varianzas
Test de Levene
23
Unidad de Consultora
Estadstica
yAceptar
No
114634.30
S
91694.27
3.5.
H0 : p = 90 %
H1 : p 6= 90 %
two.sided
H0 : p 90 %
H1 : p < 90 %
less
H0 : p 90 %
H1 : p > 90 %
greater
24
Unidad de Consultora
Estadstica
Ahora solo habra que hacer
Estadsticos
Proporciones
Test de proporciones para una muestra
p0
Como el p-valor es tan pequeo (20 542107 ), se rechaza la hiptesis nula, por lo que se concluye
que ha habido un porcentaje excesivo de averas. En la muestra se ve que dicho porcentaje ha sido
de alrededor del 24 %.
Otra manera de abordar el problema, sobre todo si hubiera ms de 2 clases sera reordenar los
niveles de factor y poner como primer factor de la variable averias el factor S.
Datos
Modificar variables
Recodificar niveles de factor
25
Unidad de Consultora
Estadstica
y
y
Estadsticos
Proporciones
Test de proporciones para una muestra
p0
26
Unidad de Consultora
Estadstica
95 percent confidence interval:
0.1807938 1.0000000
sample estimates:
p
0.2393162
Como el p-valor (20 542e 07) (que es el mismo para los dos contrastes) es menor que se
rechaza la hiptesis nula y se concluye que la proporcin de averas es excesiva.
De nuevo vemos que para estos datos el porcentaje de horas con averas es de aproximadamente
el 24 %.
3.6.
Adems de analizar el comportamiento de una proporcin, se puede querer comparar la proporcin de una determinada caracterstica en dos poblaciones distintas. Al igual que ocurra en la
seccin anterior, el nmero de datos en cada muestra debe ser suficientemente grande (habitualmente se exigen al menos 30 datos por muestra).
As, por ejemplo, para poder determinar si el porcentaje de horas con avera es mayor cuando
estaba apagado el sistema que cuando no, deberamos plantear un test de proporciones para dos
muestras.
Los distintos tipos de contrastes de hiptesis en este caso son:
H0 : p1 = p2
H1 : p1 6= p2
two.sided
H0 : p1 p2
H1 : p1 < p2
less
H0 : p1 p2
H1 : p1 > p2
greater
Estadsticos
Proporciones
Test de proporciones para dos muestras...
27
Unidad de Consultora
Estadstica
Como el p-valor (00 2076) es mayor que no se rechaza la hiptesis nula, no hay evidencias de
que vaya peor con el sistema encendido.
3.7.
Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma conjunta,
si existe una relacin entre ellas y en caso de existir como de fuerte es esa relacin.
Para contestar a estas preguntas se establece una serie de coeficientes:
Para estudiar la relacin general, se puede estudiar, entre otros, el coeficiente Chi-cuadrado
de Pearson.
Para estudiar la relacin lineal, el ms habitual es el coeficiente de correlacin de Pearson.
Para seleccionar el contraste ms adecuado a la muestra, tendremos en cuenta la naturaleza de
nuestras variables.
Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-Continuas Discretizadas, se utiliza el test Chi-cuadrado de Pearson de independencia.
Para variables Cuantitativas-Continuas, se usar el test de correlacin de Pearson.
Las hiptesis a contrastar en este tipo de problemas son siempre del tipo:
28
Unidad de Consultora
Estadstica
donde la relacin ser o no del tipo lineal dependiendo del coeficiente utilizado en el contraste.
As pues, un p-valor claramente menor de 00 05 indicar que existe relacin entre las variables. Si
es mayor de 00 05, los datos no nos proporcionarn evidencias de dicha relacin.
Ejemplo 3.10. Existe relacin entre que haya habido o no averas y la lnea utilizada?
Solucin: Como las variables son cualitativas vamos a utilizar el test chi-cuadrado. Para hacer esto
vamos a
Estadsticos
Tablas de contingencias
Tabla de doble entrada. . .
linea
averias A B
No 31 28 30
S 8 11 9
29
Unidad de Consultora
Estadstica
Solucin: Como las variables son cuantitativas continuas, podemos utilizar el test de correlacin
de Pearson, para lo cual haremos:
Estadsticos
Resmenes. . .
Matriz de correlaciones
Seleccionar
las
variables
pr.galv1
pr.galv2
Aceptar
3.8.
El anlisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable
cuantitativa. Se trata, por tanto, de una generalizacin del test t para dos muestras independientes
en el caso de diseos con ms de dos factores de agrupacin. Veremos aqu su utilizacin como
simple generalizacin de dicho test, aunque volveremos sobre este tema en ms profundidad en los
captulos 5 y 6.
A la variable categrica (nominal u ordinal) que define los grupos que deseamos comparar, la llamamos independiente o factor. A la variable cuantitativa (de intervalo o razn) en la que deseamos
comparar los grupos, la llamamos dependiente.
Si queremos, por ejemplo, averiguar cul de tres programas distintos de incentivos aumenta de forma
30
Unidad de Consultora
Estadstica
ms eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleatorias de ese colectivo y aplicar a cada una de ellas uno de los tres programas. Despus, podemos
medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre ellos. Tendremos
una variable independiente categrica (el tipo de programa de incentivos) cuyos niveles deseamos
comparar entre s, y una variable dependiente cuantitativa (la medida del rendimiento), en la cual
queremos comparar los tres programas. El ANOVA de un factor permite obtener informacin sobre
el resultado de esa comparacin. Es decir, permite concluir si los sujetos sometidos a distintos programas difieren de la medida de rendimiento utilizada.
La hiptesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las
medias de la variable dependiente en cada nivel de la variable independiente) son iguales. Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la variable dependiente y
que, en consecuencia, la variable independiente o factor no influye en la variable dependiente.
Lo que habitualmente se conoce como Anlisis de la varianza es una versin paramtrica del test
de la F. Para poder aplicarse deben verificarse ciertas condiciones previas (normalidad, independencia y homocedasticidad (igualdad de varianzas)). En caso contrario existen alternativas paramtricas
y no paramtricas.
NORMALIDAD
S
NO
HOMOCEDASTICIDAD
S
S
NO
NO
S o NO
TEST RECOMENDADO
Test de la F
Test de Welch o
Test de Kruskal Wallis
Test de Kruskal Wallis
Recordar que la normalidad la estudibamos con el test de Shapiro-Wilk, mientras que la homocedasticidad se puede comprobar utilizando el test de Barlett.
En este tipo de tests de igualdad de ms de dos promedios, las hiptesis a contrastar son:
H0 : promedios iguales
H1 : no todos los promedios son iguales
Si volvemos a mirar la regla de decisin, dicha decisin en este caso sera:
P-valor <
P-valor
=
=
Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar.
Ejemplo 3.12. Comparar el consumo promedio para las tres temperaturas.
Solucin: Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo de
temperatura, para ello utilizbamos es test de Shapiro-Wilk, que tena como hiptesis:
31
Unidad de Consultora
Estadstica
Estadsticos
Varianzas
Test de Bartlett
yAceptar
32
Unidad de Consultora
Estadstica
Bartlett test of homogeneity of variances
data: consumo by temperatura
Bartlett's K-squared = 1.4052, df = 2, p-value = 0.4953
Como el p-valor (00 4953) es mayor que no se rechaza la hiptesis nula, con lo que se pueden
suponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test que realizaremos
es el test de la F para la igualdad de medias, es decir, el tpico anlisis de la varianza de un factor. A
este modelo le vamos a llamar Anova1. Los pasos a seguir para obtener el correspondiente p-valor
son:
Estadsticos
Medias
ANOVA de un factor
0.1
mean
sd n
Alta 109.4409 51.13719 46
Media 138.7297 45.58685 38
Baja 182.1333 42.25437 33
Como el p-valor (40 06 109 ) es menor que , se rechaza la hiptesis nula, con lo que se puede
suponer que no todas las medias son iguales.
Grficamente podramos ver como se comporta cada grupo haciendo los correspondientes diagramas de cajas o grficos de medias.
Comenzaremos con los diagramas de cajas:
33
Unidad de Consultora
Estadstica
Grficas
Diagrama de cajas...
yGrfica segn:temperatura
yAceptar
Seleccionar consumo
Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un grfico ms adecuado podra ser el de medias. Para obtenerlo los pasos a seguir son:
Grficas
Grficas de la media
34
Unidad de Consultora
Estadstica
Seleccionar
las
variables
temperatura y
consumo
Aceptar
Con el procedimiento anterior se obtendran los grficos de medias para los tres grupos de temperatura. Bien modificando las salidas en la ventana de instrucciones o bien tecleando directamente,
podemos cambiar las opciones del grfico, como por ejemplo las etiquetas de los ejes o el ttulo del
grfico. Para ello deberamos ejecutar la siguiente orden:
35
Unidad de Consultora
Estadstica
Si se rechaza la hiptesis nula, es decir, si se concluye que las medias no son todas iguales,
no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendra media
superior a la otra, sino que ahora habr que evaluar las relaciones entre las distintas poblaciones.
Existen una gran cantidad de test que realizan comparaciones mltiples. Cabe destacar, por su uso
ms extendido, Duncan, Newman-Keuls, Bonferroni, Scheff y HSD de Tukey.
Para realizar esta comparacin solo hay que marcar la casilla: Comparacin dos a dos de
las medias, tal como puede verse a continuacin:
Estadsticos
Medias
ANOVA de un factor
y
y
0.1
36
Unidad de Consultora
Estadstica
Linear Hypotheses:
Estimate lwr
upr
Media - Alta == 0 72.6925 47.2471 98.1378
Baja - Alta == 0 29.2889
4.8377 53.7400
Baja - Media == 0 -43.4036 -69.9442 -16.8630
> plot(comparacion)
37
Unidad de Consultora
Estadstica
Solucin: Al igual que antes veamos si los datos estn normalizados y hay homocedasticidad.
Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo tenemos
que implementar por comandos, para ello escribimos
y obtenemos:
Para los datos de la lnea A el p-valor es 00 1738, para los de la lnea B es 00 07302 y para los de
la C es 00 9584. En los tres casos suficientemente grande como para que no se rechace la hiptesis
nula (se puede admitir la normalidad).
La homocedasticidad la estudiamos por medio del test de Bartlett:
y
y
Estadsticos
Varianzas
Test de Bartlett
38
Unidad de Consultora
Estadstica
A
B
C
1574.079 3559.603 2239.063
Estadsticos
Test no paramtricos
Test de Kruskal-Wallis
39
Unidad de Consultora
Estadstica
Como el p-valor (10 688 106 ) es menor que se rechaza la hiptesis nula, no todas las medias
son iguales. Grficamente lo podemos ver mediante diagramas de cajas:
Grficas
Diagrama de cajas
yGrfica segn:linea
yAceptar
Seleccionar consumo
Bien tecleando directamente el cdigo o bien modificando las salidas del proceso anterior se
pueden hacer modificaciones en el grfico. As, mediante la orden por comandos
40
Unidad de Consultora
Estadstica
Aunque en este caso sera menos aconsejable, tambin podramos hacer un grfico de medias.
Los pasos a seguir son:
Grficas
Grficas de la media
41
Unidad de Consultora
Estadstica
42
Unidad de Consultora
Estadstica
4.
4.1.
Regresin lineal
Modelizacin estadstica
Si se sospecha de la existencia de una relacin entre diversas variables o magnitudes (por ejemplo, la influencia de la experiencia profesional de los trabajadores en sus respectivos sueldos, la
estatura en el peso de las personas, etc.) surge de forma natural plantearse cmo formalizar esa
relacin y si puede extrapolarse a situaciones ms generales.
El modelado estadstico obtiene un conjunto de modelos que se ajustan a los datos disponibles
de una forma razonable. En general, los modelos ms sencillos buscan explicar la variabilidad de
una magnitud Y , denominada variable dependiente, en funcin de otras variables, X1 , X2 , . . . , Xk ,
llamadas variables independientes.
No siempre resulta fcil determinar cul es la variable dependiente y cules intervienen como
independientes. La influencia o relacin causa-efecto depende del planteamiento del problema y su
concrecin y formalizacin corresponden al investigador que disea el experimento.
Las tcnicas estadsticas disponibles abarcan una gran variedad de situaciones y de nuevo concierne al responsable del estudio seleccionar el procedimiento ms correcto para modelar los datos.
Sin ser exhaustivos, el Cuadro 6 detalla los modelos ms habituales.
Cuadro 6: Principales modelos estadsticos segn la naturaleza de las variables.
Variable respuesta
Continua
Proporcin
Conteo
Binarias
Tiempo de muerte
Variables independientes
Todas son continuas: regresin normal
Todas son categricas: anlisis de la varianza
Ambos tipos: anlisis de la covarianza
Regresin logstica
Modelos log-lineales
Regresin logstica binaria
Anlisis de supervivencia
La principal regla para realizar el modelado consiste en asumir que el resultado obtenido siempre
ser mejorable. El modelo ha de adaptarse a los datos y evitar la tentacin de que los datos casen
con un determinado modelo. De principio, un buen ajuste ha de explicar la mayor parte de la variabilidad y simplificar al mximo las relaciones entre las variables. No encontraremos un nico modelo,
sino un conjunto de soluciones que se amoldan razonablemente bien a los datos.
El principio de parsimonia (la navaja de Ockham) induce a optar por un modelo sencillo en vez
de uno complicado. Dado un conjunto de posibles explicaciones igualmente buenas, la ms sencilla
se convierte en la mejor; cuantos menos parmetros intervengan en el modelo, relaciones lineales
o con pocos factores sealan pistas que orientan nuestra bsqueda. Sin embargo, no exageremos
en la sencillez del modelo. Tambin existe la navaja de Einstein: A model should be as simple as
possible. But not simpler.
4.2.
El principio de parsimonia indica que el modelo de regresin lineal se convierte en el primer candidato para explicar la relacin entre las variables. En este ejemplo, deseamos estudiar el consumo de
energa de la fbrica: la variable dependiente (Y ) es el consumo, mientras que el resto de variables
disponibles comprenden el conjunto de variables independientes. Es decir, deseamos encontrar un
modelo que cuantifique el consumo energtico a partir de las diferentes producciones.
La forma ms facil de comenzar consiste en realizar representaciones grficas.
Ejemplo 4.1. Realice un diagrama de dispersin de la variable consumo con las variables de produccin.
43
Unidad de Consultora
Estadstica
Solucin: Dibujamos una matriz con los diagramas de dispersin:
Grficas
Matriz de diagrama de dispersin
De los diferentes grficos que aparecen, los ms ajustados a nuestra hiptesis de trabajo se
encuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al eje de
ordenadas, mientras que las independientes, las diferentes producciones, se representan en el eje
de abscisas.
Qu nube de punto de la primera fila muestra un patrn ms claro de relacin? Si bien no
siempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia entre el
consumo energa y la produccin del tren de bandas en caliente (pr.tbc).
44
Unidad de Consultora
Estadstica
Despus de realizar una representacin grfica, procedemos a cuantificar la relacin lineal entre
las variables.
Ejemplo 4.2. Calcule los coeficientes de correlacin lineal del consumo con el resto de producciones.
Solucin: El coeficiente de correlacin lineal vara de 1 a 1. Cuanto mayor sea en valor absoluto,
ms intensidad existe en la relacin.
Estadsticos
Resmenes
Matriz de correlaciones
consumo
pr.ca
pr.cc
pr.galv1
pr.galv2
pr.pin
consumo
1.00000000 -0.04462924 0.3853352 0.40126392 0.24073916 0.193584920
pr.ca
-0.04462924 1.00000000 -0.1907847 0.08285971 -0.08530484 -0.027095106
pr.cc
0.38533520 -0.19078475 1.0000000 0.30011090 0.07108381 0.268146068
pr.galv1 0.40126392 0.08285971 0.3001109 1.00000000 0.04964655 0.300788576
pr.galv2 0.24073916 -0.08530484 0.0710838 0.04964655 1.00000000 0.072855628
pr.pint
0.19358492 -0.02709511 0.2681461 0.30078858 0.07285563 1.000000000
pr.tbc
0.74329458 -0.03999992 0.1539631 0.06614846 0.10224749 0.003463181
pr.tbc
consumo
0.743294582
pr.ca
-0.039999921
pr.cc
0.153963066
pr.galv1 0.066148462
pr.galv2 0.102247494
pr.pint
0.003463181
pr.tbc
1.000000000
La primera columna muestra la correlacin de la variable consumo con el resto de las producciones. La relacin ms intensa se produce entre el consumo y la pr.tbc.
45
Unidad de Consultora
Estadstica
Solucin: El grfico se consigue de la siguiente forma:
Grficas
Matriz de diagrama de dispersin
46
Unidad de Consultora
Estadstica
Ejemplo 4.4. Estime el consumo a partir de la produccin de TBC. Llame a este modelo Modelo1.
Solucin: Procedemos con el modelo lineal, ya que su sencillez favorece la interpretacin de los
coeficientes.
Estadsticos
Ajuste de modelos
Modelo lineal
Median
-0.7312
3Q
Max
21.4330 133.5283
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.075095
9.328889
3.867 0.000183 ***
pr.tbc
0.013661
0.001146 11.915 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 37.08 on 115 degrees of freedom
Multiple R-squared: 0.5525, Adjusted R-squared: 0.5486
F-statistic:
142 on 1 and 115 DF, p-value: < 2.2e-16
La columna de Estimate proporciona los valores de los coeficientes.
(1)
(2)
Todos los coeficientes del modelo son significativos (distintos de 0) ya que sus p-valor (Pr(>|t|))
minoran a 0,05.
El R cuadrado, R2 , representa la fraccin de la variacin de la variable dependiente explicada por
la regresin. El 54.86 % del consumo de energa se debe a la produccin del tren de bandas en
caliente. Hemos de mencionar que el R2 no es un buen criterio para comparar modelos (el AIC es
preferible).
47
Unidad de Consultora
Estadstica
Respecto a los grados de libertad (DF, degree of freedom), cuantos ms parmetros incorpore el
modelo, menos grados de libertad dispone. El principio de parsimonia prioriza los modelos con ms
grados de libertad.
Despus de estimar el modelo, hemos de verificar una serie de requisitos. Si cumple con todos
ellos, el modelo ajusta correctamente los datos. Si no los verifica, hemos de plantear otra formulacin. Destacan los siguientes condiciones: homocedasticidad (varianza constante) de los errores,
normalidad de los errores, ausencia de observaciones atpicas, relacin lineal y ausencia de colinealidad.
Ejemplo 4.5. Determine si los residuos del modelo Modelo1 son homocedsticos.
Solucin: Para estudiar la homocedasticidad de un modelo usamos el test de Breusch-Pagan.
Modelos
Diagnsticos numricos
Test de Breusch-Pagan. . .
Aceptar
Modelos
Diagnsticos numricos
Test Reset de no linealidad. . .
48
Unidad de Consultora
Estadstica
Desmarcar 3 cubos
Aceptar
RESET test
data: consumo ~ pr.tbc
RESET = 5.8411, df1 = 1, df2 = 114, p-value = 0.01724
Como el p-valor (0,01724) es inferior a , se concluye que el modelo lineal no ajusta adecuadamente. Nuestra labor de modelado empieza de nuevo plantendonos otras relaciones, como por
ejemplo
Si bien ya hemos concluido que este ajuste lineal no cumple con los requisitos necesarios, como
prctica realizamos tambin el control de las observaciones atpicas.
Ejemplo 4.7. Existen observaciones atpicas que distorsionen el anlisis del Modelo1?
Solucin: El test de valores atpicos de Bonferroni indica la presencia de observaciones atpicas.
Modelos
Diagnsticos numricos
Test de valores atpicos de Bonferroni. . .
> outlier.test(Modelo1)
El p-valor es menor que e implica que hay observaciones atpicas: la nmero 107.
49
Unidad de Consultora
Estadstica
4.3.
Transformaciones de variables
Hasta ahora slo se han considerado los datos originales y como resultado hemos concluido
que el modelo lineal no ajusta adecuadamente. Llega el momento de abandonar el modelo inicial y
buscar alternativas.
Existe algn modelo terico que corresponda a nuestros datos? Por ejemplo, estimar el volumen
de un depsito de aguas, Volumen = Base Altura, determinar la distancia que recorre un cuerpo en
cada libre, Distancia = a g tiempo2 o calcular el crecimiento demogrfico, N = a ebtiempo . En todos estos planteamientos, la relacin no es lineal; Pero con una sencilla transformacin, obtenemos
una. Por ejemplo, si Y = X 2 Z , entonces log(Y ) = 2 log(X) + log(Z).
La transformacin ms inmediata consiste en tomar logaritmos de la variable dependiente, de la
independiente o de ambas.
Ejemplo 4.8. Represente consumo y log(pr.tbc).
Solucin: Este dibujo se consigue transformando la escala de los ejes:
Grficas
Matriz de diagrama de dispersin
Visualmente se comprueba que la relacin lineal no es adecuada. Por lo tanto desechamos esta
transformacin.
50
Unidad de Consultora
Estadstica
Grficas
Matriz de diagrama de dispersin
En ambos casos, la distribucin de los puntos no sigue una lnea recta, por lo que no transformamos la variable x (pr.tbc).
La transformacin de Box-Cox efecta un cambio de variable sobre la variable dependiente de la
forma:
y 1
si 6= 0
(3)
log y si = 0
Los valores de ms usuales son: log y ( = 0), y ( = 1/2), y 1/3 ( = 1/3), y 2 ( = 2), . . . . Esta
transformacin debe ser realizada por lnea de comandos. En la ventana de instrucciones, escribimos primero library(MASS), ejecutamos; luego boxcox(Modelo1) y ejecutamos (Fig. 10).
51
Unidad de Consultora
Estadstica
Proporciona un intervalo de valores vlidos para (Fig. 11). De entre este intervalo, escogeremos
aquellos ms naturales: 0, 1/2, 1/3, 2/3, 1, 3/2, etc. En este caso determinamos que = 0,5,
que equivale transformar la variable consumo mediante su raz cuadrada. Calculamos esta nueva
variable raiz.consumo tal como como indica la Fig. 12.
Datos
Conjunto de datos activos
Actualizar conjunto. . .
52
Unidad de Consultora
Estadstica
Grficas
Matriz de diagrama de dispersin
53
Unidad de Consultora
Estadstica
Ejemplo 4.11. Determine el modelo que relaciona raiz.consumo con la pr.tbc. Llame a este
modelo Modelo2.
Solucin: Los coeficientes se calculan estimando un modelo lineal:
Estadsticos
Ajuste de modelos
Modelo lineal
y
y
3Q
Max
2.2383 11.6080
Coefficients:
Estimate Std. Error t
(Intercept) 1.112e+01 7.946e-01
pr.tbc
1.316e-03 9.765e-05
--Signif. codes: 0 *** 0.001 **
value Pr(>|t|)
13.99
<2e-16 ***
13.47
<2e-16 ***
0.01 * 0.05 . 0.1 1
Modelos
Diagnsticos numricos
Test de Breusch-Pagan
54
Unidad de Consultora
Estadstica
Aceptar
Modelos
Diagnsticos numricos
Test Reset de no linealidad. . .
Desmarcar 3 cubos
Aceptar
55
Unidad de Consultora
Estadstica
Solucin: Realizamos el test de valores atpicos de Bonferroni.
Modelos
Diagnsticos numricos
Test de valores atpicos de Bonferroni. . .
> outlier.test(Modelo2)
max|rstudent| = 3.943655, degrees of freedom = 114,
unadjusted p = 0.0001389735, Bonferroni p = 0.0162599
Observation: 107
Podemos ver que la observacin 107 sigue siendo atpica. Verificamos si distorsiona el modelo
dibujando las bandas de confianza.
Modelos
Grficas
Grficas de comparacin de. . .
56
Unidad de Consultora
Estadstica
4.4.
La regresin lineal mltiple generaliza el modelo anterior al incorporar dos o ms variables dependientes.
Ejemplo 4.15. Estime la raiz.consumo en funcin de las diferentes producciones. Llame a este
modelo Modelo3.
Solucin: Intervienen como variable dependiente raiz.consumo y como variables independientes
pr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc.
Estadsticos
Ajuste de modelos
Modelo lineal
Call:
lm(formula = raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 +
pr.pint + pr.tbc, data = acero)
Residuals:
Min
1Q Median
-6.4825 -1.3144 0.1286
3Q
Max
1.6126 7.3293
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.679e+00 7.886e-01
9.737 < 2e-16 ***
pr.ca
1.845e-04 1.431e-03
0.129 0.897614
pr.cc
2.387e-03 6.922e-04
3.448 0.000801 ***
pr.galv1
3.756e-03 7.316e-04
5.135 1.23e-06 ***
pr.galv2
1.523e-03 3.927e-04
3.880 0.000178 ***
pr.pint
1.055e-03 8.305e-04
1.271 0.206469
pr.tbc
1.214e-03 7.602e-05 15.975 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.415 on 110 degrees of freedom
Multiple R-squared: 0.7831, Adjusted R-squared: 0.7713
F-statistic: 66.2 on 6 and 110 DF, p-value: < 2.2e-16
57
Unidad de Consultora
Estadstica
Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas variables
independientes y se ha de simplificar.
Ejemplo 4.16. Simplifique el modelo anterior.
Solucin: La depuracin del modelo se realiza del siguiente modo:
Modelos
Seleccin de modelos paso a paso
Start: AIC=213.1
raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint +
pr.tbc
Df Sum of Sq
RSS
AIC
- pr.ca
1
0.10 641.65
- pr.pint
1
9.42 650.98
<none>
641.56 213.10
- pr.cc
1
69.34 710.90
- pr.galv2 1
87.80 729.36
- pr.galv1 1
153.76 795.32
- pr.tbc
1
1488.44 2129.99
211.12
212.81
223.11
226.11
236.24
351.50
Step: AIC=211.12
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc
Df Sum of Sq
RSS
AIC
- pr.pint
1
9.41 651.06
<none>
641.65 211.12
- pr.cc
1
71.52 713.18
- pr.galv2 1
87.87 729.53
- pr.galv1 1
158.47 800.13
- pr.tbc
1
1488.34 2129.99
210.82
221.48
224.14
234.94
349.50
Step: AIC=210.82
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc
Df Sum of Sq
RSS
AIC
<none>
651.06 210.82
- pr.cc
1
85.49 736.55
- pr.galv2 1
91.33 742.39
- pr.galv1 1
188.34 839.40
- pr.tbc
1
1480.14 2131.20
58
223.26
224.18
238.55
347.57
Unidad de Consultora
Estadstica
Esta salida muestra el modelo simplificado (raiz.consumopr.cc + pr.galv1 + pr.galv2
+ pr.tbc). Las variables eliminadas (pr.ca, pr.pint) no influyen significativamente en el consumo energtico cuando operan las otras producciones.
Ejemplo 4.17. Estime el modelo simpiflicado anterior y llmelo Modelo4.
Solucin: Seguimos los siguientes pasos:
Estadsticos
Ajuste de modelos
Modelo lineal
Call:
lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,
data = acero)
Residuals:
Min
1Q
Median
-6.56830 -1.32935 -0.08463
3Q
Max
1.73213 7.79563
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.773e+00 7.548e-01 10.299 < 2e-16 ***
pr.cc
2.537e-03 6.617e-04
3.835 0.000208 ***
pr.galv1
3.991e-03 7.011e-04
5.692 1.02e-07 ***
pr.galv2
1.547e-03 3.903e-04
3.964 0.000130 ***
pr.tbc
1.209e-03 7.579e-05 15.957 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.411 on 112 degrees of freedom
Multiple R-squared: 0.7799, Adjusted R-squared: 0.772
F-statistic: 99.22 on 4 and 112 DF, p-value: < 2.2e-16
En este modelo slo intervienen variables con coeficientes significativos. El modelo ajustado adquiere la siguiente expresin:
raiz.consumo = 7,773 + 2,537 103 pr.cc + 3,991 103 pr.galv1+ 1,547 103 pr.galv2+
1,209 103 pr.tbc
Una vez estimamos el modelo verificamos si ajusta bien o no los datos.
Ejemplo 4.18. Determine la bondad del modelo Modelo4.
59
Unidad de Consultora
Estadstica
Solucin: Para tal menester seguimos los siguientes pasos:
1. Estudio de la colinealidad.
Modelos
Diagnsticos numricos
Factores de inflaccin de. . .
> vif(Modelo4)
Si alguno de los valores supera el valor 4 implica que hay colinealidad (sobra alguna variable).
En este modelo todos los valores no minoran dicha cantidad y por lo tanto, no hay colinealidad.
2. Comprobemos ahora si el modelo es homocedstico mediante el test de Breusch-Pagan.
Modelos
Diagnsticos numricos
Test de Breusch-Pagan
Aceptar
Breusch-Pagan test
data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc
BP = 0.904, df = 1, p-value = 0.3417
60
Unidad de Consultora
Estadstica
3. Verifiquemos si el ajuste lineal es suficiente o hay que aumentar el grado del modelo.
Modelos
Diagnsticos numricos
Test Reset de no linealidad. . .
Desmarcar 3 cubos
Aceptar
RESET test
data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc
RESET = 1.2025, df1 = 4, df2 = 108, p-value = 0.314
Modelos
Diagnsticos numricos
Test de valores atpicos de Bonferroni. . .
> outlier.test(Modelo4)
61
Unidad de Consultora
Estadstica
Modelos
Grficas
Grficas bsicas de diagnstico. . .
6. Clculo de intervalo de confianza para las obseraciones atpicas. Nuestro inters se centra en
la observacin 107 (si bien la distancia de Cook indica que apenas influye en el anlisis).
Modelos
Grficas
Grficas de comparacin de. . .
62
Unidad de Consultora
Estadstica
Como la observacin 107 queda dentro de las bandas de confianza podemos concluir que
este modelo ajusta razonablemente bien los datos.
63
Unidad de Consultora
Estadstica
5.
5.1.
Anlisis de la varianza
Experimentos factoriales. Contrastes ortogonales y no ortogonales
5.2.
64
Unidad de Consultora
Estadstica
Ejemplo 5.2. Genere un modelo lineal que relacione raiz.consumo y la linea. Llame al modelo
fmodelo1.
Solucin: Los coeficientes del modelo, fmodelo1, se calculan del siguiente modo.
Estadsticos
Ajuste de modelos
Modelo lineal
Median
0.5332
3Q
2.9904
Max
9.4656
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.6263
0.7362 25.300 < 2e-16 ***
linea[T.B]
2.0871
1.0412
2.005
0.0474 *
linea[T.C]
5.2649
1.0412
5.057 1.65e-06 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.598 on 114 degrees of freedom
Multiple R-squared: 0.1853,Adjusted R-squared: 0.171
F-statistic: 12.97 on 2 and 114 DF, p-value: 8.428e-06
El consumo medio de la lnea A se sita en 18,6262, el consumo medio de la lnea B supera en
2,0871 unidades el de la lnea A, y el de la lnea C gasta 5,2648 ms que el de la lnea A. Estas
diferencias son significativas (p-valor<0,05). El modelo resultante queda por tanto,
(4)
18,62620
raiz.consumo= 18,62620 + 2,0871
18,62620 + 5,2648
si es de la lnea A
si es de la lnea B
si es de la lnea C
65
Unidad de Consultora
Estadstica
Estadsticos
Ajuste de modelos
Modelo lineal
Median
0.4921
3Q
3.6218
Max
11.2608
Coefficients:
(Intercept)
averias[T.S]
66
Unidad de Consultora
Estadstica
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Estadsticos
Ajuste de modelos
Modelo lineal
Median
0.7521
3Q
3.4311
Max
9.7156
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 20.2218
1.3126 15.406
<2e-16 ***
hora[T.2]
2.1636
1.8563
1.166
0.246
hora[T.3]
2.1781
1.8563
1.173
0.243
hora[T.4]
1.4267
1.8563
0.769
0.444
hora[T.5]
0.6504
1.8563
0.350
0.727
hora[T.6]
1.5176
1.8563
0.818
0.415
hora[T.7]
-0.8294
1.8563 -0.447
0.656
hora[T.8]
-0.5468
1.9689 -0.278
0.782
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.084 on 109 degrees of freedom
Multiple R-squared: 0.04772,Adjusted R-squared: -0.01343
F-statistic: 0.7803 on 7 and 109 DF, p-value: 0.6051
67
Unidad de Consultora
Estadstica
No hay diferencias de consumo segn la hora del turno ya que ningn coeficiente muestra un
p-valor inferior a 0,05.
5.3.
Los modelos mostrados hasta el momento no contienen interacciones entre los factores y stos
han sido estudiados de forma independiente. Llega el momento de abordar relaciones ms complejas entre las variables explicativas.
Ejemplo 5.5. Influye la linea, las averias y sus posibles interacciones en raiz.consumo?
Denomine este modelo como fmodelocomplicado.
Solucin: La expresin que muestra todas las posibles interacciones entre las dos variables adopta
la siguiente forma: averia*linea. El asterisco denota los efectos simples e interacciones de
ambos factores.
Estadsticos
Ajuste de modelos
Modelo lineal
* linea
Aceptar
Median
0.1921
3Q
2.8710
Max
10.2666
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
17.8252
0.8195 21.752 < 2e-16 ***
averias[T.S]
3.9050
1.8094
2.158
0.0331 *
linea[T.B]
3.0075
1.1896
2.528
0.0129 *
linea[T.C]
6.1377
1.1685
5.252 7.31e-07 ***
averias[T.S]:linea[T.B] -4.3282
2.4310 -1.780
0.0777 .
averias[T.S]:linea[T.C] -4.2160
2.5062 -1.682
0.0953 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.563 on 111 degrees of freedom
Multiple R-squared: 0.2188,Adjusted R-squared: 0.1836
F-statistic: 6.219 on 5 and 111 DF, p-value: 4.032e-05
68
Unidad de Consultora
Estadstica
Estos resultados nos conducen a un modelo de la forma:
17,8252 + 3,9050(averaSi )
raiz.consumo= 17,8252 + 3,0075 + (3,9050 4,3282)averaSi
si es de la lnea A.
si es de la lnea B.
si es de la lnea C.
Al disponer de dos modelos posibles, fmodelo1 y fmodelocomplicado, para explicar el consumo, nos hemos de plantear cul ajusta mejor los datos mediante el anlisis del AIC. R dispone
de un test (anova) que contrasta si ambos modelos se comportan de forma similar o bien difieren
significativamente:
Modelos
Test de hiptesis
Comparar dos modelos
raiz.consumo ~ linea
raiz.consumo ~ averias * linea
RSS Df Sum of Sq
F Pr(>F)
2409.86
2310.81
3
99.05 1.586 0.1968
Como el p-valor 0,1968 es mayor que 0,05 no se observan diferencias entre los dos modelos.
Escogeremos el modelo ms sencillo (el que tenga ms grados de libertad, Res.Df): en este caso
el fmodelo1.
Modelos
Seleccionar modelo activo
yfmodelo1
69
Unidad de Consultora
Estadstica
Modelos
Resumir el modelo
> summary(fmodelo1)
Call:
lm(formula = raiz.consumo ~ linea, data = acero)
Residuals:
Min
1Q
-14.3467 -2.3134
Median
0.5332
3Q
2.9904
Max
9.4656
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.6263
0.7362 25.300 < 2e-16 ***
linea[T.B]
2.0871
1.0412
2.005
0.0474 *
linea[T.C]
5.2649
1.0412
5.057 1.65e-06 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.598 on 114 degrees of freedom
Multiple R-squared: 0.1853,Adjusted R-squared: 0.171
F-statistic: 12.97 on 2 and 114 DF, p-value: 8.428e-06
Podemos observar que la lnea B y C difieren significativamente de la lnea A.
2. Calculamos el intervalo de confianza para los coeficientes de estas lneas.
Modelos
Intervalos de confianza
Aceptar
70
Unidad de Consultora
Estadstica
3. Recodificaremos la variable linea, creando una nueva variable, que llamaremos reco.linea,
que tome valores A si es de la lnea A y B y C si es de la lnea B o C, para lo que haremos:
Datos
Modificar variables
Recodificar variables. . .
Seleccionar linea
Nuevo nombre. . . reco.linea
Asignar los valores
A=A; else=ByC
Estadsticos
Ajuste de modelos
Modelo lineal. . .
Median
1.065
3Q
3.169
Max
9.799
Coefficients:
(Intercept)
71
Unidad de Consultora
Estadstica
reco.linea[T.ByC]
3.6760
0.9337
3.937 0.000142 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.761 on 115 degrees of freedom
Multiple R-squared: 0.1188,Adjusted R-squared: 0.1111
F-statistic: 15.5 on 1 and 115 DF, p-value: 0.0001418
El modelo obtenido queda de la siguiente forma:
18,6263
raiz.consumo=
18,6263 + 3,6760
si es de la lnea A
si es de la lnea B o C
Modelos
Test de hiptesis
Comparar dos modelos
y
y
18,62620
raiz.consumo= 18,62620 + 2,0871
18,62620 + 5,2648
.
72
si es de la lnea A
si es de la lnea B
si es de la lnea C
Unidad de Consultora
Estadstica
6.
6.1.
Anlisis de la covarianza
Introduccin
Grficas
Matriz de diagrama de dispersin
y
y
Ambas rectas de regresin muestran una trayectoria muy similar. Este grfico muestra que la
presencia o no de averas apenas diferencia el consumo de energa segn la produccin de TBC.
73
Unidad de Consultora
Estadstica
Ejemplo 6.2. Dibuje el diagrama de dispersin del consumo y pr.tbc segn linea.
Solucin: Procedemos del siguiente modo.
Grficas
Matriz de diagrama de dispersin
y
y
Las rectas estimadas no son paralelas. El consumo de produccin vara en funcin de la produccin y de la lnea de trabajo.
6.2.
Analizaremos el consumo de energa segn la produccin del tren de bandas calientes (pr.tbc)
y la lnea de produccin (linea).
Ejemplo 6.3. Estime el consumo a partir de la produccin de TBC y de la lnea. Llame a este modelo
CoModelo1.
74
Unidad de Consultora
Estadstica
Solucin: Procedemos con un modelo lineal.
Estadsticos
Ajuste de modelos
Modelo lineal
3Q
2.0585
Max
9.4530
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.005e+01 7.727e-01 13.006 < 2e-16 ***
pr.tbc
1.223e-03 8.928e-05 13.703 < 2e-16 ***
linea[T.B] 1.720e+00 6.416e-01
2.681 0.00843 **
linea[T.C] 3.584e+00 6.526e-01
5.491 2.49e-07 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.831 on 113 degrees of freedom
Multiple R-squared: 0.6939,Adjusted R-squared: 0.6858
F-statistic: 85.4 on 3 and 113 DF, p-value: < 2.2e-16
75
Unidad de Consultora
Estadstica
si es de la lnea A
si es de la lnea B
si es de la lnea C
En este modelo, la variacin de energa consumida es constante para las tres lneas de produccin
(las rectas de regresin son paralelas).
Ejemplo 6.4. Estime el consumo a partir de la produccin de TBC, la lnea de produccin y sus
posibles interaciones. Nomine a este modelo CoModelo2.
Solucin: El modelo con interaccin se obtiene de la siguiente forma:
Estadsticos
Ajuste de modelos
Modelo lineal
3Q
1.82916
Max
8.41252
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
12.4645906 1.1652944 10.697 < 2e-16 ***
pr.tbc
0.0008790 0.0001545
5.689 1.05e-07 ***
linea[T.B]
-3.2322181 1.5422928 -2.096 0.038380 *
linea[T.C]
3.1148687 1.9084184
1.632 0.105477
pr.tbc:linea[T.B] 0.0006917 0.0001988
3.480 0.000719 ***
pr.tbc:linea[T.C] 0.0001124 0.0002318
0.485 0.628793
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.686 on 111 degrees of freedom
Multiple R-squared: 0.7293,Adjusted R-squared: 0.7171
F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16
Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas variables
independientes y se ha de simplificar.
76
Unidad de Consultora
Estadstica
Ejemplo 6.5. Compare los modelos CoModelo1 y CoModelo2.
Solucin: Al igual que en apartados anteriores la comparacin de modelos se realiza del siguiente
modo.
Modelos
Test de hiptesis
Comparar dos modelos
Modelos
Seleccionar modelo activo
yCoModelo2
Modelos
Resumir el modelo
> summary(CoModelo2)
Call:
lm(formula = raiz.consumo ~ pr.tbc * linea, data = acero)
Residuals:
Min
1Q
Median
-6.76425 -1.83728 -0.07738
3Q
1.82916
Max
8.41252
Coefficients:
77
Unidad de Consultora
Estadstica
Estimate Std. Error t value Pr(>|t|)
(Intercept)
12.4645906 1.1652944 10.697 < 2e-16 ***
pr.tbc
0.0008790 0.0001545
5.689 1.05e-07 ***
linea[T.B]
-3.2322181 1.5422928 -2.096 0.038380 *
linea[T.C]
3.1148687 1.9084184
1.632 0.105477
pr.tbc:linea[T.B] 0.0006917 0.0001988
3.480 0.000719 ***
pr.tbc:linea[T.C] 0.0001124 0.0002318
0.485 0.628793
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.686 on 111 degrees of freedom
Multiple R-squared: 0.7293,Adjusted R-squared: 0.7171
F-statistic: 59.8 on 5 and 111 DF, p-value: < 2.2e-16
6.3.
Variables indicadoras
Las variables indicadores, ficticias o dummy, permiten desagregar fcilmente las variables nominales. Por cada categora de la variable nominal se crea una variable indicadora, que vale 1 si el
registro pertenece a dicho atributo y cero en otro caso. Dado que la suma de todas las variables
indicadoras generadas a partir de una misma variable nominal vale 1, y por lo tanto son linealmente dependientes, slo se utilizan k 1 variables indicadoras, siendo k el nmero de modalidades
presentes en la variable nominal. Por ejemplo, en el caso de la lnea de produccin se disponen de
tres modalidades (A, B, C). Crearemos tres variables indicadoras, lineaA, lineaB y lineaC que
valdrn 1 si son de la lnea A, B y C, respectivamente, y cero en otro caso.
linea
lineaA
lineaB
lineaC
A
B
C
1
0
0
0
1
0
0
0
1
Ejemplo 6.7. Genere las variables dummys lineaA, lineaB y lineaC que tomen valores 1 y 0
segn sean la produccin de la lnea A, B o C respectivamente
Solucin: Crearemos tres nuevas variables en nuestra base de datos.
78
Unidad de Consultora
Estadstica
Datos
Conjunto de datos. . .
Actualizar conjunto de datos. . .
Estadsticos
Ajuste de modelos
Modelo lineal
3Q
1.82916
Max
8.41252
Coefficients:
(Intercept)
lineaB
79
Unidad de Consultora
Estadstica
lineaC
pr.tbc
lineaB:pr.tbc
lineaC:pr.tbc
--Signif. codes:
3.1148687
0.0008790
0.0006917
0.0001124
1.9084184
0.0001545
0.0001988
0.0002318
1.632
5.689
3.480
0.485
0.105477
1.05e-07 ***
0.000719 ***
0.628793
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Modelos
Seleccin de modelos paso a paso
Start: AIC=253.63
raiz.consumo ~ (lineaB + lineaC) * pr.tbc
- lineaC:pr.tbc
<none>
- lineaB:pr.tbc
Df Sum of Sq
RSS
AIC
1
1.696 802.59 249.11
800.89 253.63
1
87.359 888.25 260.98
Step: AIC=249.11
raiz.consumo ~ lineaB + lineaC + pr.tbc + lineaB:pr.tbc
Df Sum of Sq
<none>
+ lineaC:pr.tbc
- lineaB:pr.tbc
- lineaC
1
1
1
RSS
802.59
1.696 800.89
102.790 905.37
290.525 1093.11
AIC
249.11
253.63
258.45
280.50
80
Unidad de Consultora
Estadstica
Solucin: Seguiremos los siguientes pasos:
Estadsticos
Ajuste de modelos
Modelo lineal
+ lineaC + pr.tbc +
lineaB:pr.tbc
Aceptar
Call:
lm(formula = raiz.consumo ~ lineaB + lineaC + pr.tbc + lineaB *
pr.tbc, data = acero)
Residuals:
Min
1Q
Median
-6.84084 -1.82951 -0.07738
3Q
1.82916
Max
8.13247
Coefficients:
Estimate Std. Error t value
(Intercept)
12.1146686 0.9116805 13.288
lineaB
-2.8822961 1.3582876 -2.122
lineaC
3.9884021 0.6263885
6.367
pr.tbc
0.0009289 0.0001148
8.093
lineaB:pr.tbc 0.0006417 0.0001694
3.787
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*'
Pr(>|t|)
< 2e-16
0.036041
4.37e-09
7.74e-13
0.000247
***
*
***
***
***
81
Unidad de Consultora
Estadstica
6.4.
si es de la lnea A
si es de la lnea B
si es de la lnea C
Modelo completo
Para finalizar el estudio introducimos en el modelo todas las variables de produccin y consideramos las interacciones con las variables linea y averias, generando un modelo de la forma:
raiz.consumo(pr.ca+pr.cc+pr.galv1+pr.galv2+pr.pint+pr.tbc)*(lineaB+lineaC)*averias
Estadsticos
Ajuste de modelos
Modelo lineal
3Q
1.14888
Max
5.26460
Coefficients:
(Intercept)
pr.ca
pr.cc
pr.galv1
pr.galv2
pr.pint
pr.tbc
82
***
*
**
***
Unidad de Consultora
Estadstica
lineaB
lineaC
averias[T.S]
pr.ca:lineaB
pr.ca:lineaC
pr.cc:lineaB
pr.cc:lineaC
pr.galv1:lineaB
pr.galv1:lineaC
pr.galv2:lineaB
pr.galv2:lineaC
pr.pint:lineaB
pr.pint:lineaC
pr.tbc:lineaB
pr.tbc:lineaC
pr.ca:averias[T.S]
pr.cc:averias[T.S]
pr.galv1:averias[T.S]
pr.galv2:averias[T.S]
pr.pint:averias[T.S]
pr.tbc:averias[T.S]
lineaB:averias[T.S]
lineaC:averias[T.S]
pr.ca:lineaB:averias[T.S]
pr.ca:lineaC:averias[T.S]
pr.cc:lineaB:averias[T.S]
pr.cc:lineaC:averias[T.S]
pr.galv1:lineaB:averias[T.S]
pr.galv1:lineaC:averias[T.S]
pr.galv2:lineaB:averias[T.S]
pr.galv2:lineaC:averias[T.S]
pr.pint:lineaB:averias[T.S]
pr.pint:lineaC:averias[T.S]
pr.tbc:lineaB:averias[T.S]
pr.tbc:lineaC:averias[T.S]
--Signif. codes: 0 '***' 0.001
6.343e-02
2.949e+00
-8.536e+00
-9.081e-03
-4.173e-03
-6.495e-03
1.219e-03
3.023e-03
4.059e-03
-5.895e-04
-1.119e-03
7.073e-04
-1.904e-03
4.426e-04
6.164e-05
-1.529e-02
-5.384e-03
8.798e-03
-1.637e-03
-7.034e-03
1.703e-03
8.275e+00
7.868e-01
1.707e-02
-1.232e-03
1.131e-02
8.028e-03
-1.113e-02
-8.243e-03
1.259e-03
3.783e-03
8.848e-03
9.872e-03
-1.580e-03
-1.317e-03
2.052e+00
2.986e+00
7.687e+01
4.279e-03
5.175e-03
4.242e-03
2.505e-03
3.098e-03
2.828e-03
1.241e-03
1.197e-03
2.859e-03
2.676e-03
2.388e-04
2.555e-04
4.747e-02
6.309e-03
1.107e-02
1.945e-02
1.916e-02
6.583e-03
7.694e+01
7.759e+01
4.798e-02
4.977e-02
9.125e-03
1.019e-02
1.199e-02
1.423e-02
1.950e-02
1.955e-02
1.976e-02
2.006e-02
6.588e-03
6.596e-03
0.031
0.988
-0.111
-2.122
-0.806
-1.531
0.486
0.976
1.435
-0.475
-0.934
0.247
-0.712
1.853
0.241
-0.322
-0.853
0.795
-0.084
-0.367
0.259
0.108
0.010
0.356
-0.025
1.240
0.788
-0.929
-0.579
0.065
0.193
0.448
0.492
-0.240
-0.200
0.97542
0.32648
0.91188
0.03712 *
0.42257
0.12996
0.62805
0.33237
0.15544
0.63622
0.35315
0.80524
0.47896
0.06778 .
0.81001
0.74829
0.39624
0.42917
0.93312
0.71452
0.79652
0.91463
0.99194
0.72297
0.98032
0.21892
0.43308
0.35611
0.56402
0.94870
0.84713
0.65556
0.62403
0.81108
0.84225
83
Unidad de Consultora
Estadstica
Estadsticos
Ajuste de modelos
Modelo lineal
+ pr.galv1 + pr.galv2 + +
pr.tbc) * (lineaB + lineaC)
Aceptar
Median
0.007969
3Q
1.526089
Max
5.933964
Coefficients:
(Intercept)
pr.cc
pr.galv1
pr.galv2
pr.tbc
lineaB
lineaC
pr.cc:lineaB
pr.cc:lineaC
pr.galv1:lineaB
pr.galv1:lineaC
pr.galv2:lineaB
pr.galv2:lineaC
pr.tbc:lineaB
pr.tbc:lineaC
--Signif. codes:
84
Unidad de Consultora
Estadstica
Modelos
Seleccin de modelos paso a paso
Start: AIC=240.75
raiz.consumo ~ (pr.cc + pr.galv1 + pr.galv2 + pr.tbc) * (lineaB +
lineaC)
- pr.cc:lineaC
- pr.cc:lineaB
- pr.galv2:lineaC
- pr.galv2:lineaB
- pr.tbc:lineaC
- pr.galv1:lineaB
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
Df Sum of Sq
RSS
AIC
1
0.343 497.71 236.07
1
0.736 498.10 236.16
1
1.293 498.66 236.29
1
2.100 499.46 236.48
1
3.785 501.15 236.87
1
4.393 501.76 237.01
1
10.824 508.19 238.50
497.36 240.75
1
35.187 532.55 243.98
Step: AIC=236.07
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC +
pr.galv2:lineaB + pr.galv2:lineaC + pr.tbc:lineaB + pr.tbc:lineaC
- pr.galv2:lineaC
- pr.cc:lineaB
- pr.galv2:lineaB
- pr.tbc:lineaC
- pr.galv1:lineaB
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
+ pr.cc:lineaC
Df Sum of Sq
RSS
AIC
1
1.543 499.25 231.67
1
1.555 499.26 231.67
1
2.255 499.96 231.83
1
4.023 501.73 232.25
1
7.313 505.02 233.01
1
16.376 514.08 235.09
497.71 236.07
1
35.574 533.28 239.38
1
0.343 497.36 240.75
Step: AIC=231.67
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC +
pr.galv2:lineaB + pr.tbc:lineaB + pr.tbc:lineaC
pr.galv2:lineaB
pr.cc:lineaB
pr.tbc:lineaC
pr.galv1:lineaB
Df Sum of Sq
RSS
AIC
1
0.948 500.20 227.13
1
1.561 500.81 227.27
1
4.772 504.02 228.02
1
6.631 505.88 228.45
85
Unidad de Consultora
Estadstica
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
+ pr.galv2:lineaC
+ pr.cc:lineaC
1
1
1
1
15.430 514.68
499.25
35.282 534.53
1.543 497.71
0.593 498.66
230.47
231.67
234.89
236.07
236.29
Step: AIC=227.13
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.cc:lineaB + pr.galv1:lineaB + pr.galv1:lineaC +
pr.tbc:lineaB + pr.tbc:lineaC
- pr.cc:lineaB
- pr.tbc:lineaC
- pr.galv1:lineaB
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
+ pr.galv2:lineaB
+ pr.cc:lineaC
+ pr.galv2:lineaC
- pr.galv2
Df Sum of Sq
RSS
AIC
1
1.492 501.69 222.71
1
4.371 504.57 223.38
1
6.089 506.29 223.78
1
14.666 514.86 225.75
500.20 227.13
1
34.642 534.84 230.20
1
0.948 499.25 231.67
1
0.582 499.61 231.75
1
0.236 499.96 231.83
1
94.996 595.19 242.71
Step: AIC=222.71
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB +
pr.tbc:lineaC
- pr.tbc:lineaC
- pr.galv1:lineaB
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
+ pr.cc:lineaC
+ pr.cc:lineaB
+ pr.galv2:lineaB
+ pr.galv2:lineaC
- pr.cc
- pr.galv2
Df Sum of Sq
RSS
AIC
1
4.427 506.12 218.98
1
4.802 506.49 219.07
1
13.188 514.88 220.99
501.69 222.71
1
33.409 535.10 225.49
1
1.494 500.19 227.13
1
1.492 500.20 227.13
1
0.879 500.81 227.27
1
0.257 501.43 227.41
1
48.446 550.13 228.74
1
93.828 595.52 238.01
Step: AIC=218.98
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.galv1:lineaB + pr.galv1:lineaC + pr.tbc:lineaB
- pr.galv1:lineaB
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
+ pr.tbc:lineaC
+ pr.cc:lineaC
+ pr.cc:lineaB
86
Df Sum of Sq
RSS
1
4.497 510.61
1
12.337 518.45
506.12
1
29.516 535.63
1
4.427 501.69
1
2.055 504.06
1
1.547 504.57
AIC
215.25
217.03
218.98
220.85
222.71
223.26
223.38
Unidad de Consultora
Estadstica
+
+
-
pr.galv2:lineaC
pr.galv2:lineaB
pr.cc
pr.galv2
1
1
1
1
0.728
0.493
49.201
89.873
505.39
505.62
555.32
595.99
223.57
223.63
225.07
233.34
Step: AIC=215.25
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.galv1:lineaC + pr.tbc:lineaB
- pr.galv1:lineaC
<none>
- pr.tbc:lineaB
+ pr.galv1:lineaB
+ pr.cc:lineaC
+ pr.tbc:lineaC
+ pr.galv2:lineaC
+ pr.cc:lineaB
+ pr.galv2:lineaB
- pr.cc
- pr.galv2
Df Sum of Sq
RSS
1
7.882 518.49
510.61
1
33.283 543.89
1
4.497 506.12
1
4.200 506.41
1
4.121 506.49
1
0.597 510.02
1
0.246 510.37
1
0.184 510.43
1
45.549 556.16
1
86.487 597.10
AIC
212.28
215.25
217.88
218.98
219.05
219.07
219.88
219.96
219.97
220.49
228.80
Step: AIC=212.28
raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaB +
lineaC + pr.tbc:lineaB
Df Sum of Sq
<none>
- pr.tbc:lineaB
+ pr.galv1:lineaC
+ pr.cc:lineaC
- pr.cc
+ pr.tbc:lineaC
+ pr.galv2:lineaC
+ pr.galv2:lineaB
+ pr.galv1:lineaB
+ pr.cc:lineaB
- pr.galv1
- pr.galv2
- lineaC
1
1
1
1
1
1
1
1
1
1
1
1
31.792
7.882
6.288
37.857
3.574
0.521
0.050
0.042
0.016
76.987
81.223
113.472
RSS
518.49
550.29
510.61
512.21
556.35
514.92
517.97
518.44
518.45
518.48
595.48
599.72
631.97
AIC
212.28
214.48
215.25
215.62
215.76
216.23
216.93
217.03
217.03
217.04
223.72
224.55
230.68
Call:
lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc +
lineaB + lineaC + pr.tbc:lineaB, data = acero)
Coefficients:
(Intercept)
8.5303698
lineaB
-1.1257278
pr.cc
0.0020305
lineaC
2.7411554
pr.galv1
0.0029066
pr.tbc:lineaB
0.0003746
pr.galv2
0.0015580
pr.tbc
0.0009934
87
Unidad de Consultora
Estadstica
Esta salida muestra el modelo simplificado (raiz.consumo pr.cc + pr.galv1 + pr.galv2
+ pr.tbc + lineaB + lineaC + pr.tbc:lineaB). Las variables eliminadas no influyen
significativamente en el consumo energtico.
Estadsticos
Ajuste de modelos
Modelo lineal
+ pr.galv1 + pr.galv2 +
pr.tbc + lineaB + lineaC +
pr.tbc:lineaB
Aceptar
Call:
lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc +
lineaB + lineaC + pr.tbc:lineaB, data = acero)
Residuals:
Min
1Q Median
-5.4317 -1.2986 -0.0415
3Q
1.5019
Max
6.3258
Coefficients:
Estimate Std. Error t value
(Intercept)
8.530e+00 9.441e-01
9.035
pr.cc
2.030e-03 7.198e-04
2.821
pr.galv1
2.907e-03 7.225e-04
4.023
pr.galv2
1.558e-03 3.770e-04
4.132
pr.tbc
9.934e-04 9.446e-05 10.516
lineaB
-1.126e+00 1.199e+00 -0.939
lineaC
2.741e+00 5.612e-01
4.884
pr.tbc:lineaB 3.746e-04 1.449e-04
2.585
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*'
Pr(>|t|)
6.77e-15
0.005689
0.000106
7.07e-05
< 2e-16
0.350045
3.59e-06
0.011051
***
**
***
***
***
***
*
La coeficientes relacionados con la variable lineaB muestran ciertas dudas respecto a su significatividad. Generamos un modelo sin este factor aislado.
88
Unidad de Consultora
Estadstica
raiz.consumo pr.cc + pr.galv1 + pr.galv2 + pr.tbc + lineaC +
pr.tbc:lineaB
Ejemplo 6.15. Genere el modelo anterior y denomnelo ModeloComple3.
Solucin: Procedemos de forma similar al ejemplo anterior:
Call:
lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc +
lineaC + pr.tbc:lineaB, data = acero)
Residuals:
Min
1Q
Median
-5.36027 -1.31064 -0.02664
3Q
1.56234
Max
6.47916
Coefficients:
(Intercept)
pr.cc
pr.galv1
pr.galv2
pr.tbc
lineaC
pr.tbc:lineaB
--Signif. codes:
De entre los modelos obtenidos, (ModeloComple0, ModeloComple2, ModeloComple3), estimaremos si ajustan igual de bien o por el contrario muestran diferencias.
Ejemplo 6.16. Compare los modelos ModeloComple2 y el ModeloComple3.
Solucin: Al igual que en apartados anteriores la comparacin de modelos se realiza del siguiente
modo:
Modelos
Test de hiptesis
Comparar dos modelos
89
Unidad de Consultora
Estadstica
y
y
Modelos
Test de hiptesis
Comparar dos modelos
y
y
90
Unidad de Consultora
Estadstica
Solucin: Para tal menester seguimos los siguientes pasos:
1. Estudio de la colinealidad.
Modelos
Diagnsticos numricos
Factores de inflaccin de. . .
> vif(ModeloComple3)
pr.cc
1.581420
pr.galv1
1.393477
pr.galv2
1.019939
pr.tbc
1.335018
lineaC pr.tbc:lineaB
1.713150
1.929893
Si alguno de los valores supera el valor 4 implica colinealidad (y por lo tanto, sobra alguna
variable en el modelo). En este modelo todos los valores no sobrepasan dicha cantidad y por
lo tanto no presentan colinealidad.
2. Comprobemos ahora si el modelo es homocedstico mediante el test de Breusch-Pagan.
Modelos
Diagnsticos numricos
Test de Breusch-Pagan
Aceptar
91
Unidad de Consultora
Estadstica
Modelos
Diagnsticos numricos
Test Reset de no linealidad. . .
Desmarcar 3 cubos
Aceptar
Modelos
Diagnsticos numricos
Test de valores atpicos de Bonferroni. . .
> outlier.test(ModeloComple3)
max|rstudent| = 3.212874, degrees of freedom = 109,
unadjusted p = 0.00172831, Bonferroni p = 0.2022123
Observation: 107
Tenemos que la observacin 107 sigue siendo atpica. . .
5. Los test anteriores se pueden analizar grficamente:
Modelos
Grficas
Grficas bsicas de diagnstico. . .
92
Unidad de Consultora
Estadstica
> oldpar <- par(oma = c(0, 0, 3, 0), mfrow = c(2, 2))
> plot(Modelo4)
> par(oldpar)
6. Clculo de intervalo de confianza para las obseraciones atpicas. Nuestro inters se centra en
la observacin 107 (si bien la distancia de Cook indica que apenas influye en el anlisis).
Modelos
Grficas
Grficas de comparacin de. . .
93
Unidad de Consultora
Estadstica
Como se mantiene dentro del intervalo de confianza no nos preocupamos por la observacin
107.
La estimacin finaliza con el siguiente modelo:
2( consumo 1) =7,922(0,685)
+ 2,141 1003 (7,0971004 ) pr.cc
+ 2,801 1003 (7,1331004 ) pr.galv1
+ 1,680 1003 (3,5381004 ) pr.galv2
+ 1,043 1003 (7,7881005 ) pr.tbc
+ 2,558 1004 (7,0401005 ) lineaB pr.tbc
+ 2,778(5,5951001 ) lineaC
+
Adjusted R-squared: 0,8137
Residual standard error: 2,18 on 110 degrees of freedom
con = 2,18.
94
Unidad de Consultora
Estadstica
7.
Redaccin de un artculo
La difusin del trabajo se convierte habitualmente en nuestra ltima meta. Si bien no existen reglas
precisas para garantizar la publicacin de nuestra investigacin, y sin nimo de hablar ex cathedra,
en esta seccin sugerimos diversas observaciones que el investigador puede considerar.
Lo primero consiste en identificar un grupo de revistas interesadas por el trabajo. Seguidamente,
comprobamos si en esas revistas han publicado modelos similares al nuestro. Si aparecen artculos
similares, lo escribiremos dos o tres veces imitando dichos trabajos. La cuarta versin la redactaremos por nuestra cuenta.
En caso de que nuestro trabajo sea novedoso y no aparezca ninguna referencia previa, hemos
de ser conscientes de que tal vez los revisores de la revista descozcan completamente nuestra metodologa. Esto implica un especial cuidado con la redaccin y exposicin de nuestra investigacin,
procurando un enfoque muy pedaggico.
En general los artculos con metodologa estadstica se dividen en las siguientes secciones: introduccin, metodologa, resultados, conclusiones, referencias, tablas y grficos. A continuacin presentamos un conjunto de ideas o sugerencias para publicar el modelo obtenido.
Metodologa.
Objetivo: analizar la relacin del consumo de energa con la produccin.
Datos: Se realizaron 39 observaciones en cada una de las tres lneas de produccin, recogindose 15 observaciones en cada turno (5 para cada lnea) salvo en el ltimo, que slo se
pudo realizar 12 mediciones (4 en cada lnea). En total se disponen de 117 mediciones que
recogen el consumo de energa, la produccin colada continua (cc), convertidor de acero (ca),
galvanizado tipo 1, galvanizado tipo 2, tren de bandas caliente (tbc) y chapa pintada (pint).
Adems, se anot si durante el turno correspondiente se detect alguna anomala o no en la
produccin.
Mtodo de anlisis: Se realiz una anlisis de la covarianza y se emple la transformacin de
Box-Cox con = 0,5 con el fin de conseguir normalidad, linealidad y homocedasticidad en el
modelo ( = 0,05). Se emple el software estadstico R (Venables and Ripley, 2002; Crawley,
2009).
Resultados
2( consumo 1) =7,922(0,685)
+ 2,141 1003 (7,0971004 ) pr.cc
+ 2,801 1003 (7,1331004 ) pr.galv1
+ 1,680 1003 (3,5381004 ) pr.galv2
+ 1,043 1003 (7,7881005 ) pr.tbc
+ 2,558 1004 (7,0401005 ) lineaB pr.tbc
+ 2,778(5,5951001 ) lineaC
+
Adjusted R-squared: 0,8137
Residual standard error: 2,18 on 110 degrees of freedom
con = 2,18. El resto de variables e interacciones no son significativas al 5 %. Se presenta de
forma sucinta una posible interpretacin del modelo:
Existe diferente consumo segn la lnea de produccin empleada.
95
Unidad de Consultora
Estadstica
La lnea que menos consume es la A; la C consume ms que la A de una forma constante, y la
lnea B gasta ms de una forma proporcional a la produccin del tren de bandas en caliente.
El producto que ms consume por unidad producida es el Galvanizado I, seguido del CC, y
del Galvanizado II, siendo el de menor gasto el tren de bandas en caliente. La produccin de
CA y de PINT no influyen significativamente en el consumo de la empresa.
La presencia o no de averas tampoco afecta en el consumo.
El modelo explica el 81.37 % de la energa consumida por la empresa. El restante 18.63 % de
la energa se debe a otros factores no contemplados en el estudio.
Tablas y grficos. Presentamos a continuacin una serie de grficos que explican el modelo. No todos los presentados son igualmente relevantes. Decida qu grfico publicara y cul no.
(Fig. 13, 14, 15, 16 y 17).
96
Unidad de Consultora
Estadstica
97
Unidad de Consultora
Estadstica
Figura 17: Relaciones entre produccin y consumo de energa, por la lnea de montaje (diferentes
escalas).
98
Unidad de Consultora
Estadstica
8.
Ejercicios
mean
sd 0% 25% 50% 75% 100%
n NA
p4 198.99766 367.93078 0
0
0 295 2520 1283
0
p5 1607.92666 1030.08156 86 1080 1440 1872 14400 859 424
p7
31.53521
22.26721 1
20
25
40
250 710 573
Ejercicio 2. Represente grficamente la distribucin por barrios (p1).
Solucin:
99
Unidad de Consultora
Estadstica
Solucin:
Call:
lm(formula = p12 ~ p4 + p5 + p7 + p1 + p2 + p3, data = alcohol)
Residuals:
Min
1Q
-12.965 -5.349
Median
-2.224
3Q
2.741
Max
48.972
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.7314781 3.1418905
0.551 0.581851
p1[T.Calzada-Nata.-Moreda] 0.2982704 1.6833515
0.177 0.859442
p1[T.Centro-Cimadevilla]
1.5453320 1.5566696
0.993 0.321397
p1[T.Contrueces-Ceares]
3.4139943 2.4495026
1.394 0.164101
p1[T.El Coto]
-0.8240901 2.0950283 -0.393 0.694249
p1[T.El Llano]
0.6082775 1.6791857
0.362 0.717344
p1[T.Periferia]
2.6534485 2.0806684
1.275 0.202885
p1[T.Pumar.-Roces]
1.1068011 1.6444040
0.673 0.501258
p2[T.Mascul.]
3.2248798 0.8420124
3.830 0.000147 ***
p3
0.0673985 0.1292659
0.521 0.602356
p4
-0.0016527 0.0053703 -0.308 0.758416
p5
0.0005950 0.0004561
1.305 0.192702
p7
0.0781025 0.0208088
3.753 0.000198 ***
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
100
backward/forward
BIC
Unidad de Consultora
Estadstica
Start: AIC=2016.36
p12 ~ p4 + p5 + p7 + p1 + p2 + p3
- p1
- p4
- p3
- p5
<none>
- p7
- p2
Df Sum of Sq
RSS
7
395.41 33704
1
7.22 33315
1
20.72 33329
1
129.73 33438
33308
1
1073.76 34382
1
1118.05 34426
AIC
1978.9
2010.3
2010.5
2012.0
2016.4
2024.5
2025.1
Step: AIC=1978.91
p12 ~ p4 + p5 + p7 + p2 + p3
- p4
- p3
- p5
<none>
- p2
- p7
+ p1
Df Sum of Sq
RSS
1
2.84 33706
1
20.27 33724
1
192.53 33896
33704
1
1059.88 34763
1
1274.22 34978
7
395.41 33308
AIC
1972.8
1973.1
1975.4
1978.9
1986.7
1989.5
2016.4
Step: AIC=1972.83
p12 ~ p5 + p7 + p2 + p3
- p3
- p5
<none>
+ p4
- p2
- p7
+ p1
Df Sum of Sq
RSS
1
19.74 33726
1
201.80 33908
33706
1
2.84 33704
1
1057.06 34764
1
1273.99 34980
7
391.03 33315
AIC
1967.0
1969.4
1972.8
1978.9
1980.6
1983.4
2010.3
Step: AIC=1966.99
p12 ~ p5 + p7 + p2
- p5
<none>
+ p3
+ p4
- p2
- p7
+ p1
Df Sum of Sq
RSS
1
190.99 33917
33726
1
19.74 33706
1
2.32 33724
1
1052.82 34779
1
1505.36 35232
7
390.67 33336
AIC
1963.4
1967.0
1972.8
1973.1
1974.7
1980.5
2004.5
Step: AIC=3088.28
p12 ~ p7 + p2
Call:
101
Unidad de Consultora
Estadstica
lm(formula = p12 ~ p7 + p2, data = alcohol)
Coefficients:
(Intercept)
8.29555
p7
0.07475
p2[T.Femen.]
-2.90666
Call:
lm(formula = p12 ~ p7 + p2, data = alcohol)
Residuals:
Min
1Q
-25.982 -5.355
Median
-2.510
3Q
2.826
Max
50.369
Coefficients:
(Intercept)
p2[T.Mascul.]
p7
Signif. codes:
Breusch-Pagan test
data: p12 ~ p2 + p7
BP = 48.3988, df = 1, p-value = 3.478e-12
RESET test
data: p12 ~ p2 + p7
RESET = 14.9451, df1 = 1, df2 = 706, p-value = 0.0001209
outlierTest(Modelofinal)
rstudent unadjusted p-value Bonferonni p
68
5.932588
4.6702e-09
3.3159e-06
284 5.883926
6.1879e-09
4.3934e-06
498 5.299646
1.5527e-07
1.1025e-04
1131 5.270635
1.8084e-07
1.2840e-04
154 5.166829
3.1018e-07
2.2023e-04
738 4.814580
1.8055e-06
1.2819e-03
43
4.273992
2.1837e-05
1.5504e-02
1093 4.154694
3.6566e-05
2.5962e-02
102
Unidad de Consultora
Estadstica
Ejercicio 7. Realice una transformacin logartmica de las variables gasto total de alcohol (p12) y
dinero semanal que te dan (p7). Calcule el diagrama de dispersin de las logartmicas de p12 y p7.
Solucin:
Call:
lm(formula = log(p12) ~ log(p7) + p2, data = alcohol)
Residuals:
Min
1Q
-2.77672 -0.58646
Median
0.05107
3Q
0.62273
Max
2.37514
Coefficients:
(Intercept)
log(p7)
p2[T.Mascul.]
103
Unidad de Consultora
Estadstica
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Breusch-Pagan test
data: log(p12) ~ log(p7) + p2
BP = 0.2286, df = 1, p-value = 0.6326
RESET test
data: log(p12) ~ log(p7) + p2
RESET = 8e-04, df1 = 1, df2 = 706, p-value = 0.9773
outlierTest(ModeloTransform.)
No Studentized residuals with Bonferonni p < 0.05
Largest |rstudent|:
rstudent unadjusted p-value Bonferonni p
916 -3.204988
0.0014115
NA
Observation: 916
104
Unidad de Consultora
Estadstica
A.
A.1.
Bases de datos
Produccin de acero
Con el fin de analizar el consumo energtico de una empresa productora de acero se inspeccionaron durante cinco das cada una de las tres lneas de produccin. En cada una de ellas se
anotaron las variables ms relevantes para las distintas horas del turno, salvo en la ltima hora donde slo se inspeccion durante cuatro das. En total se disponen de 117 mediciones recogidas en
las siguientes variables:
raiz.consumo = 2( consumo 1)
reco.linea Lnea de produccin: lnea A (A) y lneas B o C (ByC).
lineaB Vale 1 si es de la lnea B y 0 en el resto de los casos.
lineaC Vale 1 si es de la lnea C y 0 en el resto de los casos.
1
2
3
4
5
6
consumo pr.tbc pr.cc pr.ca pr.galv1 pr.galv2 pr.pint linea hora temperatura
135.31
6840
830
0
579
1401
0
A
1
A
84.08
443
903
58
611
1636
717
A
2
A
131.62
7270
572
36
982
1963
243
A
3
M
90.46
5031
694
122
896
1568
0
A
4
M
120.04
9365 1054
157
403
1480
0
A
5
M
153.68
9281 1003
172
605
1525
473
A
6
M
105
Unidad de Consultora
Estadstica
1
2
3
4
5
6
106
Unidad de Consultora
Estadstica
A.2.
Consumo de alcohol
1. Periferia
2. Pumarn - Roces
3. El Llano
4. El Coto
p1 Barrio donde vive:
5. Centro - Cimadevilla
1. Nunca he fumado
3. Fumaba pero ya no
4. S, fumo
p9 A qu edad comenzaste a fumar?:
Los siguientes consumos se expresan en unidades alcohlicas, obtenidas a partir de las tablas de
equivalencia segn la respuesta facilitada por la persona entrevistada.
1
2
3
4
5
6
1
2
3
4
5
6
codigo
p1
1 Calzada-Nata.-Moreda
2
El Coto
3
El Llano
4
El Llano
5
Pumar.-Roces
6
Centro-Cimadevilla
p10 p11 p12
0
6
6
2
0
2
3
4
7
3
4
8
0
4
4
1
1
3
p2
Femen.
Mascul.
Mascul.
Mascul.
Femen.
Mascul.
p3 p4
p5 p6 p7
p8
19
0 2160 2 30
Nunca he fumado
18
0 720 1 10
Nunca he fumado
23
0 1260 1 NA
Nunca he fumado
22 144 1800 3 NA Fumo actualmente
23
0 1620 1 30 Fumaba alguna vez
16
0 1080 2 10
Nunca he fumado
107
p9
NA
NA
NA
12
17
NA
UNIVERSIDAD
DE
OVIEDO
U N I O V I
C
E