Sunteți pe pagina 1din 6

UNIVERSIDAD NACIONAL DE INGENIERIA

Facultad de Ingeniera Econmica y Ciencias Sociales


Escuela Profesional de Ingeniera Estadstica
Nombre:
Cdigo:

Dennis Adolfo Ormeo Garcia


20094138F
ANALISIS DE REGRESION

10.19 Estimar los parmetros del modelo para los datos del cemento de Hald (Ej. 9.1) usando
regresin por componentes principales
De la siguiente tabla de datos del libro Montgomery de la pagina 341, tenemos:
observacin
i
1
2
3
4
5
6
7
8
9
10
11
12
13
Xi1:
Xi2:
Xi3:
Xi4:
Yi:

yi

xi1

xi2

xi3

xi4

78.5
74.3
104.3
87.6
95.9
109.2
102.7
72.5
93.1
115.9
83.8
113.3
109.4

7
1
11
11
7
11
3
1
2
21
1
11
10

26
29
56
31
52
55
71
31
54
47
40
66
68

6
15
8
8
6
9
17
22
18
4
23
9
8

60
52
20
47
33
22
6
44
22
26
34
12
12

Aluminato tricalcico
Silicato Tricalcico
Alumino Ferrito tricalcico.
Silicato Dicalcico
Calor producido (Caloras)

Primero vamos analizar si existe autocorrelacion entre las variables predictoras, para ellos
aplicaremos la estadstica de Durbin-Watson
Resumen del modelob
Error estndar
R cuadrado
de la
Modelo
R
R cuadrado
ajustado
estimacin
1
,991a
,982
,974
2,4460
a. Predictores: (Constante), xi4, xi3, xi1, xi2
b. Variable dependiente: yi

DurbinWatson
2,053

Vemos que la Estadstico Dw = 2,053 est entre el Du=2,094 y el DL=0,574 por lo que no se
puede tomar una decisin. Pero podemos tomar otra estadstica. Para verificar la presencia del
problema de multicolinealidad.
Para ellos utilizamos la matriz de correlacin para analizar la correlacin por pares de
regresores para detectar la presencia de este problema.

Correlacin

xi1
xi2
xi3
xi4
Sig. (unilateral) xi1
xi2
xi3
xi4

Matriz de correlaciones
xi1
xi2
1,000
,229
,229
1,000
-,824
-,139
-,245
-,973
,226
,226
,000
,325
,209
,000

xi3
-,824
-,139
1,000
,030
,000
,325

xi4
-,245
-,973
,030
1,000
,209
,000
,462

,462

Entonces se puede ver en la matriz de correlacin la presencia de dos pares de regresores


altamente correlacionados. (Xi1 con Xi3) y (Xi2 con Xi4). Esto nos dice que existe el problema
de multicolinealidad mas no nos dice que variables origina esto.
Incluso podemos darle sustento Tcnico Mediante el test de Esfericidad de Bartlett.
Prueba de KMO y Bartlett
Medida Kaiser-Meyer-Olkin de adecuacin de
muestreo
Prueba de esfericidad de Aprox. Chi-cuadrado
Bartlett
gl
Sig.

,237
67,282
6
,000

Entonces podemos ver la significancia de la prueba debido a que nuestro p-value es menor que
nuestro alfa=0.05.
Entonces estando seguro que hay multicolinealidad aplicamos el Anlisis de Componentes
Principales.

Desarrollando el mtodo vemos primero la comunalidad de las Variables. De la matriz de


comunalidades observamos que la variable Xi1: Aluminato tricalcico tiene el 91% de
aportacin al modelo, Xi2: Silicato Tricalcico tiene el 98% de aportacin al modelo, Xi3:
Alumino Ferrito tricalcico tiene el 92% de aportacin al modelo y la variable Xi4: Silicato
Dicalcico tiene el 99% de aportacin al modelo.
Las Comunalidades aparecen al principio, y son muy altas (cercanas a 1), con lo cual se afirma
que las variables quedan muy bien explicadas a travs de las componentes extradas.
Comunalidades
Inicial
Extraccin
xi1
1,000
,915
xi2
1,000
,981
xi3
1,000
,924
xi4
1,000
,992
Mtodo de extraccin: anlisis
de componentes principales.

Del cuadro de Varianzas totales Explicadas Asociadas a los Autovalores observamos que dos
factores recogen el 95% de la varianza explicada y son los que tienen autovalores mayores que
1.
Varianza total explicada
Autovalores iniciales
Sumas de extraccin de cargas al cuadrado
Componente
Total
% de varianza % acumulado
Total
% de varianza % acumulado
1
2,236
55,893
55,893
2,236
55,893
55,893
2
1,576
39,402
95,294
1,576
39,402
95,294
3
,187
4,665
99,959
4
,002
,041
100,000
Mtodo de extraccin: anlisis de componentes principales.
Al final
Inicialmente

El Grfico de la varianza asociada a cada factor se utiliza para determinar cuntos factores
deben retenerse.
Con el grafico de sedimentacin tambin podemos explicar el cuadro de la varianza total
explicada, vemos el primer codo rodeado por el crculo punteado rojo lo cual nos indica una
disminucin del autovalor y los que nos conllevan a solo tomar dos componentes.

Finalmente mostramos la:


Matriz de componentea
Componente
1
2
xi1
,712
-,639
xi2
,843
,520
xi3
-,589
,759
xi4
-,819
-,566
Mtodo de extraccin:
anlisis de componentes
principales.
a. 2 componentes extrados.
Entonces Nuestro Z1 y Z2 (componentes principales elegidos) estn determinados de la
siguiente manera:

Z1 = 0.712Xi1 + 0.843Xi2 0.589Xi3 0.819Xi4


Z2 = -0.639Xi1 + 0.520Xi2 + 0.759Xi3 0.566Xi4

Hallando los valores para los componentes elegidos, tenemos la siguiente tabla:
y
78.5
74.3
104.3
87.6
95.9
109.2
102.7
72.5
93.1
115.9
83.8
113.3
109.4

z1
-25.772
-26.264
33.948
-9.24
18.259
30.878
47.062
-22.149
18.326
30.923
-6.961
48.341
49.904

z2
-20.359
-3.606
16.843
-11.439
8.443
15.95
44.51
7.275
28.012
-0.659
18.374
27.33
28.25

Procediendo con el anlisis de ANOVA que nos arroja el SPSS tenemos:


a

ANOVA
Suma de
Modelo
1

cuadrados
Regresin
Residuo
Total

Media
gl

cuadrtica

2607,114

1303,557

108,649

10

10,865

2715,763

12

Sig.

119,978

,000

a. Variable dependiente: y
b. Predictores: (Constante), z2, z1

De la tabla adjunta se observa que el p-value=0.000 < 0.005, entonces rechazamos la hiptesis
nula. Conclusin: Existe suficiente evidencia estadstica para afirmar que la regresin es
significativa; es decir, al menos una de las variables regresoras es significativa para el modelo,
con un nivel de significancia del 5%.
Coeficientesa
Coeficientes
estandarizado
Coeficientes no estandarizados
s
Modelo
B
Error estndar
Beta
1
(Constante)
90,460
1,118
z1
,657
,049
1,264
z2
-,368
,079
-,443
a. Variable dependiente: y

t
80,930
13,324
-4,666

Sig.
,000
,000
,001

De la tabla de coeficientes mostrada podemos obtener el Modelo con los componentes


principales:

Y= 90.460 + 0.657xZ1 - 0.368xZ2


Aplicando en Estadstico Durbin Watson nuevamente para probar la correlacin
Resumen del modelob
Error estndar
R cuadrado
de la
Modelo
R
R cuadrado
ajustado
estimacin
a
1
,980
,960
,952
3,29620
a. Predictores: (Constante), z2, z1
b. Variable dependiente: y

DurbinWatson
1,617

Vemos que la Estadstico Dw = 1,617 es mayor que el Du por lo que no se puede rechazar Ho. Y
concluimos que nuestro coeficiente de correlacin es igual a 0, eliminando el problema de la
multicolinealidad a un nivel de significancia del 5%.
Conclusin:

El Acp nos brinda la informacin de que componente principal est originando el


problema de la multicolinealidad.
Adems esas variables regresoras que correspondan a esos autovalores pequeos que
tienden a 0, deben ser retirados de las componentes principales por que originan un
varianza y covarianza de los coeficientes de regresin muy grande.
Es por eso que mediante el ACP obtuvimos solo 2 componentes principales de los 4
posibles, y solo ellos deben estar en el modelo poder suprimir el problema de la
multicolinealidad y de esta manera estar cumpliendo con el supuesto de
independencia de las variables para el modelo de regresin lineal Mltiple

Cambio de R cuadrado:
Modelo
Mnimos Cuadrados
Componentes Principales

R cuadrado

R cuadrado ajustado
,982
,960

,974
,952

El modelo al comienzo con problema de dos pares de regresores altamente correlacionados.


(Xi1 con Xi3) y (Xi2 con Xi4) explicaban el modelo un 98%, luego de seguir los pasos
correctamente de reduccin de dimensiones y eliminando el problema de multicolinealidad
nuestros dos componentes principales explican el modelo de forma correcta con un 96% de
precisin, lo cual indica una baja de 2% de explicacin de nuestra variable endgena Yi: calor
producido

S-ar putea să vă placă și