Sunteți pe pagina 1din 28

REGRESIN POR COMPONENTES PRINCIPALES

Facultad de Ingeniera Econmica, Estadstica y Ciencias Sociales

Curso:
Anlisis de Regresin
Integrantes:
Or Torres Rub
Rojas Yucra Franco
Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

EL PROBLEMA DE LA MULTICOLINEALIDAD

En un modelo de regresin la Multicolinealidad es una


situacin en la que se presenta una fuerte correlacin entre
las variables explicativas.

Este problema trae consigo:


Nos da grandes varianzas y covarianzas de estimadores de
los coeficientes de regresin.
Violacin del supuesto de independencia de la variables.
Mala estimacin de nuestros parmetros en el modelo.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

METODOS DE DIAGNOSTICO DE MULTICOLINEALIDAD

Tolerancia de una variable: Si es prximo a 0 Hay multicolinealidad


= 1 2 Si es prximo a 1 Ausencia de multicolinealidad

Matriz de Correlaciones: Si es prximo a 0 Ausencia de multicolinealidad


= 1 Hay multicolinealidad
Si es prximo a 1

Factores de Inflacin de la Si > 5 Hay multicolinealidad


Varianza: Si > 10 Hay multicolinealidad severa
1
= Si es cercano a 1
1 2 Ausencia de multicolinealidad

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

MODELO DE REGRESIN POR COMPONENTES PRINCIPALES

Es el modelo de regresin resultante luego de aplicar la


tcnica multivariada de Anlisis de Componentes Principales
(ACP).

Esta tcnica es aplicada cuando se tiene un conjunto elevado


de variables, con el objetivo de obtener un menor nmero de
estas sin prdida de informacin.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

MODELO DE REGRESIN POR COMPONENTES PRINCIPALES

Tambin tiene como finalidad transformar un conjunto de variables, a


las que se les denomina variables originales interrelacionadas, en un
nuevo conjunto de variables que son combinacin lineal de las
originales, denominadas componentes principales.

Estas nuevas variables tienen la caracterstica de estar


intercorrelacionadas entre s (que no tenga repeticin o redundancia
en la informacin).

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

MODELO DE REGRESIN POR COMPONENTES PRINCIPALES

Modelo de Regresin Mltiple


=
= 0 + 1 1 + 2 2 ++ +

=
=

Modelo de Regresin con ACP Siendo


: la j-esima columna de la matriz
= 0 + 1 1 + 2 2 ++ + : son los elementos de la i-esima
columna de (el i-esimo eigenvector de
)
Variables incorrelacionadas entre s

<

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

CRITERIO PARA DETERMINAR EL NUMERO DE COMPONENTES

Existen algunos criterios para determinar el numero de


componentes principales a retener, los cuales son:
En general, el criterio mas sencillo para obtener el
numero de componentes principales a retener debe
ser tal que , , , en conjunto expliquen mas del
75% de la informacin total de la muestra.
Grafico de sedimentacin. En este grafico en el eje y se
representan los valores propios o races caractersticas y
en el eje x el numero de componentes principales
correspondientes a cada valor propio en orden
decreciente, de acuerdo a este grafico se retiene
aquellas componentes que se encuentran antes de que
el grfico presente una pendiente fuerte.
Criterio de Kaiser. Indica que hay que conservar los
componentes principales cuyos autovalores son mayores
a la unidad.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

CALCULO DE COMPONENTES PRINCIPALES

Del Modelo de Regresin Mltiple

= 0 + 1 1 + 2 2 ++ +
Consideramos un punto y una direccin = ( , , ) definida por un
vector de norma unidad, la proyeccin del punto sobre esta direccin es el
escalar:
= 11 1 + + 1 = 1

Se busca minimizar =1 2 que es equivalente a que las variables


originales tengan varianza mxima.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

CALCULO DE COMPONENTES PRINCIPALES

Pasemos a calcular los componentes, una forma simple podra ser aumentar los
coeficientes . Por ello para mantener la ortogonalidad de la transformacin se
impone que el modulo del vector = ( , , ) sea 1. Es decir =1 2 = 1.
Ademas se cumple que:
= = = , , ,
, = = i , = , , ,

El primer componente principal se calcula eligiendo de modo que tenga la


mayor varianza posible, sujeta a la restriccin =1 2 = 1.
El segundo componente principal se calcula obteniendo de modo que la
variable obtenida este incorrelada con .
Del mismo modo se eligen ( , , ) incorrelados entre si de manera que las
variables aleatorias obtenidas vayan teniendo menor varianza.
Universidad Nacional de Ingeniera Anlisis de regresin
Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Se presentan datos de contaminacin atmosfrica en 41 ciudades de EEUU relativos a los aos 1969-71 . La variable
de inters es Y =contenido de SO2 en el aire en microgramos por metro cbico y se desea estudiar su relacin con
seis variables regresoras, dos relativas a ecologa humana y cuatro al clima.

TEMP=temperatura media anual en grados Farenheit.


FABRIC=nmero de fbricas con ms de 20 empleados
HABITAN=nmero de habitantes, en miles
VIENTO=Velocidad media del viento al ao en millas por hora
PRECIP=precipitacin media anual en litros por pulgada
LLUVIA=nmero medio de das con lluvia al ao

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Primero, identificamos si existe multicolinealidad.

Mtodo de la Matriz de Correlaciones

Vemos que las variables Nmero de fbricas con


ms de 20 empleados y nmero de habitantes estn
altamente correlacionados.

Correlaciones
TEMP FABRIC HABITAN VIENTO PRECIP LLUVIA
TEMP 1 -,190 -,063 -0,35 0,386 -0,43
FABRIC -,190 1 0,955 ,238 -,032 ,132
HABITAN -,063 0,955 1 ,213 -,026 ,042
VIENTO -0,35 ,238 ,213 1 -,013 ,164
PRECIP 0,386 -,032 -,026 -,013 1 0,496
LLUVIA -0,43 ,132 ,042 ,164 0,496 1

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Mtodo de Factores de inflacin de la varianza

Se ve que el VIF en las variables Fbrica y Habitantes


excede a 10, por lo que presenta multicolinealidad
severa.

Mtodo de la Tolerancia de una variable

Se puede observar que los valores de las variables


Fbrica y Habitantes son cercanos a 0, por lo que
decimos que hay multicolinealidad y esas variables
sern combinaciones lineales de las variables
restantes.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Ahora, se corregir el problema de Multicolinealidad con el mtodo de Componentes Principales asistidos por el SPSS.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Analizamos los clculos obtenidos mediante el SPSS:


Grfico de Sedimentacin
Comunalidades
Inicial Extraccin
TEMP 1,000 ,892
FABRIC 1,000 ,968
HABITAN 1,000 ,979
VIENTO 1,000 ,424
PRECIP 1,000 ,941
LLUVIA 1,000 ,888
Mtodo de extraccin: Anlisis de
Componentes principales.

Parte de la variacin de la variable que


est compartida con las otras variables

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Varianza total explicada


Sumas de las saturaciones al cuadrado
Autovalores iniciales de la extraccin
Cuadro de % de la % % de la %
varianzas Componente Total varianza acumulado Total varianza acumulado

totales 1 2,196 36,603 36,603 2,196 36,603 36,603


2 1,500 24,999 61,602 1,500 24,999 61,602
explicadas 3 1,395 23,244 84,846 1,395 23,244 84,846
asociadas a 4 ,760 12,670 97,516
los 5 ,115 1,910 99,426

autovalores 6
,034 ,574 100,000

Mtodo de extraccin: Anlisis de Componentes principales .

Un porcentaje de varianza total explicada acumulada cerca del 80% , significa que el nmero de factores es suficiente

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

a
Matriz de componentes Matriz de coeficientes para el clculo de las
puntuaciones en las componentes
Componente
Componente
1 2 3
1 2 3
TEMP -,489 -,156 ,793 TEMP -,222 -,104 ,569
FABRIC ,906 -,206 ,322 FABRIC ,413 -,137 ,231
HABITAN ,856 -,272 ,414 HABITAN ,390 -,182 ,297
VIENTO ,524 ,160 -,351 VIENTO ,239 ,107 -,252
PRECIP -,060 ,763 ,596 PRECIP -,028 ,509 ,427
LLUVIA ,353 ,867 -,110 LLUVIA ,161 ,578 -,079
Mtodo de extraccin: Anlisis de componentes
Mtodo de extraccin: Anlisis de componentes
principales.
principales.
Puntuaciones de componentes.
a. 3 componentes extrados

La componente se calcula Los coeficientes para el clculo de las


de la siguiente forma puntuaciones se calculan as

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Matriz de covarianza de las puntuaciones de las


componentes

Componente 1 2 3
1 1,000 0,000 0,000
2 0,000 1,000 0,000
3 0,000 0,000 1,000
Mtodo de extraccin: Anlisis de componentes
principales.

Asignamos nombres a los


componentes segn las
variables que lo
conforman.

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

PROBLEMA APLICATIVO

Finalmente, hacemos el modelo de regresin:


b
Resumen del modelo
a
Coeficientes
R cuadrado Error tp. de
Coeficientes no Coeficientes Modelo R R cuadrado corregida la estimacin
estandarizados tipificados
1 ,647a ,418 ,371 18,615
Modelo B Error tp. Beta t Sig. a. Variables predictoras: (Constante), REGR factor score 3 for analysis
1 (Constante) 30,049 2,907 10,336 ,000 1, REGR factor score 2 for analysis 1, REGR factor score 1 for
analysis 1
REGR factor
score 1 for 14,917 2,943 ,635 5,068 ,000 b. Variable dependiente: Y

analysis 1
REGR factor
score 2 for 2,777 2,943 ,118 ,943 ,352
analysis 1 ANOVA
a

REGR factor Media


score 3 for ,448 2,943 ,019 ,152 ,880 Modelo gl cuadrtica Sig.
analysis 1 1 Regresin 3 3072,197 ,000b
a. Variable dependiente: Y
Residual 37 346,522
Total 40
a. Variable dependiente: Y
Quedando el modelo: Y = 30,049 + 14,917 +
b. Variables predictoras: (Constante), REGR factor score 3 for analysis
2,777 + 0,448 Clima 1, REGR factor score 2 for analysis 1, REGR factor score 1 for
analysis 1

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

Contenido

1 El problema de la multicolinealidad

2 Mtodos de diagnstico de multicolinealidad

3 Modelo de regresin por Componentes Principales

4 Criterio para determinar el nmero de componentes

5 Clculo de Componentes Principales

6 Problema aplicativo en SPSS y R

7 Conclusiones

Universidad Nacional de Ingeniera Anlisis de regresin


Regresin por Componentes Principales

CONCLUSIONES

Se logr una reduccin de las dimensiones hasta 3 factores, siendo el factor humano
Personas quien ms influencia tiene sobre la variable de inters contenido de SO2 en el
aire en microgramos por metro cbico

Se solucion el problema de la multicolinealidad.

a
Coeficientes
Coeficientes no Coeficientes
estandarizados tipificados Estadsticos de colinealidad
Modelo B Error tp. Beta t Sig. Tolerancia FIV
1 (Constante) 30,049 2,907 10,336 ,000
REGR factor
score 1 for 14,917 2,943 ,635 5,068 ,000 1,000 1,000
analysis 1
REGR factor
score 2 for 2,777 2,943 ,118 ,943 ,352 1,000 1,000
analysis 1
REGR factor
score 3 for ,448 2,943 ,019 ,152 ,880 1,000 1,000
analysis 1
a. Variable dependiente: Y

Universidad Nacional de Ingeniera Anlisis de regresin

S-ar putea să vă placă și