Sunteți pe pagina 1din 156

Regresión por Mínimos Cuadrados

Parciales P LS Aplicada a Datos


Variedad Valuados

Carlos Gaviria Peña

Universidad Nacional de Colombia


Facultad de Ciencias, Escuela de Estadística
Medellín, Colombia
2016
Regresión por Mínimos Cuadrados
Parciales P LS Aplicada a Datos
Variedad Valuados

Carlos Gaviria Peña

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al título de:
Magister en Ciencias-Estadística

Director:
Raúl Perez Agámez, PhD
Profesor Asociado.

Línea de Investigación:
Análisis Multivariado.

Universidad Nacional de Colombia


Facultad de Ciencias Exactas, Escuela de estadística
Medellín, Colombia
2015
A mi Esposa y mi Hijo.
Agradecimientos
Quiero expresar los mas sinceros agradecimientos, primero a Dios por que me ha guiado
en cada uno de mis pasos; a mis padres Edilma Peña y Walter Gaviria y a mi abuela Ana
Muñoz por que con su esfuerzo, su amor, sus palabras, sus enseñanzas y su guía me han
llevado al estado actual; a mis hermanos por estar siempre de forma incondicional a mi
lado; a mi esposa Monica Ramirez por estar presente bajo cualquier circunstancia; a mi
asesor de tesis Raúl Alberto Perez Agámez que con su tiempo, empeño y dedicación hizo
que este trabajo fuera posible; a María Eugenia Puerta que le dedicó valioso tiempo a
aspectos teóricos y prácticos relacionados con el desarrollo este proceso y todas aquellas
personas que de alguna u otra forma participaron en la realización de este trabajo.
Resumen

La regresión por mínimos cuadrados parciales (P LS) es una técnica de relación de va-
riables introducida por Wold (1972,1975,1985), Wold (1972), Wold (1985) y extendida
posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold
(2001). La regresión lineal múltiple ordinaria generalmente manipula variables controla-
bles o fácilmente medibles para predecir el comportamiento de otras variables y es usual
cuando las variables explicativas son pocas, cuando no existen problemas de multicoli-
nealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres
condiciones falla entonces la regresión lineal múltiple ordinaria no es ecaz. Por otro lado,
la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuan-
do el número de variables es demasiado grande se puede generar un modelo que ajuste
muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde
existen muchas variables explicativas, puede que existan pocas variables no observables
que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de
la regresión P LS es extraer estas variables latentes, recogiendo la mayor variación de las
variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la
mejor manera posible.

Actualmente existen datos que provienen de problemas reales y tales que no pertenecen
a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con
características especiales. Existen dos líneas en particular para abordar éste problema: la
primera es la geometría diferencial, que permite construir una variedad que transforma los
datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida
y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se
hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la
línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo
en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que
resulta de una relación de equivalencia entre los elementos del conjunto inicial.

En este trabajo se implementa la metodología de regresión P LS y se aplica a un tipo


de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la
evaluación de dicha metodología usando criterios apropiados mediante la comparación con
otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al
tipo de datos utilizado. La metodología de regresión P LS se compara con metodologías

ix
x

tales como regresión por componentes principales P CR, análisis y correlación canónico,
regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología
P LS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera
de trabajo futuro, se extiende la metodología de regresión P LS al caso donde tanto las
variables explicativas como las variables respuesta y los coecientes de regresión son del
tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve
tres problemas que se presentan con los datos de tipo real: en primer lugar problemas
de multicolinealidad tanto en las variables explicativas como en las variables respuesta,
en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y
por último problemas cuando la incertidumbre en los datos se representa por medio de
intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque
desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices
denidas positivas y el segundo enfoque desde la línea del embebimiento, en particular
sobre los conjuntos de multi-intervalos y multi-matrices.

Palabras clave: Componentes Principales P CR, Mínimos cuadrados Parciales P LS ,


Variedades, Datos de imágenes, Regresión P LS intervalo-valuada.
xi

Abstract
Partial least squares regression (P LS) is a method of relaiont of variables introduced by
Wold (1972,1975,1985), Wold (1972), Wold (1985) and later extended to the eld of che-
mometrics by his brother Wold Et al. (1984), Wold (2001). Regression generally handled
controllable variables or measurable variables easily to predict the behavior of other varia-
bles. The ordinary multiple linear regression is usual when the explanatory variables are
few, when there aren't problems of multicollinearity and when there is a clear relationship
between the variables. If any of these three conditions fails then ordinary linear regression
is not eective. Furthermore, multiple linear regression uses many explanatory variables,
but when the number of variables is too large can create a model that t the data very
well, but fails in predicting new data. In these cases, where there are many explanatory
variables, there may be few unobservable latent variables that reect the greater variabi-
lity in the response variable. The overall objective of the P LS regression is extract these
latent variables, collecting the greatest variation of the explanatory variables so that they
serve to model the response variable in the best way possible.

Actually there are data come from real problems such non-Euclidean space and thus must
be implemented methodologies for data with special characteristics. There are two lines in
particular to solve this problem: the rst line is dierential geometry for building a variety
that transforms and transports data to a Euclidean space where the multiple regression is
made and then again carries the date on no Euclidean space where the respective perfor-
mances with the results obtained are made. The second line is the line that allows you to
embedding the set, that is not a Euclidean space, on another Euclidean space by building
a cocient set resulting from an equivalence relation between the elements of the initial set.

In this work the regression methodology P LS is implemented and these methods are ap-
plied to a data type valued variety, including data related to images and evaluation of this
methodology is performed using appropriate evaluation criteria by comparing with other
classical Euclidean methodologies for data, which seek to implement the type Data used.
Methodology P LS regression compared to methodologies such as principal component
regression P CA, canonical correlation analysis and Regression or Ridge. P LS methodo-
logy is implemented in R to the type of data used in the work to make such comparisons
using simulated data and actual data, if possible. Furthermore, the methodology P LS
regression to the case where both the explanatory variables as the response variables
and the regression coecients are of the type interval extends. In this way a regression
methodology solves three problems encountered with actual data type is proposed: rst
multicollinearity in explanatory and response variables, second real data does not belong
to a Euclidean space and nally, problems when uncertainty in the data is represented by
intervals. Thus, this work presents two dierent approaches: the rst approach from the
line of Riemannian manifolds, in particular on the set of positive denite matrices and
xii

the second approach from the line of embedding, in particular on the sets of intervals and
multi multimatrices.

Keywords: Principal Components P CR, Partial Least Square P LS , Manifolds, Image


Data, P LS Regression interval-valued.
Contenido

Agradecimientos vii

1. Introducción 3

2. Propuesta Inicial 7
2.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.2. Objetivos especícos . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Regresión Lineal Múltiple y PLS 9


3.1. Regresión Lineal Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2.1. Cálculo de las Componentes Principales . . . . . . . . . . . . . . . 12

3.3. Análisis de Correlación Canónica . . . . . . . . . . . . . . . . . . . . . . . 15

3.4. Regresión de Ridge y Regresión de Lasso . . . . . . . . . . . . . . . . . . . 16

3.5. Regresión P LS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.5.1. Fundamentos de la Regresión P LS1 . . . . . . . . . . . . . . . . . . 20

3.5.2. Normalización de los Datos . . . . . . . . . . . . . . . . . . . . . . 21

3.5.3. Algoritmo P LS1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.5.4. Algoritmo P LS2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5.5. Algoritmo P LS2 Mediante Etapas . . . . . . . . . . . . . . . . . . 35

4. Regresión PLS. Implementación 41


4.1. Matrices Denidas Positivas. Geometría . . . . . . . . . . . . . . . . . . . 41

4.1.1. Matriz Exponencial y Matriz Logarítmica . . . . . . . . . . . . . . 42

xiii
xiv CONTENIDO

4.1.2. El Conjunto de Matrices Denidas Positivas como una


Variedad Riemanniana . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.1.3. El Mapeo Exponencial Riemanniano. . . . . . . . . . . . . . . . . . 47

4.1.4. Distribución de Probabilidad para Matrices Denidas


Positivas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2. Datos respuesta en Sym+ (p). Modelo de Regresión. . . . . . . . . . . . . . 54

4.2.1. Métrica Log-Euclídea. . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.2. Métrica de Frobenius. . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3. P LS para Datos Respuesta en el Conjunto Sym+ (p) . . . . . . . . . . . . 60

4.4. Implementación con Datos Simulados. . . . . . . . . . . . . . . . . . . . . . 62

5. Conclusiones y Trabajos Futuros. 83

A. Anexo: Elementos de Topología y Geometría Diferencial 85


A.1. Conceptos de Topología . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

A.2. Variedades Diferenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

A.3. Geometría Riemanniana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A.4. Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

A.4.1. Mapa Exponencial y Logarítmico de Grupos de Lie . . . . . . . . . 95

A.4.2. Métricas Bi-Invariantes . . . . . . . . . . . . . . . . . . . . . . . . . 95

A.4.3. Espacios Simétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

A.4.4. Acciones de Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . 96

A.4.5. Espacios Simétricos como Grupos de Lie Cocientes . . . . . . . . . 97

B. Anexo: Teorema de Rådström 99

C. Anexo: Multi-Intervalos y Multi-Matrices 103


C.1. El conjunto I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

C.2. El Conjunto Im . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

C.3. Órdenes Parciales y Convexidad . . . . . . . . . . . . . . . . . . . . . . . . 108

C.4. El conjunto In×p (R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

C.4.1. Intervalo-eigenvalores e Intervalo-eigenvectores . . . . . . . . . . . . 111

C.4.2. Intervalo-Valores Singulares . . . . . . . . . . . . . . . . . . . . . . 113

D. Anexo: Algunos Elementos de Estadística Intervalo Valuada 115


CONTENIDO 1

E. Trabajo Futuro. Regresión P LS . Datos de Intervalo. 119


E.1. Regresión Lineal con Datos de Intervalos . . . . . . . . . . . . . . . . . . . 120

E.1.1. Método del Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

E.1.2. Método del Centro y el Rango . . . . . . . . . . . . . . . . . . . . . 121

E.1.3. Método Bivariante de Centro y el Rango . . . . . . . . . . . . . . . 121

E.1.4. Método Restringido . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

E.1.5. Estimación de Parámetros con Optimización Intervalo-valuada . . . 122

E.1.6. Regresión Lineal Simple con datos Intervalos . . . . . . . . . . . . . 128

E.1.7. Regresión de Polinimios con Datos Intervalos . . . . . . . . . . . . . 129

E.1.8. Regresión Lineal Múltiple con Datos de Intervalos . . . . . . . . . . 129

E.2. Análisis de Componentes Principales con Datos de Intervalos . . . . . . . . 130

E.2.1. Metodología de Regresión por Componentes Principales con Datos


de Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

E.3. Regresión P LS con datos de Intervalos . . . . . . . . . . . . . . . . . . . . 133

E.3.1. Algoritmo Kernel para P LS con Datos intervalo. . . . . . . . . . . 134

E.3.2. Algoritmo NIPALS para P LS con Datos Intervalo. . . . . . . . . . 135

Bibliografía 136
2 CONTENIDO
Capítulo 1

Introducción

La regresión por mínimos cuadrados parciales (P LS), por sus siglas en inglés, es una téc-
nica de relación de variables introducida en el año 1975 por Svante Wold, Hermand Wold y
Harald Martenes. El método de regresión P LS surgió con el n de resolver el problema de
la multicolinealidad en un modelo de regresión, entendiendo que ésta se presenta cuando
los coecientes de un modelo de regresión son estimados y hay un número relativamente
grande de variables explicativas, escritas de manera compacta mediante la matriz X, con
una relación de extrema dependencia entre ellas. El problema de multicolinealidad implica
que la estimación de coecientes puede ser insignicante a la variable explicada y esto
puede causar dicultades en la interpretación de la ecuación de regresión debido a que
los coecientes pueden tener signos inconsistentes. Cuando se presenta este problema, la
solución más directa es reducir la dimensionalidad de X, el conjunto de variables expli-
cativas. La pregunta inmediata es cómo llevar a cabo esta reducción. La respuesta por
lo general consiste en encontrar un conjunto de nuevas variables que se crean como una
combinación lineal de las originales de tal manera que el problema de multicolinealidad se
elimine. El método de los componentes principales ha sido ampliamente utilizado durante
muchos años y hasta hace poco era un punto de referencia entre las técnicas de reducción
de dimensionalidad. La aplicación del método de componentes principales se reere ge-
neralmente como regresión por componentes principales o (P CR), por sus siglas en inglés.

La metodología (P CR) realiza un análisis de componentes principales de X y estas com-


ponentes se utilizan como variables explicativas de las variables respuesta contenidas en
la matriz Y. Sin embargo, el problema de la elección de un subconjunto óptimo de varia-
bles independientes, (es decir, las componentes principales), se sigue presentando, ya que
las componentes se eligen para explicar X, pero no hay garantía de que las componen-
tes principales que explican a X sean pertinentes para explicar a Y. La Regresión P LS
encuentra componentes latentes, llamadas componentes P LS que explican no solamente
a X sino que son las mejores para explicar Y. Esto signica que se extiende el análisis
con una fase de regresión para que los componentes latentes de X expliquen la covarianza
entre X y Y en la medida de lo posible. En otras palabras, la regresión P LS pretende
extraer variables latentes de manera que conserven la mayor parte de la variación de las
variables X reales (observables) de tal manera que también se pueden usar para explicar

3
4 1 Introducción

la respuesta Y (dependiente).

Se ha desarrollado la técnica de regresión por mínimos cuadrados parciales P LS , para evi-


tar el efecto de multicolinealidad (entre otros factores) en la estimación de los parámetros
de regresión. A su vez, el modelo de regresión P LS busca predecir variables dependientes.
En la práctica, este objetivo representa un intento de maximizar la varianza explicada de
dichas variables (varianza de Y explicada por la correlación existente entre X y Y). Por
lo tanto, la regresión P LS puede ser más apropiada para nes de predicción. En efec-
to, Wold (1979) arma que la regresión P LS es adecuada principalmente para análisis
causales predictivos en situaciones altamente complejas con conocimiento teórico poco
desarrollado. Por tanto, la regresión P LS es un método de predicción más orientado que
el método P CR, ya que éste último se centra en la reducción de la dimensionalidad de X
sin tener en cuenta la relación que existe entre X y Y.

Las dos técnicas, una basada en la regresión por componentes principales P CR y otra en
la regresión P LS , se comparan en la solución del problema de multicolinealidad en la esti-
mación de los parámetros de regresión. Tanto la regresión P LS como la P CR tienen como
uno de sus objetivos principales reducir la dimensionalidad y abordar así los problemas
que ocurren a menudo en grupos de variables explicativas que tienen alta multicolinea-
lidad. Sin embargo, las dos técnicas adoptan enfoques diferentes y por lo tanto obtienen
resultados diferentes. P CR establece la máxima variabilidad de las variables explicativas
y P LS X y Y. Es
propone hacer lo mismo, pero además tiene en cuenta la relación entre
decir, la regresión P LS estima los parámetros de regresión de modo que la varianza de Y
explicada por la correlación existente entre X y Y es máxima, o, lo que es equivalente,
que la varianza residual de las relaciones de predicción es mínima.

Sin embargo, a pesar de las ventajas mencionadas, la regresión P LS no se desarrolla con


facilidad, ya que inicialmente fue difícil posicionarla dentro de un contexto estadístico y
esto hace lenta su aplicación. Por esta razón, es una buena idea revisar su historia. Como
se explica anteriormente, el método P LS fue desarrollado por Herman Wold. En 1975,
con los algoritmos NIPALS, Wold mostró cómo calcular las componentes principales a
través de una secuencia iterativa de simples mínimos cuadrados ordinarios (OLS ) por sus
siglas en inglés, así como la forma de calcular correlaciones canónicas con una secuencia
de múltiples regresiones iterativas. En efecto, Herman Wold aplicó la técnica a nuevos
problemas y campos. En la década de 1980, los intereses de investigación de P LS pasa-
ron de las ciencias sociales a aplicaciones de la química, en lo que hoy se conoce como
la quimiometría. La persona responsable de esta transición fue Svante Wold, el hijo de
Herman Wold. En 1983, Svante Wold junto con Martens Harald, adaptaron el algoritmo
NIPALS para resolver el problema de multicolinealidad en modelos de regresión lineal.
Ellos desarrollaron una nueva rama de las técnicas de regresión P LS en química analítica
conocida como regresión P LS . Además de proporcionar una solución al problema de mul-
ticolinealidad en los modelos de regresión, la técnica de regresión P LS también resuelve el
problema que surge cuando el número de individuos es menor que el número de variables
y el efecto que esto tiene sobre la estimación de coecientes de regresión. Esto da una
5

idea del potencial de este método en situaciones con muestras pequeñas. Los métodos de
regresión P LS son una poderosa herramienta de análisis debido a sus exigencias mínimas
en términos de escalas de medida, el tamaño de la muestra y la distribución residual. Una
de las grandes ventajas de la regresión P LS , es que no necesita de datos provenientes de
distribuciones normales o conocidas.

En la actualidad, la regresión P LS tiene gran utilidad para modelar problemas asociados


a la investigación de mercados, a la economía, biología, comunicación, medicina, análisis
de imagen, análisis sensorial, diseño de experimentos, entre otros.

La metodología de regresión P LS está implementada sobre datos que están en Espa-


cios Euclídeos, entendiendo estos como espacios vectoriales normados de dimensión nita
donde la norma es heredada de un producto interno, y en el caso de tener datos de otro
tipo, tales como datos variedad valuados o datos del tipo intervalo valuado, no existen
actualmente muchas implementaciones. El objetivo de este trabajo es implementar esta
metodología a este tipo de datos, pues en muchas aplicaciones tales como datos especiales
de imágenes medicas o problemas que involucran incertidumbre en la medida, pueden ser
abordados.

El presente trabajo está estructurado de la siguiente manera: en el capítulo 2 se da una


propuesta inicial, donde se enuncian los objetivos general y especícos así como la meto-
dología con la cual se lleva a cabo la investigación. En el capítulo 3 se habla de regresión
lineal múltiple y algunas metodologías que resuelven el problema de multicolinealidad,
tales como: regresión por componentes principales, método de correlación canónica, mé-
todos de regresión de Ridge y de Lasso y regresión por mínimos cuadrados parciales P LS ,
de manera que se tengan los preconceptos necesarios para llevar a cabo la extensión de la
metodología de regresión P LS a espacios no Euclídeos. En el capítulo 4 se hace uso de
la simulación para utilizar la regresión por mínimos cuadrados parciales P LS con datos
variedad valuados, en particular sobre un conjunto de matrices denidas positivas, y se
comparan los resultados obtenidos con las metodologías descritas en el capítulo 3. En el
capítulo 5 se dan conclusiones y recomendaciones alrededor del trabajo, así como temas
de trabajos futuros. En el apéndice E, a manera de una propuesta de trabajo futuro,
se extienden los conceptos de regresión P LS al caso donde las variables respuesta, las
variables explicativas y los coecientes de regresión son del tipo intervalo. Por último,
en los apéndices A, B, C y D se hace una revisión sobre las propiedades matemáticas
de los objetos geométricos que se consideran en el trabajo; se habla de elementos tales
como topología, variedades diferenciales, geometría Riemanniana y grupos de Lie; así co-
mo los elementos básicos necesarios sobre el conjunto de intervalos, el conjunto de multi
intervalos y el conjunto de multi matrices.
6 1 Introducción
Capítulo 2

Propuesta Inicial

2.1. Objetivos
2.1.1. Objetivo general
Aplicar la metodología de regresión por mínimos cuadrados parciales (P LS ) a datos no
Euclídeos y evaluar las ganancias obtenidas desde el punto de vista estadístico al compa-
rarse con otras metodologías.

2.1.2. Objetivos especícos

• Objetivo 1. Estudiar la metodología de regresión por mínimos cuadrados parciales


P LS en el caso de datos sobre espacios Euclídeos y estudiar aplicaciones de ésta
metodología.

• Objetivo 2. Aplicar la metodología de regresión P LS a datos no Euclídeos.

• Objetivo 3. Implementar la metodología de regresión P LS en R y compararla con


otra(s) metodología(s) existente(s) desde el punto de vista predictivo.

• Objetivo 4. Desarrollar o aplicar criterios apropiados de evaluación estadística de


la metodología propuesta.

• Objetivo 5. Extender la metodología de regresión por mínimos cuadrados parciales


P LS al caso donde las variables explicativas, las variables respuesta y coecientes
de regresión son del tipo intervalo.

7
8 2 Propuesta Inicial

2.2. Metodología
Se inicia esta investigación con una búsqueda de información sobre todos los temas re-
lacionados que se proponen en el trabajo, además de las deniciones básicas que son
necesarias para la comprensión y contextualización de todo el contenido de éste. Basados
en los algoritmos existentes P LS1 y P LS2 con relación a datos sobre Espacios Euclídeos,
se propone la aplicación de dichos algoritmos a datos especiales que no pertenecen a un
Espacio Euclídeo. Además, basados en los algoritmos de regresión P LS y la extensión
existente de componentes principales con matrices de entradas intervalos, se extiende la
metodología de regresión P LS al caso intervalo-valuado, a manera de trabajo futuro. Por
último, se implementan los algoritmos en R y se compararan con otros ya existentes, tales
como: regresión por componentes principales, análisis y correlación canónico, regresión
Ridge y regresión Lasso.
Capítulo 3

Regresión Lineal Múltiple y PLS

A continuación se habla de los algoritmos P LS1 y P LS2 sobre Espacios Euclídeos en


términos de su utilización y las propiedades matemáticas alrededor de su construcción,
de modo que las extensiones que se hacen en este trabajo acerca de ésta metodología
a espacios no Euclídeos resulte un poco más natural. Como la regresión P LS se aplica
sobre un modelo de regresión lineal múltiple bajo la presencia de multicolinealidad en las
variables explicativas y en las variables respuesta, entonces para mayor comprensión de
los algoritmos P LS se hace de forma preliminar una contextualización muy general de la
regresión lineal múltiple, así como de otras técnicas asociadas con ésta y que resuelven el
problema de multicolinealidad; de ésta manera se logra un trabajo autocontenido.

Los resultados presentados a continuación relacionados con Regresión Lineal Múltiple


M LR y Análisis de Componentes Principales P CR se presentan en Geladi, P. & Kowalski,
B. (1986).

3.1. Regresión Lineal Múltiple


La regresión por componentes principales (P CR), la regresión por mínimos cuadrados
parciales (P LS) y otras técnicas como análisis de correlación canónico, regresión Ridge,
regresión Lasso, entre otras, son usuales cuando se presenta multicolinealidad en las varia-
bles explicativas. La diferencia principal entre las metodologías P CR y P LS , por ejemplo,
es que la primera solo tiene en cuenta las variables explicativas para construir las variables
latentes, mientras que la segunda además de considerar las variables explicativas, tam-
bién tiene en cuenta la(s) variable(s) respuesta(s). Por otro lado, el análisis de correlación
canónico, al igual que P CR y P LS es una técnica de reducción de dimensionalidad, sin
embargo tiene problemas de predicción e interpretación en las variables latentes. Las me-
todologías Ridge, Lasso y otras no reducen la dimensionalidad para resolver el problema
de multicolinealidad, sino que resuelven un problema de optimización para que el nuevo
problema sea lo más próximo posible a la no presencia de ésta. En ésta sección se explica
cada una de éstas metodologías, su construcción matemática, sus diferencias, sus ventajas

9
10 3 Regresión Lineal Múltiple y PLS

y desventajas.

Para detectar la multicolinealidad se pueden usar distintas procedimientos e índices como


los son: índices de condición, número de condición, factores de inación de la varianza
(VIF), pruebas de independencia, entre otros.

El problema de regresión lineal múltiple (M LR), por sus siglas en inglés, se puede es-
tablecer de la siguiente manera: las características se miden para m variables xj con
j = 1, 2, · · · , m y para una variable y con el objetivo de establecer una relación lineal (o
de primer orden) entre ellas. Esto se puede representar matemáticamente como:

m
X
y = β0 + β1 x1 + β2 x2 + · · · + βm xm + ε = β0 + βj xj + ε = xT β + ε.
j=1

En esta ecuación, los xj para j = 1, 2, · · · , m, se llaman variables independientes e y es


la variable dependiente. Los βj son los coecientes y ε es el error o residual.

Esta ecuación describe dependencias multilineales para una muestra con una sola obser-
vación. Si se tiene una muestra de n observaciones, los yi para i = 1, 2, · · · , n pueden
T
escribirse como un vector columna Y , β sigue siendo el mismo y los vectores, xi dados
T
por xi = (x1i , x2i , · · · , xmi ), son las las de la matriz X :

Y = Xβ + ε

Ahora, es posible distinguir tres casos.

1. m > n. Existen más variables que las observaciones. En este caso, hay un número
innito de soluciones para β.

2. m = n. El número de observaciones y variables son iguales. Esta situación no se


encuentra a menudo en situaciones prácticas. Sin embargo, se da una solución única
para β, siempre que X tenga rango completo. Esto permite escribir

ε = Y − Xβ = 0

ε es llamado el vector residual. En este caso, este es un vector de ceros.

3. m < n. Hay más observaciones que variables. Esto no permite una solución exacta para
β. Sin embargo, se puede obtener una solución, reduciendo al mínimo la longitud
del vector residual ε en la siguiente ecuación:

ε = Y − Xβ.
3.2 Componentes Principales 11

El método más popular para hacer esto, se llama el método de mínimos cuadrados. La
solución de mínimos cuadrados es:

β = (X T X)−1 X T Y.

Esta ecuación da una idea del problema más frecuente en M LR: la inversa de XT X pue-
de no existir. Colinealidad, determinante cero y singularidad son nombres para el mismo
problema.

En este punto, puede parecer que siempre tiene que haber por lo menos tantas observa-
ciones como variables, pero hay otras maneras de formular este problema. Una de ellas es
la de eliminar algunas de las variables en el caso m > n. Existen muchos métodos para
elegir qué variables eliminar.

En general, M LR es usual para una variable dependiente. Este es el caso que casi siempre
se encuentra en los libros. También, la mayoría de los paquetes de software ejecutan M LR
de esta manera. Es fácil de extender M LR para más variables dependientes. El ejemplo
dado a continuación es para dos variables, pero la extensión de más de dos variables es
análogo. Suponga que hay dos variables dependientes, Y1 y Y2 . En este caso, se puede
simplemente escribir dos M LR y encontrar dos vectores de coecientes, β1 y β2 :

Y1 = Xβ1 + ε1 ; Y2 = Xβ2 + ε2 .

Pero se puede poner Y1 y Y2 en una matriz de orden n×2 y hacer lo mismo para β1 y β2
y ε1 y ε2 . Así que se tiene:

Y = XB + E.

Donde Y T = (Y1 , Y2 ), B T = (β1 , β2 ) y E T = (ε1 , ε2 ).

3.2. Componentes Principales


Esta técnica fue introducida inicialmente por Pearson a nales del siglo XIX y posterior-
mente los estudios de ésta fueron retomados por Hotelling en el primer tercio del siglo XX .
El método de regresión por componentes principales P CA surgió con el n de eliminar el
problema de la multicolinealidad en un modelo de regresión. Cuando los coecientes de
un modelo de regresión son estimados y hay un número relativamente grande de variables
explicativas con una relación de extrema dependencia entre ellas, existe multicolinealidad.
El problema de multicolinealidad signica que la estimación de coecientes puede ser in-
signicante a la variable explicada y esto puede causar dicultades en la interpretación
de la ecuación de regresión debido a signos de los coecientes erráticos. Cuando apare-
ce este problema, la solución más directa es reducir la dimensionalidad de la matriz de
variables explicativas X. La intención es encontrar un conjunto de nuevas variables que
12 3 Regresión Lineal Múltiple y PLS

se crean como una combinación lineal de las originales de tal manera que el problema de
multicolinealidad se elimine.

La P CA realiza un análisis de las componentes principales de la matriz X y estas compo-


nentes se utilizan como variables explicativas de la(s) variable(s) dependiente(s) Y. Las
componentes principales se van construyendo según el orden de importancia en relación
a la variabilidad total que las variables van recogiendo de la muestra. En términos colo-
quiales, si se tienen inicialmente p variables explicativas que presentan multicolinealidad,
entonces el objetivo es determinar m < p variables que no presentan multicolinealidad,
tales que lasp variables iniciales son combinación lineal de las m componentes y que
además éstas m variables recojan la mayor parte de la información o variabilidad de los
datos. La metodología P CA no requiere el supuesto inicial de distribución multivariada
de los datos; sin embargo, si éste supuesto se satisface entonces la interpretación de las
componentes es mas profunda.

3.2.1. Cálculo de las Componentes Principales


Se considera una serie de variables x1 , x2 , · · · , xp sobre un grupo de objetos o individuos
y la idea es encontrar a partir de éstas, un nuevo conjunto de variables t1 , t2 , · · · , tp
incorrelacionadas entre sí y cuyas varianzas vayan decreciendo progresivamente. Esto es,
se quiere encontrar un conjunto de variables t1 , t2 , · · · , tp , tales que cada ti para i =
1, 2, · · · , p sea combinación lineal de las xi para i = 1, 2, · · · , p. En términos matemáticos,
debe darse que para cada ti se satisface:

ti = ai1 x1 + ai2 x2 + · · · + aip xp = aTi x

donde aTi = (ai1 , ai2 , · · · , aip )T es un vector de constantes y x = (x1 , x2 , · · · , xp )T es el


vector de variables originales.

Como se quiere maximizar la varianza, entonces una forma simple de elegir los coecientes
aijes maximizarlos. Por lo tanto, para mantener la ortogonalidad de la transformación se
T
a T
impone la restricción que la magnitud del vector i = (ai1 , ai2 , · · · , aip ) = 1; esto es, se
impone que:

p
X
aTi ai = a2ji = 1
j=1

a
La primera componente principal se calcula eligiendo 1 de modo que t1 recoja la mayor
T
a
varianza posible, sujeto a la restricción 1 a1 = 1. La segunda componente principal se
a
calcula eligiendo 2 de modo que la componente t2 recoja la mayor variabilidad posible
y esté incorrelacionada con la componente t1 . Del mismo modo se encuentran las compo-
nentes principales t3 , t4 , · · · , tp incorrelacionadas entre sí de modo que la varianza de ti
sea menor que la varianza de ti+1 .
3.2 Componentes Principales 13

Proceso de Elección de los ai .


Se quiere elegir a1 a
de modo que 1 maximice la varianza de la primera componente t1 ,
T
a a
sujeta a la restricción 1 1 = 1. Se tiene que:

V ar[t1 ] = V ar[aT1 x] = aT1 Σa1 ,

donde Σ es la matriz de covarianzas. El método usual para maximizar una función de


varias variables sujeta a restricciones es el método de los multiplicadores de Lagrange. En
T
a a T
el problema que consiste en maximizar la función 1 Σ 1 sujeta a la restricción 1 1 = 1, a a
se tiene que la incógnita es a1 . A continuación se considera la función Lagrangiana L:

L(a1 ) = aT1 Σa1 − λ[aT1 a1 − 1]

El máximo de la función L se encuentra derivando con respecto a a1 e igualando a 0. Esto


es:

∂L
= 2Σa1 − 2λI a1 = 0
∂ a1
de donde [Σ − λI]a1 = 0. Este último es un sistema de ecuaciones lineales, el cual por el
teorema de Rouché-Frobenius, tiene una solución distinta de cero siempre que la matriz
Σ.λI no sea invertible; esto es, siempre que el determinante de esta matriz sea cero. Al
considerar |Σ − λI| = 0 se concluye que λ es un valor propio de la matriz Σ. Ahora, la
matriz de covarianzas Σ es de orden p y si además se satisface que es denida positiva,
entonces se cumple que tiene p valores propios diferentes λ1 , λ2 , · · · , λp .

A partir de [Σ − λI]a1 = 0 se tiene que Σa1 = λI a1 , por lo tanto V ar[t1 ] = aT1 λI a1 ; esto
es V ar[t1 ] = λ. Se concluye que para maximizar la varianza de la componente t1 se tiene
que tomar el mayor valor propio λ y el correspondiente auto vector a1 asociado a λ.

El segundo componente principal t2 se obtiene mediante un argumento similar a la forma


en que se obtiene la componente t1 ; además debe tenerse en cuenta que las componentes
t1 y t2 tienen que ser incorrelacionadas, esto es, tiene que darse que Cov[t1 , t2 ] = 0. Ahora:

Cov[t1 , t2 ] = Cov[aT1 x, aT2 x]


= aT2 E[(x − µ)(x − µ)T ]a1
= aT2 Σa1

esto es, se requiere queaT2 Σa1 = 0. Pero se sabe que Σa1 = λa1 , por lo tanto λaT2 a1 = 0,
de donde se puede concluir que a1 y a2 son ortogonales pues a1 a2 = 0. Por lo tanto, se
tiene que maximizar la varianza de t2 sujeta a las restricciones a2 a2 = 1 y a1 a2 = 0. Con
T T

un procedimiento y argumentos similares a los que se tuvieron en cuenta para elegir a a1 ,


se elige a a2 como el auto vector de Σ asociado al segundo valor propio mas grande de Σ.

En general, aj es el j -ésimo vector propio de Σ asociado al j -ésimo valor propio mas


grande de Σ. De esta manera todas las componentes principales se pueden expresar como
14 3 Regresión Lineal Múltiple y PLS

el producto de una matriz formada por los vectores propios de Σ, multiplicada por el
vector x que contiene las variables originales x1 , x2 , · · · , xp . Esto es t = Ax, donde t
es un vector formado por las componentes principales y A es la matriz formada por los
vectores propios ai de Σ. Además la matriz de covarianzas de t es una matriz diagonal
donde guran en la diagonal los valores propios λ1 , λ2 , · · · , λp de Σ; denote esta última
por Λ. Se tiene entonces que:

Λ = V ar[t] = AT V ar[x]A = AT ΣA

o equivalentemente, se tiene que:

Σ = AΛAT

A partir del siguiente teorema se puede hablar del porcentaje de variabilidad.

Teorema 3.2.1. Si x1 , x2 , · · · , xp es el conjunto de variables originales y t1 , t2 , · · · , tp es


el conjunto de componentes principales, entonces
p p
X X
V ar[xi ] = V ar[ti ]
i=1 i=1

Prueba. Se sabe que V ar[ti ] = λi donde λi es el valor propio i asociado a la matriz Σ;


Pp p
P
por lo tanto se tiene que V ar[ti ] = λi = traza(Λ). Ahora, por las propiedades del
i=1 i=1
operador traza se tiene que:

traza(Λ) = traza(AT ΣA) = traza(AT AΣ) = traza(Σ).

dado que AT A = I pues A es una matriz ortogonal. Se tiene entonces que:


p p
X X
V ar[ti ] = traza(Λ) = traza(Σ) = V ar[xi ]
i=1 i=1

A partir del teorema 3.2.1 se puede hablar del porcentaje de variabilidad total que recoge
un componente principal:

λi λi
p = p .
P P
λi V ar[xi ]
i=1 i=1

De la misma manera se puede hablar del porcentaje de variabilidad que recogen las m
primeras componentes principales, para m < p:
3.3 Análisis de Correlación Canónica 15

m
P
λi
i=1
Pp
λi
i=1

3.3. Análisis de Correlación Canónica


El objetivo del análisis de correlación canónica CCA, por sus siglas en inglés, es determi-
nar relaciones de naturaleza lineal, entre dos matrices de datos X y Y que son medidas
CCA resuelve un problema parti-
sobre los mismos objetos. Para lograr dicho objetivo,
CCA es minimizar la correlación entre los scores de
cular de optimización. El objetivo en
los x-datos y los y-datos. En CCA se asume usualmente que el número n de objetos es
más grande que el el rango de las matrices X y Y .

Las matrices X y Y son modeladas por variables latentes de acuerdo a los modelos de
regresión:

X = TPT + EX , Y = UQT + EY .

Con EX y EY matrices de errores. Las matrices T y U son llamadas matrices scores y


las matrices P y Q son llamadas matrices de cargas y son tales que tienen a columnas
con a ≤ min(m, n, q). Los vectores scores tj y uj son proyecciones lineales de los datos
sobre los correspondientes vectores de cargas pj y qj ; esto es tj = Xpj y uj = Yqj , para
j = 1, 2, · · · , a componentes.

El objetivo de CCA es determinar las direcciones p y q en los x, y-espacios que resuelven


el problema:

máx Corr(Xp, Yq)


(
kXpk = 1 (3.1)
s.a
kYqk = 1

donde Corr denota el coeciente de correlación de Pearson. Las soluciones del proble-
ma de optimización 3.1 son los vectores de cargas pj y qj , para j = 1, 2, · · · , a, bajo el
supuesto de que los vectores scores están incorrelacionados; esto es Corr(tj , tk ) = 0 y
Corr(uj , uk ) = 0 para i 6= j . La correlación máxima resultante rj = Corr(tj , uj ), recibe
el nombre de j -ésimo coeciente de correlación canónica. En general, los vectores de car-
gas pj y qj , no son ortogonales.

Los vectores de cargas pj y qj son encontradas resolviendo dos problemas de eigenvalores


y eigenvectores propios. Considere SX = Cov(X), SY = Cov(Y) y SXY = Cov(X, Y),
16 3 Regresión Lineal Múltiple y PLS

las matrices de covarianzas muestrales de las matrices X y Y y la matriz de covarian-


zas muestral entre las matrices X y Y, respectivamente. Se tiene que, Jhonson,R.A. &
Wichern, D.W. (2002):

r2j es eigenvalor de S−1 −1 T


X SXY SY SXY con eigenvector pj .

r2j es eigenvalor de S−1 T −1


Y SXY SX SXY con eigenvector pj .

para j = 1, 2, · · · , a. Los coecientes de correlación están en el intervalo [0, 1], donde 1 in-
dica una dirección en el x-espacio y una dirección en el y-espacio con una perfecta relación
lineal. Usualmente los eigenvectores son ordenados de acuerdo a eigenvalores decrecientes,
y el primer coeciente de correlación canónica mide la relación lineal máxima entre los
x-datos y los y-datos; el segundo coeciente de correlación canónica mide mide la máxima
relación lineal pero sólo entre las direcciones que conducen a scores no correlacionados, y
así sucesivamente.

De la denición de coeciente de correlación canónico se deduce que si existe alta corre-


lación entre un solo vector x con el mismo vector x, entonces puede correrse el riesgo de
hallar un alto coeciente de correlación canónico; esto es, el CCA no es fuerte para medir
una correspondencia global entre los x-datos y los y-datos. Por esta razón, CCA no es
una buena herramienta para propósitos de predicción; sin embargo, es muy utilizado para
hacer pruebas de hipótesis en relación a no correlación. En dicho caso, la hipótesis nula
es que la matriz de covarianzas teórica, entre x-variables y y-variables es la matriz cero.

3.4. Regresión de Ridge y Regresión de Lasso


Las metodologías de regresión de Ridge y regresión de Lasso son alternativas a la metodo-
logía de regresión por componentes principales, en el sentido que se usan cuando existen
problemas de multicolinealidad. La diferencia entre éstas dos metodologías, es que la re-
gresión Ridge utiliza todas la variables explicativas para construir el modelo, mientras que
la regresión de Lasso utiliza un subconjunto de las variables explicativas para construir
el modelo. Ambas metodologías dependen de la elección de un parámetro que permite
encontrar el mejor modelo de predicción Hoerl, A. & Kennard, R. (1970), Tibshirani, R.
(1996). Los métodos de regresión Ridge y Lasso son llamados métodos contraídos, por
que ambos contraen los coecientes de regresión con el n de estabilizar sus estimaciones.
De este modo, se tienen modelos donde el rango permitido de coecientes de regresión
absolutos es acotado.

Los métodos de regresión de Ridge y Lasso resultan de la minimización de un problema


de optimización restringida, de manera que las metodologías utilizan la misma función
objetivo pero diferente restricción. El problema de optimización que se resuelve en la
metodología de regresión de Ridge, está dado por:
3.4 Regresión de Ridge y Regresión de Lasso 17

n m
!2
X X
mı́n y i − β0 − xij βj
i=1 j=1 (3.2)
m

βj2 ≤ s
P
s.a :
j=1

mientras que la metodología de regresión Lasso resuelve el problema de optimización


restringida:

n m
!2
X X
mı́n y i − β0 − xij βj
i=1 j=1 (3.3)
m

P
s.a : |βj | ≤ s
j=1

El problema de optimización 3.2, se puede escribir como el siguiente problema penalizado


de optimización:

n m
!2 m
X X X
mı́n y i − β0 − xij βj + λR βj2 (3.4)
i=1 j=1 j=1

Por otro lado, el problema de optimización 3.3, se puede escribir de la siguiente manera:

n m
!2 m
X X X
mı́n yi − β0 − xij βj + λL |βj | (3.5)
i=1 j=1 j=1

Al resolver los problemas de optimización 3.4 y 3.5, se obtienen las estimaciones de los
coecientes de regresión βRβL , respectivamente. La única diferencia entre los problemas
y
2
de optimización 3.4 y 3.5, es que el primero usa la norma L para las penalizaciones y
1 2 1
el segundo usa la norma L . El uso de las normas L y L tiene consecuencias teóricas,
por ejemplo, en la metodología de regresión de Ridge, se tiene que la estimación de los
parámetros de regresión de Ridge βbR son una función lineal de la variable dependiente Y,
dado que el problema de optimización 3.4, puede escribirse como:

mı́n (y − Xβ)T (y − Xβ) + λR β T β (3.6)

donde la matriz X es media centrada y β no incluye intercepto. La solución del problema


3.6, esta dada por:

−1
βbR = X T X + λR I XT y (3.7)

Para λR = 0 se tiene mínimos cuadrados ordinarios. El parámetro λR es tal que λR ≥ 0 y


generalmente se estima por validación cruzada o bootstrap. Existe una conexión entre las
18 3 Regresión Lineal Múltiple y PLS

metodologías de regresión Ridge y P CR. Se sabe que la metodología de regresión P CR


calcula nuevas variables, llamadas componentes principales, y ellas pueden ser ordenadas
de manera decreciente de acuerdo a la varianza, donde la primera componente captura
la mayor variabilidad. Estas nuevas variables son usadas para explicar la respuesta Y.
Se puede mostrar que la metodología de regresión Ridge da mas peso a las direcciones
de las primeras componentes principales y menos peso a las componentes principales que
capturan menos variabilidad Hastie, T. (2001). Esto es, la contracción en la metodolo-
gía de regresión Ridge es proporcional a la varianza de las componentes principales. La
diferencia fundamental entre ambas metodologías, es que en la metodología de regresión
P CR se usan las variables latentes, mientras que en la metodología de regresión Ridge se
usan todas las variables explicativas.

En la metodología de regresión Lasso, se tiene que la estimación de los parámetros de


regresión Lasso βbL no son una función lineal de la variable dependiente Y. No existe
en general una expresión en forma cerrada para βbL y el cálculo de la estimación de
λL se puede hacer escribiendo el problema de optimización 3.3, como un problema de
optimización cuadrática.

3.5. Regresión P LS
El método original de regresión P LS fue introducido alrededor de 1975 por el estadístico
Herman Wold para un tratamiento de cadenas de matrices y aplicaciones en econometría.
Su hijo, Svante Wold y otros introducen la idea de regresión P LS en quimiometría; sin
embargo, la regresión P LS fue por largo tiempo desconocida por los estadísticos. Las ideas
originales de la regresión P LS fueron en principio heurísticas y sus propiedades estadísti-
cas un misterio. Posteriormente las propiedades estadísticas y matemáticas de la regresión
P LS son conocidas y dicha metodología toma fuerza en disciplinas como la quimiometría.

En esencia, las estructuras de los modelos de regresión por componentes principales P CR


y regresión por mínimos cuadrados parciales P LS son muy similares. Ambas metodolo-
gías transforman las variables explicativas en un conjunto de variables latentes linealmente
independientes y algunas de esas nuevas variables son utilizadas para explicar la(s) varia-
ble(s) respuesta. La diferencia entre ambas metodologías es que la regresión por compo-
nentes principales P CR no considera la variable respuesta para determinar las variables
latentes, mientras que la regresión por mínimos cuadrados parciales P LS determina las
variables latentes teniendo en cuenta tanto a las variables regresoras o independientes
como a las variables respuesta. De esta manera, la regresión P LS puede considerarse co-
mo una mezcla de P CA (máxima varianza modelando las variables explicativas) mínimos
cuadrados ordinarios (máxima correlación modelando la(s) respuesta(s)).

Los modelos de regresión P CR y P LS son lineales (aunque existen versiones no lineales),


por tanto las variables latentes que predicen la(s) respuesta(s) son combinación lineal de
las variables originales. En general, las estimaciones de los coecientes de regresión cuando
3.5 Regresión P LS 19

se utilizan las metodologías de mínimos cuadrados ordinarios, regresión P CA y regresión


P LS son diferentes y las predicciones de los modelos también.

A continuación se muestran algunos factores importantes que motivan la utilización de la


metodología P LS :

1. El modelo de regresión P LS es un potente método de regresión lineal, que considera


la multicolinealidad en las variables explicativas y acepta un número muy grande
de variables.

2. El modelo resultante predice la(s) respuesta(s) a partir de un conjunto de variables


linealmente dependientes x1 , x2 , · · · , xn .

3. Durante el desarrollo del modelo, un relativo número pequeño de componentes P LS


son calculados y utilizados para la regresión.

4. El número de componentes P LS determina la complejidad de el modelo y puede ser


optimizado para tener un alto rendimiento en la predicción.

Cuando se aplica el modelo de regresión P LS con una única variable respuesta, y, se


procede como sigue:

1. Se calcula la primera componente P LS como la variable latente que tiene la máxima


covarianza entre los scores y la respuesta y.

2. Luego, la información de esta componente es eliminada de las variables explicativas.


Este proceso es llamado deación. Esto se puede ver como una proyección del espacio
de las variables respuesta sobre sobre un hiper plano que es ortogonal a la dirección
de la componente encontrada. La matriz residual resultante tiene el mismo número
de variables que que la matriz original formada por las variables explicativas, pero
la dimensionalidad intrínseca se reduce en uno.

3. A partir de la matriz residual, se calcula la siguiente componente.

4. Este proceso continua hasta que se observe que el modelamiento de la respuesta y no


se mejore.

Como las componentes P LS son calculadas como variables latentes que tienen una al-
ta correlación con y, entonces generalmente el número óptimo de componentes P LS es
menor que el número óptimo de componentes principales. Un aspecto complicado de la
regresión P LS es el cálculo paso a paso de las componentes.

La regresión P LS con una sola variable respuesta recibe el nombre de P LS1. Cuando
hay mas de una variable respuesta, la regresión P LS recibe el nombre de regresión P LS2.
Existen algoritmos para este tipo de regresión y se ven con más detalle en posteriores
capítulos.
20 3 Regresión Lineal Múltiple y PLS

3.5.1. Fundamentos de la Regresión P LS1


En general, la regresión por mínimos cuadrados parciales P LS1 está compuesta de dos
pasos fundamentales:

1. La regresión P LS1 primero transforma la matriz de variables explicativas X de orden


n × p, teniendo en cuenta el vector respuesta y de orden n × 1, en una matriz de
variables latentes T = [t1 , t2 , · · · , tp ] de orden n × p; llamadas componentes P LS .
Este paso contrasta la metodología P CR en el sentido que tiene en cuenta a y para
construir T.

2. Calcula el modelo de regresión estimado utilizando el vector de respuestas original y


y las componentes P LS como variables explicativas.

En la regresión P LS1 el objetivo es maximizar el cuadrado de la covarianza entre la


componente ti = xw y
y la variable respuesta , sujeta a la restricción
T
= 1; donde w w
w = (w1 , w2 , · · · T
, wp ) es el vector tal que la componente wj es la covarianza entre la
variable respuesta con cada explicativa. Se dene el vector a de orden p × 1, como el
vector de covarianzas de x y y. Se tiene que:

Cov 2 [xw, y] = [wT Cov[x, y]]2


= [wT a]2
= [wT aaT w]

Ahora, la función lagrangiana L que se usa para maximizar el cuadrado de la covarianza


entre la componente t y
i y la variable respuesta , sujeta a la restricción
T
= 1 estáw w
dada por:

L(w) = wT aaT w − λ(wT w − 1)

Derivando L con respecto a w e igualando a cero se obtiene:


∂L
= 2aaT w − 2λw = 0
∂w
de donde aaT w = λw. Esta última expresión implica que w es un vector propio de aaT
asociado al valor propio λ. A partir de aa w = λw se obtiene λ = w aa w. Además de
T T T

aaT w = λw se obtiene aT aaT w = λaT w, de donde [aT a − λ]aT w = 0, esto es λ = aaT .


Se tiene entonces que λ = λkak . Ahora, como λ = λkak entonces a aa a = λ kak ,
2 2 2 2 T T 2 2

de donde λ =
a aT a a .
T
k ak kak

Por último, comparando las expresiones λ = wT aaT w y λ= aT


kak
aT a kaak se concluye que:

a xT y
w= = T
kak kx yk
3.5 Regresión P LS 21

3.5.2. Normalización de los Datos


A continuación se presentan dos formas de normalizar los datos, ambas formas son co-
múnmente utilizadas en la bibliografía existente.

• Forma 1

La primera forma consiste en restar para cada una de las variables su media y dividir
por la raíz cuadrada de la suma de los cuadrados de las desviaciones de su media:

1. yi[1] = s yi −ȳ
Pn
para i = 1, 2, · · · , n.
(yi −ȳ)2
i=1

xij −x¯j
2. x[1]
ij =
s
n
P
para i = 1, 2, · · · , n, j = 1, 2, · · · , p.
(xij −x¯j )2
i=1

• Forma 2

La segunda forma consiste en restar para cada una de las variables su media y dividir
por la raíz cuadrada de la suma de los cuadrados de las desviaciones de su media
dividido por n − 1:

1. yi[2] = s yi −ȳ
n
, para i = 1, 2, · · · , n.
(yi −ȳ)2
P
i=1
n−1

xij −x¯j
2. x[2]
ij =
s
n
, para i = 1, 2, · · · , n j = 1, 2, · · · , p.
(xij −x¯j )2
P
i=1
n−1

Las operaciones intermedias que hay que realizar para obtener los coecientes de regresión
dieren del tipo de normalización de los datos, pero los coecientes de regresión asociados a
[1] [1] [1]
las variables x1 , x2 , · · · , xp como resultado de la primera normalización y las variables
[2] [2] [2]
x1 , x2 , · · · , xp como resultado de la segunda normalización, son los mismos; esto es:
β̂ [1] = β̂ [2] . El resultado de esta armación puede verse en Valencia, L. (2003). Et al.

3.5.3. Algoritmo P LS1


En la regresión P LS1 hay una sola variable a explicar y p variables explicativas. A con-
tinuación presentamos el algoritmo P LS1:

1. Construcción de la primera componente t1


22 3 Regresión Lineal Múltiple y PLS

1.1 Obtención de la primera componente t1

La primera componente t1 se dene de la siguiente manera:

[2] [2]
t1 = w11 x1 + w12 x2 + · · · , w1p x[2]
p
p
P [2]
esto es: t1 = w1j xj donde:
j=1

[2] [2] [2]


cov(xj , y [2] ) < xj , yj >
w1j = s =s , j = 1, 2, · · · , p.
p p
P [2] P [2] [2]
cov 2 (xj , y [2] ) (< xj , yj >)2
j=1 j=1

1.2 Detección de individuos atípicos para la primera componente

La regla general de decisión para la detección de individuos atípicos sobre un


conjunto de A componentes está basada en que la variable aleatoria:

n(n − A) 2
tA
i = T
A(n2 − 1) i
sigue una distribución de Fisher-Snedecor con grados de libertad para el A
2 2
numerador y n − A grados de libertad para el denominador, donde Ti es la T
de Hotelling de la observación i, calculando A componentes siendo igual a:

A
n X t2i,h
Ti2 = , i = 1, 2, · · · , n
n − 1 h=1 s2h
2
donde es el número total de individuos, kth k es la norma al cuadrado de la
n
2
componente h, sh es la varianza con división n − 1 de la componente h y ti,h
es el valor para la componente h de la observación i.

Para la primera componente se tiene A = 1, por lo tanto:

t2i,1 n2 t2i,1
 
n(n − 1) n
t1i = 2 =
n −1 n − 1 kt1 k2 n + 1 kt1 k2
−1
• Si tA
i,1 ≥ FF 1 (1 − α)se acepta la hipótesis que el individuo i es atípico.
n−1
−1
• Si tA
i,1 < FF 1 (1 − α) se rechaza la hipótesis que el individuo i es atípico.
n−1

Donde FF−11 (1 − α) es la función inversa de la función de distribución


n−1
de la variable aleatoria de Fisher-Snedecor con un grado de libertad para
el numerador y (n − 1) grados de libertad para el denominador para un
área de (1 − α). Esta regla de decisión equivale a usar la regla de decisión
usando la función FT−1
n−1
(1 − α2 ) que es la función inversa de la función de
3.5 Regresión P LS 23

distribución de la variable aleatoria T de Student-Fisher con (n−1) grados


α

de libertad para un área de 1 − .
2

1.3 Regresión lineal simple de y1[2] sobre t1 y el test de signicación global


de la regresión.

Primero se busca la ecuación lineal de predicción estimada de y, después, se


comprueba si la regresión lineal simple es globalmente signicativa.

La ecuación lineal de predicción estimada se escribe como:

[2]∗ [2]
y(1) = β̂1(1) t1
[2]
hy(1) ,t1 i √
[2] n−1
Donde, β̂1(1) se calcula a partir de
kt1 k2 que es igual a
kt1 k ry1(1)
[2]
,t1
.

El residuo asociado a la recta de regresión se da mediante:

[1] [2]∗
e1 = y(1) − y(1)

El test de signicación global de la regresión lineal se realiza mediante el test


de Fisher. La regla general de decisión del test de Fisher, para una componente
explicativa, se da a continuación:

• Si
1∗
Fn−2 ≥ FF−11 (1 − α) entonces la componente explicativa es signicativa.
n−1

• 1∗
Si Fn−2 < FF−11 (1 − α) entonces la componente explicativa no es signi-
n−1
cativa.
[2]
1 [hy1 ,t1 i]2
−1
Donde Fn−2 = (n − 2) [2] y F 1 (1 − α) es la función inversa de
Fn−1
(n−1)kt1 k2 −[hy1 ,t1 i]2
la función de distribución de la variable aleatoria F de Fisher-Snedecor con 1
grado de libertad para el numerador y n−2 grados de libertad para el deno-
minador para un área de 1 − α.

Si la componente es signicativa entonces se deshacen los cambios de la si-


guiente manera:

[2] [2] [2]


Primero se cambia de t1 a x1 , x2 , · · · , xp y se obtiene:

p
[2]
X [2]∗ [2]
[2]
y = β̂1(1) t1 = β̂1(1) w1,j xj
j=1

[2] [2] [2]


Luego se pasa de x1 , x2 , · · · , xp a x1 , x2 , · · · , xp .

2. Construcción de la segunda componente


24 3 Regresión Lineal Múltiple y PLS

Se busca construir una segunda componente t2 , que sea combinación lineal de las
xj , no correlacionada con la componente t1 y que explique bien el residuo. Esta
componente t2 es combinación lineal de los residuos e1,j de las regresiones de las
variables xj sobre la componente t1 .

2.1 Obtención de la segunda componente t2

Se obtiene t2 mediante la expresión:

t2 = w2,1 e1,1 + w2,2 e1,2 + · · · + w2,p e1,p


donde:

cov(e1,j , e1 ) he1,j , e1 i
w2,j = s =s , j = 1, 2, · · · , p.
p
P p
P
cov 2 (e1,j , e1 ) (he1,j , e1 i)2
j=1 j=1

Para el cálculo de los residuales e1,j para j = 1, 2 · · · , p se efectuan las regre-


[2]
siones simples de xj sobre t1 y se obtienen las rectas de predicción estimadas:

[2]∗ [2]∗
xj = α̂j t1 , j = 1, 2, · · · , p
donde las estimaciones de los coecientes de regresión han sido calculadas de
la siguiente forma:

[2] √
[2] hxj , t1 i n−1
α̂j = = r [2] , j = 1, 2, · · · , p
kt1 k2 kt1 k xj ,t1
[2]
Los residuales asociados a las rectas de regresión están dados por e1,j = xj −
[2]∗
xj para j = 1, 2 · · · , p
2.2 Detección de individuos atípicos para la segunda componente
Se hace de la misma manera que se hace con la componente t1
2.3 Regresión lineal simple de y12 sobre t2 y el test de signicación global
de la regresión.
Primero se busca la ecuación lineal de predicción estimada y luego se comprue-
ba si la regresión simple es signicativa.

• La ecuación de predicción estimada es de la forma:

[2]∗ [2]
y(1) = β̂2(1) t2 ,
[2]
hy(1) ,t2 i √
[2] n−1
donde, β̂2(1) se calcula a partir de
kt2 k2 que es igual a
kt2 k ry1(1)
[2]
,t2
.

El residuo asociado a la recta de regresión se da mediante:


3.5 Regresión P LS 25

[1] [2]∗
e2 = y(1) − y(1)
• El test de signicación global se hace igual que ocn la primera componente.

3. Detección de individuos atípicos sobre el plano t1 − t2

La regla general de decisión para la detección de individuos atípicos cuando se tie-


nen dos componentes, se dá de la siguiente manera:

• Si tA
i(1−2) ≥ 1 entonces se acepta la hipótesis que el individuo i es atípico.

• Si tA
i(1−2) < 1 entonces se rechaza la hipótesis que el individuo i es atípico.

t2i,1 t2i,2
Donde tA
i(1−2) = 2
2(n −1)
+ 2
2(n −1)
kt k2 F −1
n2 (n−2) 1 2 (1−α) kt k2 F −1
n2 (n−2) 2 2 (1−α)
Fn−2 Fn−2

y FF−12 (1 − α) es la función inversa de la función de distribución de la variable


n−2
aleatoria F de Fisher-Snedecor con 2 grados de libertad para el numerador y n − 2
grados de libertad para el denominador para un área de 1 − α. En el caso que la
muestra sea homogénea, se continua, en caso contrario, se eliminan los individuos
atípicos y se comienza de nuevo.

4. Regresión lineal múltiple sobre las dos primeras componentes y test de


signicación global de la regresión
4.1 Ecuación lineal de predicción estimada

La ecuación lineal de predicción estimada toma la siguiente forma:

[2]∗ [2]∗ [2]∗


y(2) = β̂1(2) t1 + β̂2(2) t2 .
Donde las estimaciones de los coecientes de regresión se calculan a partir de:

√ − ry[2] ,t2 rt1 ,t2


n − 1 ry(2)
" #
[2]
[2] ,t1 (2)
β̂1(2) =
kt1 k 1 − rt21 ,t2

√ − ry[2] ,t1 rt1 ,t2


n − 1 ry(2)
" #
[2]
[2] ,t2 (2)
β̂2(2) =
kt2 k 1 − rt21 ,t2

como las componentes t1 y t2 son ortogonales entonces rt1 ,t2 = 0 y por lo tanto
los dos estimadores se reducen a:
26 3 Regresión Lineal Múltiple y PLS

√ √
[2] n−1 [2] n−1
β̂1(2) = r [2] ; β̂2(2) = r [2]
kt1 k y2 t1 kt2 k y2 t2
y el residuo asociado a la línea de regresión está dado por:

[2] [2]∗ [2]∗


e2 = y(2) − y(2) = e1 − y(2)
4.2 Test de signicación global de la regresión

El test de signicación de Fisher permite determinar si la regresión lineal mul-


tiple es signicativa. La regla general de decisión del test de Fisher para dos
componentes explicativas ortogonales es:

• Si
2∗
Fn−3 ≥ FF−12 (1 − α) entonces las componentes t1 y t2 son signicativas.
n−3

• Si
2∗
Fn−3 < FF−12 (1 − α) entonces al menos una de las componentes t1 y t2
n−3
no es signicativa.

donde:

" [2] [2] #


2∗ n−3 kt2 k2 [hy(2) , t1 i]2 + kt1 k2 [hy(2) , t2 i]2
Fn−3 = [2] [2]
2 (n − 1)kt1 k2 kt2 k2 − (kt2 k2 [hy(2) , t1 i]2 + kt1 k2 [hy(2) , t2 i]2 )

Si las componentes t1 y t2 son signicativas se hacen los cambios: de t1 y t2 a


[2] [2] [2]
x1 , x2 , · · · , xp y de estas ultimas a x1 , x2 , · · · , xp y se obtiene la ecuación de
predicción estimada en función de las variables explicativas originales.

5. Construcción de las componentes sucesivas

Si el poder explicativo de la regresión no es fuerte, entonces se construye una tercera


componente t3 . Esta componente, es combinación lineal de los residuos e2,j obteni-
dos como consecuencia de las regresiones de los residuos e1,j sobre t2 . Se obtiene t3
de la expresión:

t3 = w3,1 e2,1 + w3,2 e2,2 + · · · + w3,p e2,p ,


he2,j ,e2 i
donde: w3,j = s
p
(he2,j ,e2 i)2
P
j=1

Para el cálculo de los residuales e2,j para j = 1, 2 · · · , p se hacen las regresiones


simples de e1,j sobre t2 y se obtienen las rectas de predicción estimadas:

e∗1,j = α̂1,j

t2 , j = 1, 2, · · · , p,

donde las estimaciones de los coecientes de regresión se calculan mediante:


3.5 Regresión P LS 27

∗ he1,j , t2 i
α̂1,j = , j = 1, 2, · · · , p
kt2 k2

los residuales se obtienen mediante:

e2,j = e1,j − e∗1,j , j = 1, 2, · · · , p

3.5.4. Algoritmo P LS2


Se entiende el algoritmo de regresión P LS2 como una extensión del algoritmo P LS1
al caso de mas de una variable a explicar o se entiende el algoritmo P LS1 como un
caso particular del algoritmo P LS2. Se tiene entonces que explicar un conjunto de varia-
bles y1 , y2 , · · · , yq mediante un conjunto de variables explicativas x1 , x2 , · · · , xp . Se puede
armar entonces que el algoritmo P LS2 consiste en aplicar el método de componentes
principales de un conjunto de variables x1 , x2 , · · · , xp , bajo la condición que estas compo-
nentes principales sean también lo mas explicativas del conjunto de variables y1 , y2 , · · · , yq .

Primero se construyen las matrices X e Y donde X tiene columnas los vectores xi para
i = 1, 2, · · · , p y donde Y tiene columnas los vectores yk para k = 1, 2 · · · , q . Cada vector
xi y cada vector yk pertenece al espacio vectorial Rn y las matrices X y Y pertenecen
a los espacios vectoriales Rn×p y Rn×q respectivamente. Bajo este contexto, el algoritmo
P LS2, consiste en realizar proyecciones simultaneas de ambos espacios sobre hiperplanos
de más baja dimensión. Las coordenadas de los puntos en estos hiperplanos constituyen
los elementos de las matrices T y U.

Mediante el algoritmo P LS2 se logran dos objetivos básicos: El primero es maximizar


la correlación entre los conjuntos de variables x1 , x2 , · · · , xp y y1 , y2 , · · · , yq y el segundo,
aproximar a través del mencionado hiperplano lo mejor que se pueda a los espacios vec-
toriales generados por los conjuntos de variables x1 , x2 , · · · , xp y y1 , y2 , · · · , yq , es decir,
la información que estos poseen.

Aspectos Matemáticos para la Regresión P LS .


Como se ha mencionado antes, se puede ver la metodología de regresión por mínimos cua-
drados parciales P LS como un algoritmo numérico que maximiza una función objetivo
sujeta a ciertas restricciones. La función objetivo es la covarianza entre x y y scores y la
restricción usualmente es la ortogonalidad entre los scores. Se han propuesto diferentes
algoritmos para este tipo de regresión, sin embargo, resultan preguntas naturales, si to-
dos ellos maximizan la misma función objetivo y si sus soluciones conducen a soluciones
comparables.
28 3 Regresión Lineal Múltiple y PLS

En regresión P LS2 los datos en las las de las matrices X y Y provienen de n individuos
u objetos, y X contiene la información de p características y Y describe q propiedades.
Para utilizar una notación conveniente, se asume que las columnas de las matrices X y Y
están centradas a la media. El objetivo de la regresión P LS2 es determinar una relación
lineal

Y = XB + E

entre variables x e y, B de orden p × q de coecientes de regresión


usando una matriz
y una matriz de errores E. En regresión P LS1 esto se reduce a y = Xβ + e1 . En lugar
de determinar esta relación directamente, se tiene que tanto X como Y son modelados
mediante variables latentes en base a los modelos de regresión:

X = TPT + EX y Y = UQT + EY ,

con matrices de error EX


EY . Las matrices scores T y U y las matrices de cargas P
y
y Q tienen a columnas donde a ≤ min(n, q, p) es el número de componentes P LS . Si tj ,
uj , pj y qj denotan la j -ésima columna de T, U, P y Q, respectivamente; entonces se
tiene la siguiente relación:

uj = dj tj + hj

donde hj son los residuales y dj son los parámetros de regresión. Si la relación entre uj
y tj es fuerte ( si hj es pequeño) entonces los x-scores de la primera componente P LS
predicen bien y -scores y en consecuencia predicen bien y -datos. En la regresión P LS2 se
consideran varias componentes P LS , por lo tanto:

U = TD + H

donde D es una matriz diagonal en cuya diagonal principal están los elementos d1 , d2 , · · · , da
y H es la matriz residual cuyas columnas son hj . En la regresión P LS1, ésta ultima re-
lación se traduce en:

y = Td + h.

El objetivo de la regresión P LS2 es maximizar la covarianza entre los datos x-scores y


los y-scores (La regresión P LS1 maximiza la covarianza entre x-scores y y). Como el
problema de maximización no es único entonces una restricción en los vectores scores es
necesaria, por lo tanto es usual la restricción ktk = kuk = 1. los vectores scores resultan
de la proyecciones de las matrices X y Y en los vectores de cargas. Por razones técnicas,
que luego serán aclaradas, se utilizan otros vectores de cargas, w para los x-variables y c
para los y-variables; esto es t = Xw y u = Yc. El problema de maximización entonces
es el siguiente:
3.5 Regresión P LS 29

máx Cov(Xw, Yc)


(
ktk = kXwk = 1 (3.8)
s.a
kuk = kYck = 1

donde Cov denota la covarianza simple. Las soluciones de este problema de maximización
son los scores t1 y u1 . Los siguientes scores se calculan de manera similar utilizando la
misma función objetivo, pero deben adicionarse nuevas restricciones. Usualmente las nue-
T T
vas restricciones son la ortogonalidad de los previos scores; esto es, tj tk = 0 y uj uk = 0
para 1 ≤ j ≤ k < a. una estrategia alternativa es exigir la ortogonalidad de los vecto-
res de carga que conduce a scores no ortogonales y por lo tanto no correlacionados. Las
cargas ortogonales son obtenidas por ejemplo mediante vectores propios. Existen otros
algoritmos que permiten obtener scores no correlacionados y dado que cada vector score
adicional cubre nueva variabilidad, esto podría ser preferible para nes de predicción.

Cuando en el problema de optimización 3.8 se toma la covarianza simple, se obtiene el


problema de optimización:

máx tT u = (Xw)T (Yc) = wT XT Yc


(
ktk = kXwk = 1 (3.9)
s.a
kuk = kYck = 1

Las soluciones para w y c se calculan a partir de descomposición en valores singulares de


XT Y. Entre todas las posibles direcciones de los vectores w y c, la solución óptima del
problema de optimización 3.9 se alcanza por vectores w1 y c1 correspondientes al valor
T
singular mas grande de X Y Hoeskuldsson, A. (1988).

Se han propuesto diferentes algoritmos para la regresión P LS . A continuación se muestran


los algoritmos mas utilizados.

Algoritmo Kernel Para P LS .


El algoritmo Kernel para la regresión P LS es introducido por Lindgren, F. (1993). El nom-
bre del algoritmo resulta al utilizar eigen descomposición de las llamadas matrices kernel,
de productos de X y Y. Se tiene que las soluciones del problema de optimización 3.9, son
los vectores w1 yc1 que se pueden ver como los eigenvectores de una descomposición en
T
valores singulares de la matriz X Y . Utilizando las propiedades de la descomposición en
valores singulares, las soluciones pueden ser calculadas por Hoeskuldsson, A. (1988)

1. w1 es el eigenvector asociado al eigenvalor más grande de XT YYT X.


2. c1 es el eigenvector asociado al eigenvalor más grande de YT XXT Y.
30 3 Regresión Lineal Múltiple y PLS

De acuerdo a 3.8 ambos vectores son tales que kXw1 k = 1 y kYc1 k = 1. Los scores de las
de las direcciones encontradas son las proyecciones t1 = Xw1 y u1 = Yc1 y ambos son
unitarios. La variable latente p1 es calculada mediante mínimos cuadrados ordinarios en
T
relación al modelo X = TP + EX por:

−1
pT1 = tT1 t1 tT1 X = tT1 X = w1T XT X

Se continua calculando el siguiente conjunto de componentes maximizando el problema


de optimización 3.8. Éste máximo se busca en dirección ortogonal al vector t1 y se busca
convenientemente en el complemento ortogonal mediante la deación de X. La matriz
desinada X1 está dada por:

X1 = X − t1 pT1 = X − t1 tT1 X = I − t1 tT1 X.




La deación de la matriz Y no es necesaria debida a que cuando se usa la relación


interna uj = dj tj + hj ,
resulta que la deación se llevaría a cabo por la multiplicación
de Y con la misma matrizG1 = I − t1 tT1 que su utilizó para la matriz X. Como la
matriz G1 es simétrica e idempotente, entonces los productos matriciales para las eigen
-descomposiciones para obtener los vectores w2 y c2 arrojan los mismos resultados si se
tiene la matriz Y desinada o no. Se tiene que el vector w2 es el eigenvector asociado al
eigenvalor mas grande asociado a la matriz:

XT1 YYT X1 = XT G1 T YYT G1 X = XT G1 T (G1 Y) YT GT1 G1 X




El vector c2 se calcula de manera similar.

Los siguientes componentes P LS son obtenidos por el mismo algoritmo de la misma ma-
nera que se hizo con las primeras componentes, usando la matriz desinada X obtenida
después del cálculo de la componente anterior. El proceso termina cuando se calculan a
componentes.

Los y -scores uj para j = 1, 2, · · · , a son obtenidos a partir de los x-scores por:

uj = Ycj .

Las y -cargas qj son calculadas a partir del modelo de regresón Y = UQT + EY , de donde:

−1
qT1 = uTj uj uTj Y

Por último, para estimar los coecientes de regresión se puede mostrar Manne, R. (1987)

−1
B = W PT W CT

y estos nalmente enlazan los x-datos con los y -datos.


3.5 Regresión P LS 31

Algoritmo NIPALS para P LS .


El algoritmo NIPALS fue el primer algoritmo que se utilizó para resolver el modelo de
regresión P LS . Aunque los resultados resultaron ser útiles, hubo confusión sobre lo que
el algoritmo hace en realidad. La propuesta de varias versiones ligeramente diferentes del
algoritmo, tampoco fueron útiles al respecto. Debe tenerse en cuenta que el algoritmo NI-
PALS da los mismos resultados que el algoritmo Kernel, porque utiliza la misma deación,
sólo los componentes se calculan en forma diferente, pero con el mismo resultado numérico.

A continuación se muestra una versión del algoritmo NIPALS, con los principales pasos.
Si se quiere calcular la primera componente P LS se procede así:

1. Inicialice u1 , por ejemplo, con la primera la de la matriz Y.


2. w1 = XT u1
uT
1 u1
.

3. w1 = w1
kw1 k
.

4. t1 = Xw1 .
5. c1 = Y T t1
tT
1 t1
.

6. c1 = c1
kc1 k
.

7. u∗1 = Yc1 .
8. u∆ = u∗1 − u1 .
9. ∆u = uT∆ u∆ .
10. Si ∆u < ε, entonces pare; sino u1 = u∗1 y vuelva al paso 2.

Si en el paso 2 del algoritmo se está ejecutando la iteración j + 1, entonces

XT uj1
w1j+1 = .
(uj1 )T uj1
j
Ahora, considerando el paso 7. con u1 , reemplazando cj1 por los pasos 6 y 5, reemplazando
j j
t1 por el paso 4 y w1 por el paso 3, se obtiene:

w1j+1 = XT YYT Xw1j k

donde la constante k depende de las normas de los diferentes vectores. Esta última ecua-
ción es un problema de eigenvalores, donde w1 es el eigenvector asociado al eigenvalor
T T
mas grande de la matriz X YY X. De manera similar puede mostrarse que:

cj+1
1 = YT XXT Ycj1 k.
32 3 Regresión Lineal Múltiple y PLS

Esto muestra que el algoritmo NIPALS está relacionado con el problema de optimización
3.8. Para las siguientes componentes P LS , el algoritmo NIPALS trabaja diferente al
algoritmo Kernel; sin embargo, los resultados coinciden. El método NIPALS requiere una
deación de las matrices X y Y y el el pseudocódigo continúa de la siguiente manera:

11. p1 = XT t1
tT
1 t1
.

12. q1 = Y T u1
uT
1 u1
.

13. d1 = uT
1 t1
tT
1 t1
.

14. X1 = X − t1 pT1 y Y1 = Y − d1 t1 cT1

Finalmente se tiene que:

−1
B = W PT W CT .

El método NIPALS para la regresión P LS1 tiene la siguiente estructura:

1. Inicialice X1 = X y y1 = y, y haga iteraciones entre los pasos 2 y 7 para j = 1, 2, · · · , a.


XT
2. wj = j yj
yjT yj
.

3. wj = wj
kwj k
.

4. tj = Xj wj .
yjT tj
5. cj = tT
j tj
.

XT
6. pj = j tj
tT
j tj
.

7. Xj+1 = Xj+1 − tj pTj .

Los coecientes de regresión del modelo y = Xβ + e se estiman mediante la relación


−1
β = W PT W c, donde W y P coleccionan los vectores wj y pj en las columnas y el
vector c es el vector formado por los cj .

Algoritmo SIMPLS para P LS .


Este algoritmo es propuesto por De Jong, S. (1993) y maximiza directamente el proble-
ma 3.8 bajo la restricción de ortogonalidad de los t-scores para diferentes componentes.
La primera componente P LS que se obtiene a partir del algoritmo SIMPLS es la mis-
ma que proporcionan los algoritmos Kernel y NIPALS. Las siguientes componentes son
ligeramente diferentes. La principal diferencia con los algoritmos Kernel y NIPALS es el
3.5 Regresión P LS 33

tipo de deación. En el algoritmo SIMPLS, la deación no se hace sobre las matrices


centradas X y Y,
sino que la deación se lleva a cabo sobre la matriz de covarianzas, o
T
mas precisamente sobre la matriz de productos cruzados S = X Y entre los x-datos y
los y-datos. El pseudocódigo para el algoritmo SIMPLS se da a continuación:

1. Inicialice S0 = XT Y e itere sobre los pasos 2 a 6 paraj = 1, 2, · · · , a.

2.
−1 T
Si j = 1, Sj = S0 ; Si j > 1, Sj = Sj−1 − Pj−1 PTj−1 Pj−1 Pj−1 Sj−1 .

3. Calcule wj como el primer (izquierdo) vector singular de Sj .

4. wj = wj
kwj k
.

5. tj = Xwj .
6. tj = tj
ktj k
.

7. pj = XTj tj .
8. Pj = [p1 , p2 , · · · , pj−1 ]

Los pesos wj tj son almacenados como columnas en las matrices W y T,


y los scores
respectivamente. La matrizW diere en el algoritmo SIMPLS de los algoritmos Kernel
y NIPALS pues es calculada apartir de la matriz X y no de las matrices desinadas. El
paso 2 cuenta cuenta para la restricción de ortogonalidad de los scores tj sobre todos
previos vectores scores, por que la búsqueda se hace en el complemento de ortogonal de
Sj−1 . El paso 3 maximiza directamente el problema inicial 3.8. Los scores en el paso 4
son obtenidos directamente proyectando X en la dirección optima y las cargas en el paso
5 son obtenidas por mínimos cuadrados ordinarios.

Los coecientes de regresión en el algoritmo SIMPLS están dados por:

B = WTT Y.

Algoritmo Robusto para P LS .


Todos lo algoritmos para regresión P LS mencionados hasta el momento resultan de resol-
ver el problema de optimización 3.8 y la estimación de la covarianza que considera dicho
problema de optimización entre los x-scores y los y-scores fue hecha mediante la clásica
covarianza muestral. En Gil,J. & Romera, R. (1998) se propone una estimación robusta de
la covarianza. Por otro lado, en Cummins, D. & Andrews, C.W. (1995) y Wakeling, I.N &
Mace, H.J. (1992) se propone reemplazar la regresión por mínimos cuadrados ordinarios
por regresión robusta.
34 3 Regresión Lineal Múltiple y PLS

Antes de denir estimadores parciales de M-regresión,se establece la notación y se revisa


la denición de M-estimadores en la regresión estándar. Sea X la matriz que contiene las
variables de predicción en sus columnas, y sea y el vector de la varieble respuesta. En este
caso se considera regresión P LS1; sin embargo, puede extenderse a regresión P LS2.

Si se considera el modelo de regresión:

y = Xβ + ε1 .

El estimador de mínimos cuadrados de β se dene como:

n
X
βbLS = argminβ (yi − xi β)2
i=1

y se sabe que es el estimador óptimo (en el sentido de tener la varianza más pequeña y
ser imparcial) si los términos de error ε1 siguen una distribución normal. Sin embargo, si
los términos de error vienen de otras distribuciones, por ejemplo, distribuciones de cola
pesada, LS pierde su optimalidad y otros tipos de estimadores se desempeñan mejor. Los
estimadores robustos más conocidos son los M-estimadores, que se obtienen mediante la
sustitución delos cuadrados mediante una función de pérdida ρ más general:

n
X
βbM = argminβ ρ (yi − xi β)
i=1

La función de pérdida ρ debe ser simétrica y no decreciente. Claramente el estimador


LS es un caso especial del estimador M. Sean ri = yi − xi β los residuales en el último
problema de optimización y se denen los pesos atados a la observación i como:

ρ(ri )
wir =
ri2

de donde se obtiene:

n
X
βbM = argminβ wir (yi − xi β)2
i=1

En la denición anterior, el M -estimador se expresa como un estimador LS-ponderado,


pero con los pesos en función de β . Esta formulación permite que el M-estimador se calcule
con un algoritmo de mínimos cuadrados iterativo.

Ahora; uniendo los problemas Y = Xβ + ε1 y X = TPT + EX se obtiene el problema:

Y = TPT β + ε2 .
3.5 Regresión P LS 35

T
La idea es estimar de manera robusta los nuevos coecientes de regresión g = P β . Como
P r 2
se mencionó antes, la idea es minimizar wi yi − tTi gi con apropiados pesos residuales
wir = ρ(r
ri2
i)
. No sólo grandes residuos, sino también puntos de inuencia pueden echar a

perder la estimación de los coecientes de regresión, y por lo tanto se tienen que introducir
pesos adicionales para puntos de inuencia de bajo peso. Estos son objetos periféricos en
el espacio de las variables regresoras T, y los pesos resultantes asignados a cada objeto
t r t
ti se denotan por wi . Ambos tipos de pesos se pueden combinar mediante wi = wi wi , y
los coecientes de regresión g resultan maximizando la función objetivo:

n n
X 2 X √ √ 2
wi yi − tTi g = wi yi − ( wi ti )T g
i=1 i=1

Esto, sin embargo, signica que tanto los y-datos y los scores tienen que ser multiplicados

por pesos apropiados wi y entonces el procedimiento de mínimos cuadrados clásico se
pueden aplicar. En la práctica, los valores iniciales de los pesos se actualizan mediante un
algoritmo iterativo. La tarea pendiente es estimar robustamente los vectores score T que
T
se necesitan en la regresión anterior. Según el modelo de variable latente X = TP + EX ,
el vector score j -ésimo está dado por tj = Xpj , para j = 1, 2, · · · , a. Según la ecuación
3.8, los vectores de carga pj se obtienen de forma secuencial a través del problema de
maximización:

M axCovw (Xp, y)

sujeto a las restricciones kpk = 1 y Covw (Xp, Xpl ) = 0 para 1 ≤ l < j . Se tiene además
1
P
que Covw (u, y) = wi yi ui . Por lo tanto, las lrestricciones aseguran vectores de cargas
n
de longitud 1 que no están correlacionados con todos los vectores de carga previamente
determindados. Una vez que todos los vectores de carga han sido determinados, los scores
se calculan mediante la relación T = XP. Resolver el problema de regresión robusta,
T
implica los coecientes de regresión g = P β y los parámetros de regresión nales se
calculan mediante la relación β = Pg.

3.5.5. Algoritmo P LS2 Mediante Etapas


A continuación se describe el algoritmo P LS2 mediante etapas, dando así una visión
general de este algoritmo. Considere el conjunto de variables explicativas x1 , x2 , · · · ,
xp y el conjunto de variables respuesta y1 , y2 , · · · , yq . A partir de dichos conjuntos, se
construyen las matrices X ∈ Rn×p yYn×q , donde X tiene como columnas los vectores xi
para i = 1, 2 · · · , p y Y tiene como columnas los vectores yi para i = 1, 2 · · · , q .

1 Se construyen las matrices X0 y Y0 que están conformadas por las variables centradas
y reducidas de las variables predictoras y respuesta respectivamente.

2. Se construye una combinación lineal u1 de las columnas de Y0 y una combinación


lineal t1 de las columnas de Y0 de modo que estas maximicen Cov(u1 , t1 ). De esta
36 3 Regresión Lineal Múltiple y PLS

manera se obtienen dos nuevas variables u1 y t1 lo más correlacionadas posible y


que resumen lo mejor que se puede la información contenida en las matrices X0 y
Y0 .

3. Se construye la regresión lineal simple tanto del conjunto de variables explicativas co-
mo del conjunto de variables a explicar sobre la componente t1 :

X0 = t1 pT1 + X1

Y0 = t1 qT1 + Y1 ,

donde p1 y q1 son los vectores de coecientes de regresión.

4. Se repite la etapa 3, reemplazando las matrices X0 y Y0 , por las nuevas matrices


X1 y Y1 ; obteniéndose por tanto dos nuevas componentes t2 y u2 que
residuales
maximizan Cov(u2 , t2 ). A partir de estas componentes se obtiene por regresión lineal
simple:

X1 = t2 pT2 + X2

Y1 = t2 qT2 + Y2

por lo que se deduce que:

X0 = t1 pT1 + t2 pT2 + X2

Y0 = t1 qT1 + t2 qT2 + Y2 ,

Estas etapas se repiten hasta que las componentes t1 , t2 , · · · , th expliquen sucientemente


a Y0 . De la descomposición:

Y0 = t1 qT1 + t2 qT2 + · · · + th qTh + Yh

se deducen las ecuaciones de regresión P LS2:

yk∗ = β̂k,0
∗ ∗
+ β̂k,1 ∗
x1 + β̂k,2 ∗
x2 + · · · + β̂k,p xp , para k = 1, 2, · · · , q

Las siguientes armaciones se demuestran en Geladi, P. & Kowalski, B. (1986), ?, Helland,


I. (2001), ?.
3.5 Regresión P LS 37

1. Determinación de las primeras componentes:

Se busca una componente que sea combinación lineal de las columnas de X0 de-
nominada t1 y otra componente que sea combinación lineal de las columnas de Y0
denominada u1 ; es decir, para t1 y u1 se tiene que:

t1 = X0 w1 , u1 = Y0 c1

de modo que w1 y c1 tengan norma euclidea 1.

Estas dos combinaciones lineales deben obtenerse de modo que Cov(t1 , u1 ) sea má-
xima.

En Helland, I. (2001) se demuestra quew1 es el vector propio de la matriz XT0 Y0 Y0T Y0


2
correspondiente al mayor vector propio θ1 de dicha matriz y que c1 es el vector propio
T T 2
de la matriz Y0 X0 X0 Y0 correspondiente al mayor vector propio θ1 de dicha matriz.

A continuación se llevan a cabo las dos regresiones:

X0 = t1 pT1 + X1

Y0 = t1 qT1 + Y1 ,
XT
0 t1
donde p1 = tT
es el vector de los coecientes de regresión sobre t1 para cada
1 t1
Y T t1
variable original independiente xi y q1 = T0 es el vector de coecientes de regresión
t1 t1
de t1 para cada variable original dependiente yk .

2. Propiedades de las primeras componentes. Se tiene que:

2.1. pT1 w1 = 1
2.2. q1 = b1 c1
2.3. tT1 X1 = 0
3. Determinación de las segundas componentes:

Se busca una componente que sea combinación lineal de las columnas X1 deno-
minada t2 y otra componente que sea combinación lineal de las columnas de Y1
denominada u2 ; es decir, para t2 y u2 se tiene que:

t2 = X1 w2 , u2 = Y1 c2
38 3 Regresión Lineal Múltiple y PLS

de modo que w2 y c2 tengan norma euclídea 1.

Estas dos combinaciones lineales deben obtenerse de modo que Cov(t2 , u2 ) sea má-
xima.

w2 es el vector propio de la matriz XT1 Y1 Y1T X1


En Helland, I. (2001) se demuestra que
2
correspondiente al mayor vector propio θ1 de dicha matriz y que c2 es el vector pro-
T T 2
pio de la matriz Y1 X1 X1 Y1 correspondiente al mayor vector propio θ1 de dicha
matriz. A continuación se llevan a cabo las dos regresiones:

X1 = t2 pT2 + X2

Y1 = t2 qT2 + Y2
XT
1 t2
donde p2 = tT
es el vector de los coecientes de regresión sobre t2 para cada
2 t2
Y T t2
variable original independiente xi y q2 = T1 es el vector de coecientes de regresión
t2 t2
de t2 para cada variable original dependiente yk .

4. Propiedades de las segundas componentes.Se tiene que:


4.1. pT2 w2 = 1
4.2. q2 = b2 c2
4.3. tT2 X2 = 0
Se puede hablar en general entonces, de las componentes de orden h.

5. Determinación de las componentes de orden h.

Se busca una componente que sea combinación lineal de las columnas de Xh−1
denominada th y otra componente que sea combinación lineal de las columnas de
Yh−1 denominada uh ; es decir, para th y uh se tiene que:

th = Xh−1 wh , uh = Yh−1 ch

de modo que wh y ch tengan norma euclídea 1.

Estas dos combinaciones lineales deben obtenerse de modo que Cov(th , uh ) sea má-
xima.

En Helland, I. (2001) se demuestra quewh es el vector propio de la matriz XTh−1 Yh−1 Yh−1
T
Xh−1
2
correspondiente al mayor vector propio θ1 de dicha matriz y que ch es el vector pro-
T T 2
pio de la matriz Yh−1 Xh−1 Xh−1 Yh−1 correspondiente al mayor vector propio θ1 de
3.5 Regresión P LS 39

dicha matriz.

A continuación se llevan a cabo las dos regresiones:

Xh−1 = th pTh + Xh

Yh−1 = th qTh + Yh ,
XTh−1 th
donde ph = tTh th
es el vector de los coecientes de regresión sobre th para cada
T
Yh−1 th
variable original independiente xi y qh = tTh th
es el vector de coecientes de

regresión de th para cada variable original dependiente yk .


6. Propiedades de las componentes de orden h. Se tiene que:
6.1. pTh wh = 1
6.2. qh = bh ch
6.3. tTh Xh = 0
A continuación se muestran las fórmulas de descomposición dado que el objetivo del análi-
sis de regresión P LS2 es una ecuación para predecir los valores de las variables a explicar
Y0 según los valores que tomen las variables independientes X0 .

Las matrices X0 y Y0 se descomponen por regresión sobre las componentes t1 , t2 , · · · , tA ,


donde A es el rango de X0 como:

X0 = t1 pT1 + t2 pT2 + · · · + th pTh + XA

Y0 = t1 qT1 + t2 qT2 + · · · + th qTh + YA ,

En esta descomposición se deduce la regresión P LS2 de cada variable yk sobre las varia-
bles x1 , x2 , · · · , xp , por tanto:

A A
yk − y k X X
Y0,k = = qh,k th + FA,k = qh,k X0 + YA,k
Syk h=1 h=1

de donde se tiene que:

p A  
X X xj − x
Y0,k = qh,k w
eh,j + YA,k
j=1 h=1
Sxj
40 3 Regresión Lineal Múltiple y PLS
Capítulo 4

Regresión por Mínimos Cuadrados


Parciales P LS Aplicada a Datos
Variedad Valuados. Implementación
con Datos Simulados

En éste capítulo se extiende la regresión por mínimos cuadrados parciales P LS a espacios


no euclídeos y se muestra como funciona ésta metodología por medio de datos simulados.
Para comprender con mayor facilidad los conceptos tratados en este capítulo, sugerimos
estudiar antes los conceptos de topología y geometría diferencial desarrollados en los
apéndices A. Éste capítulo está estructurado de la siguiente manera: En la sección 4.1
se habla del conjunto de matrices denidas positivas como una variedad Riemanniana y
se construyen distribuciones de probabilidad para dicho conjunto. En la sección 4.2 se
presenta el modelo de regresión sobre el conjunto de matrices denidas positivas. En la
sección 4.3 se presenta un modelo de regresión P LS sobre el conjunto de matrices denidas
positivas. Por último, en la sección 4.4, se presenta la implementación de la metodología
con datos simulados.

4.1. La Geometría del Conjunto de Matrices Denidas


Positivas
En esta sección se muestran algunos resultados desarrollados en Schwartzman, A. (2006)
sobre la estructura geométrica del conjunto de matrices denidas positivas. A continuación
se presentan las deniciones del tipo de datos que se utilizan este capítulo.

Denición 4.1.1.

1. El conjunto formado por todas las matrices de orden p × p invertibles se denota por
GL(p).

41
42 4 Regresión PLS. Implementación

2. El conjunto formado por todas las matrices de orden p × p invertibles y simétricas con
entradas reales, que se denota por Sym(p) es el conjunto:

Sym(p) = {Y ∈ Rp×p : Y −1 Y = Ip , Y T = Y }.

3. El conjunto formado por todas las matrices de orden p × p denidas positivas, que se
denota por Sym+ (p) es el conjunto:

Sym+ (p) = {X ∈ Sym(p) : v T Xv > 0, ∀v ∈ Rp }.

4. El conjunto formado por todas las matrices de orden p × p diagonales con entradas
reales, que se denota por Diag(p), es el conjunto:

Diag(p) = {Y ∈ Rp×p : yi,j = 0, ∀i 6= j}.

5. El conjunto formado por todas las matrices de orden p × p diagonales con entradas
reales positivas, se denota por Diag + (p).
6. Sea X ∈ Rp×p . diag(X) es el vector columna de orden p × 1 formado por los elementos
de la diagonal de X y odiag(X) es el vector columna de orden p(p−1)
2
× 1 formado
por los elementos que están encima de la diagonal de X .
7. vecd(X) es el vector columna de orden p(p+1)
2
×1 que es la concatenación de los vectores
diag(X) y odiag(X).

4.1.1. Matriz Exponencial y Matriz Logarítmica


A continuación se denen las matrices exponencial y logarítmica.

Denición 4.1.2. Sea Y una matriz de orden p × p.

1. La matriz exponencial de Y , que se denota por exp(Y ), se dene como la siguiente


serie de potencias:

X Yk
exp(Y ) =
k=0
k!

2. Para una matriz de orden p × p invertible, la matriz logarítmica de X que se denota


por log(X), es cualquier matriz Y de orden p × p tal que exp(Y ) = X .

La matriz logarítmica siempre existe, pero no es única. Cuándo Y ∈ Diag(p) se tiene


que exp(Y ) es una matriz diagonal tal que en las componentes de la diagonal principal se
+
tienen los exponenciales de los elementos de la diagonal de Y . Si X ∈ Diag (p) entonces
log(X) es una única matriz diagonal tal que en los elementos de su diagonal principal
4.1 Matrices Denidas Positivas. Geometría 43

aparecen los logaritmos de los elementos de la diagonal de la matriz X.

En los siguientes teoremas se describen algunas de las propiedades que satisfacen las
matrices exponencial y logarítmica.

Teorema 4.1.1.
Sea Y una matriz de orden p × p.

1. Si V es una matriz ortonormal de orden p entonces exp(V Y V T ) = V exp(Y )V T .

2. Si Y ∈ Sym(p) y Y = V LV T es una eigen descomposición de Y con V matriz orto-


T
normal y L ∈ Diag(p), entonces exp(Y ) = V exp(L)V .

3. Si X ∈ Sym+ (p) y X = V ΛV T es una eigen descomposición de X con V matriz


+ T
ortonormal y Λ ∈ Diag (p), entonces log(X) = V log(Λ)V .

Teorema 4.1.2. Sean A, B y Y matrices de orden p × p y t ∈ R.

1. Si A y B son matrices invertibles y que conmutan bajo la multiplicación usual entre


matrices, entonces exp(A + B) = exp(A) + exp(B).
2. Si Y es una matriz invertible, entonces la derivada de exp(tY ) con respecto a t es
Y exp(tY ) = exp(tY )Y

La prueba de estos teoremas resulta directamente de las deniciones y se puede ver en


Schwartzman, A. (2006).

4.1.2. El Conjunto de Matrices Denidas Positivas como una


Variedad Riemanniana
Las matrices denidas positivas son matrices simétricas con la restricción de que su valores
propios son positivos. Esta restricción puede ser usada para restringir los valores de las
entradas de la matriz. Por ejemplo, si X representa una matriz de orden 2 × 2 y simétrica
tal que las componentes de la diagonal principal son a y b y los elementos de la diagonal
secundaria son c y c, entonces se se tiene que X es denida positiva si y solo a > 0,
b > 0 y ab − c2 > 0. El conjunto de tripletas (a, b, c) que resultan de las matrices denidas
3
positivas es un subconjunto abierto de R y tiene forma de un cono.

El siguiente teorema describe la geometría diferencial básica del conjunto de interés


Sym+ (p). El conjunto Sym+ (p) tiene una relación muy estrecha con su superconjunto
Sym(p).
Teorema 4.1.3. Se verica que

1. Los conjuntos Sym(p) y Sym+ (p) son variedades diferenciables de dimensión p(p+1)
2
.
44 4 Regresión PLS. Implementación

2. Los espacios Sym(p) y Sym+ (p) están difehomorcamente relacionados por medio de
la matriz exponencial exp(.) y su inversa, la matriz logarítmica log(.).
3. El espacio tangente TI Sym+ (p) del espacio Sym+ (p) sobre la identidad Ip×p puede ser
identicado como una copia de Sym(p).

El conjuntoSym+ (p) no es un grupo bajo la multiplicación de matrices, pero las matrices


denidas positivas están relacionadas entre si por la acción de grupo GL(p), que se dene
a continuación.

Denición 4.1.3. La acción de grupo de GL(p) en Sym+ (p) es la transformación:

φ : GL(p) × Sym+ (p) → Sym+ (p)

Donde φG (X) = GXGT , para G ∈ GL(p) y X ∈ Sym+ (p).


Teorema 4.1.4. Dadas X y W en Sym+ (p) existe una matriz no única G en GL(p) tal
que GXGT = W .

La acción de grupo en Sym+ (p) determina una acción de grupo similar entre el espacio
+
tangente en X y φG (X). Dado un vector tangente Y ∈ T anX Sym (p) en X y G ja, el
T +
mapa diferencial de φ está dado por dφG (Y ) = GY G ∈ TφG Sym (p). Si Y es simétrica
T
entonces GY G también es simétrica y el mapeo es uno a uno. Se puede concluir el
siguiente resultado.

Teorema 4.1.5. El espacio tangente TX Sym+ (p) en cada punto X puede ser identicado
con una copia de Sym+ (p).
p
La acción de grupo de puede verse como un cambio de coordenadas. Sea v ∈ R
GL(p)
T +
un vector aleatorio con media cero y covarianza X = E(vv ) ∈ Sym (p). Si las entradas
de v se consideran como coordenadas en un marco p-dimensional G ∈ GL(p), donde las
columnas gi de G son vectores referencia con coordenadas en una referencia Rp , entonces
las coordenadas de v en la referencia están dadas por:

ṽ = g1 v1 + g2 v2 + · · · + gp vp = Gv.

La covarianza del vector ṽ está dada por:

E(vv T ) = E(Gvv T GT ) = GXGT

En otras palabras, la acción V = GXGT es la expresión en coordenadas de referencia


X, cuando X está en G-coordenadas. A la inversa, si V está expresado en una referencia
de coordenadas entonces la expresión para V en G coordenadas es X = G−1 V (G−1 )T .
Por analogía, la interpretación del mismo sistema de coordenadas aplica para la acción
de grupo que resulta en los vectores tangentes en X y en V respectivamente.
4.1 Matrices Denidas Positivas. Geometría 45

+
Se gira la variedad Sym (p) en una variedad Riemanniana deniendo en cada punto
+
en Sim (p) un producto interno que varía diferenciable a lo largo de la variedad. Se
consideran dos opciones. La primera es el producto interno de Frobenius para matrices
+
simétricas, obtenido con respecto a Sym (p) como un subconjunto del espacio euclidiano
Sym(p). Este producto interno da como resultado una variedad Riemanniana que es plana,
+
pero cuyas geodésicas, que son líneas rectas, son restringidas por las cotas de Sym (p)
como un subconjunto de Sym(p). La segunda es una versión a escala de la primera que es
invariante bajo la acción de grupo GL(p) y los resultados en una variedad Reimanniana
que es curva, pero cuyas geodésicas son enteramente contenida en la variedad.

Denición 4.1.4. Producto interno Regular de Frobenius.

Sean YM y ZM ∈ TM Sym+ (p) dos vectores tangentes en M . El producto interno regular


de Frobenius está dado por:

hYM , ZM iM = tr(YM ZM )
Denición 4.1.5. Producto interno escalado de Frobenius.

Sean YM y ZM ∈ TM Sym+ (p) dos vectores tangentes en M . El producto interno escalado


de Frobenius está dado por:

hhYM , ZM iiM = tr(YM M −1 ZM M −1 )

Se tiene que el producto interno regular de Frobenius es Euclidiano. Vectorizando las


matrices YM y ZM se tiene que:

tr(YM ZM ) = hdiag(YM ), diag(ZM )i + 2hof f diag(YM ), of f diag(ZM )i

donde los productos internos en la última línea son los productos internos estándar para
p(p+1)
los vectores en Rp y R 2 , respectivamente. El producto interno regular de Frobenius
también es constante, no depende del punto de aplicación particular, M. El producto
interno escalado de Frobenius, por otro lado, es constante en el sentido de que es invariante
bajo transformaciones lineales por la acción de grupo de GL(p).
Teorema 4.1.6. El producto interno escalado de Frobenius es una isometría bajo GL(p),
esto es, este es invariante bajo la acción de grupo de GL(p).
Los productos internos regulares y escalados Frobenius se relacionan entre sí por medio
de la acción de grupo determinado por el punto de aplicación M.
Teorema 4.1.7. Sean YM y ZM ∈ TM Sym+ (p) dos vectores tangentes en M y sea G ∈
GL(p) cualquier raíz cuadrada de M ; esto es M = GGT . Sean YI = φG−1 (YM ) y ZI =
φG−1 (ZM ) las traslaciones de la identidad de YM y ZM , respectivamente. Entonces:

hhYM , ZM iiM = hYI , ZI iI .


46 4 Regresión PLS. Implementación

+
Conceptualmente el punto M ∈ Sym (p) es una traslación de la identidad I por el grupo
T
de acción M = GIG . Por lo tanto, el producto interno escalado de Frobenius puede
ser calculado primero trasladando los vectores YM y ZM sobre el plano tangente de la
identidad y luego calcular allí el producto interno regular de Frobenius. Este resultado no
depende de la raíz cuadrada.

Las geodésicas son la analogía Riemanniana de líneas rectas sobre espacios Euclídeos en el
sentido que estas minimizan distancias en la variedad. Esto depende de la distancia en que
se mide; esto es, depende del producto interno Riemanniano. Equipado con el producto
+
interno regular de Frobenius, el conjunto Sym (p) visto como un subconjunto de Sym(p)
es un espacio Euclídeo, luego sus geodésicas son líneas rectas.

Teorema 4.1.8. Sea YM ∈ TM Sym+ (p) un vector tangente en el punto M ∈ Sym+ (p).
La geodésica que pasa por el punto M en la dirección del vector YM con respecto al producto
interno regular de Frobenius está dado por:

γM (t, YM ) = M + YM t; 0≤t≤δ

para algún δ > 0.

La restricción de que t no sea muy grande es para garantizar que la línea esté dentro de
Sym+ (p). El presente cálculo es difícil desde que se dependa de M y YM especícamente.
Es por ésta razón que toma sentido pensar las geodésicas como locales; esto es, son válidas
sólo en vecindades de M.
El producto interno escalado de Frobenius conduce a geodésicas que no exigen la restric-
ción anterior. Se comienza con las geodésicas sobre la identidad.

Teorema 4.1.9. Tome un vector tangente YI ∈ TI Sym+ (p) sobre la identidad. La curva:

γI (y, YI ) = exp(YI t), t∈R

es una geodésica en Sym+ (p) con respecto al producto interno escalado de Frobenius.

Este resultado indica que las geodésicas de Sym+ (p) sobre la identidad I son las imágenes
bajo la matriz exponencial de las geodésicas de Sym(p) sobre el origen 0, que son líneas
rectas.

Si un mapeo es isométrico; esto es, si si conserva el producto interno entre los vectores
tangentes mapeados, entonces las geodésicas mapearan geodésicas. Como el producto
interno escalado de Frobenius es una isometría con respecto a la acción de grupo, entonces
+
se usa este hecho para encontrar geodésicas sobre puntos en general de Sym (p).

Teorema 4.1.10. Sea YM ∈ TM Sym+ (p) un vector tangente en un punto M ∈ Sym+ (p).
La geodésica que pasa por M en la dirección de YM con respecto al producto interno
escalado de Frobenius está univocamente dado por:
4.1 Matrices Denidas Positivas. Geometría 47

γM (t, YM ) = G exp(G−1 YM (G−1 )T t)GT

donde G es alguna raíz cuadrada de M ; esto es, alguna G ∈ GL(p) tal que M = GGT .

4.1.3. El Mapeo Exponencial Riemanniano.


El mapeo exponencial Riemanniano es una función que mapea vectores tangentes en
puntos sobre la variedad. Formalmente, el mapeo exponencial Riemanniano del vector
tangente YM es denido como el valor de la geodésica γM (t, YM ) para t = 1. En el caso
Y
del producto interno regular de Frobenius, el mapeo exponencial de un vector tangente
con respecto a un punto de aplicación M es simplemente el desplazamiento lineal M + Y .
El caso del producto interno escalado de Frobenius está dado en la siguiente denición.

Denición 4.1.6. Dado un vector tangente YM ∈ TM Sym+ (p) sobre un punto M ∈


Sym+ (p), el mapeo exponencial Riemanniano ExpM : TM sym+ (p) → Sym+ (p) con res-
pecto al producto interno escalado de Frobenius está dado por:

X = Exp(YM ) = G exp(G−1 YM (GT )−1 )GT

donde G es alguna raíz cuadrada de M .

Note que cuando M = I, se tiene que ExpM (YM ) = exp(YI ). Dado que la matriz ex-
ponencial es una función uno a uno entre los conjuntos Sym+ (p) y Sym(p), entonces
existe ExpM (p) para todo M. Este mapa tiene una inversa, llamado mapa Riemanniano
logarítmico. A continuación se dene dicho mapa.

Denición 4.1.7. Dadas dos matrices denidas positivas X, M ∈ Sym+ (p), el mapa
Riemanniano logarítmico LogM : Sym+ (p) → TM Sym+ (p) de X en relación con M con
respecto al producto interno escalado de Frobenius está dado por:

YM = LogM (X) = Glog(G−1 X(GT )−1 )GT

donde G es alguna raíz cuadrada de M .

Por construcción se tiene las relaciones inversas:

LogM (ExpM (YM )) = YM , ExpM (LogM (X)) = X.

Debido a la singularidad de las geodésicas, los mapas exponenciales y logarítmicas son


únicos e independientes de la elección de la raíz cuadrada de M.

Las geodésicas tienen la propiedad de minimizar la longitud de la trayectoria que une dos
puntos en la variedad. En general, esta armación es cierta siempre y cuando los puntos
48 4 Regresión PLS. Implementación

no sean muy lejanos, ya que las geodésicas de diferentes longitudes pueden cruzarse. Sin
embargo, el mapa exponencial Riemanniano con respecto al producto interno regular o
escalado de Frobenius, es uno a uno, lo que implica que existe una única geodésica que
une los puntos de la variedad independiente de lo lejos que estén. De esta manera, tiene
sentido denir la distancia geodésica como la longitud del arco geodésico mas corto que
une los puntos sobre la variedad.

En el caso del producto interno regular de Frobenius, las geodésicas son lineas rectas y
+
por tanto la distancia geodésica entre dos puntos X, M ∈ Sym (p) se reduce a la distan-
2 2
cia Euclídea; esto es, kX − M k = tr(X − M ) . La distancia geodésica con respecto al
producto interno escalado de Frobenius, se obtiene como sigue.

Según el lemma de Gauss Docarmo, M. (1992) el diferencial del mapa exponencial de Rie-
mann es una isometría. Como una consecuencia se tiene que la longitud de la trayectoria
geodésica con respecto al producto interno escalado de Frobenius entre dos puntos X y
M puede ser medida en el espacio tangente de M como la longitud del vector tangente
Y = LogM (X) en TM Sym(p); esto es, d(M, X) = kY k.

Teorema 4.1.11. Sean X, M ∈ Sym+ (p) y G alguna raíz cuadrada de M . La distancia


geodésica entre X y M está univocamente dada por:
p
d(M, X) = kLogM (X)k = tr(log 2 (GXGT ))

Debido a la unicidad del mapa logarítmico Riemanniano, se tiene que el calculo de la


distancia geodésica no depende de la elección de G como una raíz cuadrada de M.

La distancia geodésica d(., .) satisface las propiedades dadas en el siguiente teorema. Dicho
teorema garantiza que la distancia geodésica es una métrica.

Teorema 4.1.12. Sean A, B, C ∈ Sym+ (P ). La distancia geodésica d(., .) satisface las


siguientes propiedades.

1. d(A, B) ≥ 0.
2. d(A, B) = 0 si y sólo si A = B .
3. d(A, B) = d(B, A).
4. d(A, B) ≤ d(A, C) + d(C, B).

Las siguientes propiedades de la distancia geodésica d(., .) aparecen en Forstner, W. &


Moonen, B. (1999).

Teorema 4.1.13. Sean A, B ∈ Sym+ (p). Las siguientes propiedades se satisfacen.


4.1 Matrices Denidas Positivas. Geometría 49

1. Sean λi (A, B) para i = 1, 2 · · · , p los valores propios conjuntos de A y B ; esto es, las
soluciones de det(λA − B) = 0 y sea Λ la matriz diagonal formada por esos valores
propios. Entonces:
v
u p
uX p
d(A, B) = t log 2 λi (A, B) = tr(log 2 Λ).
i=1

2. d(A; B) = d(GAGT , GBGT ), para todo G ∈ GL(p).


3. d(A, B) = d(A−1 , B −1 ).

4.1.4. Distribución de Probabilidad para Matrices Denidas


Positivas.
En la estadística multivariada clásica, la distribución de probabilidad mas usada para
las matrices denidas positivas, es la distribución de probabilidad Wishart que resulta
de la matriz de covarianza muestral de una muestra normal multivariante. Además de
la distribución Wishart, se pueden considerar otras dos alternativas. La primera consiste
en distribuciones de probabilidad para matrices simétricas con entradas reales, donde en
cada una de las entradas de la matriz hay una distribución normal. Basados en esta alter-
nativa se puede considerar una distribución normal truncada, pero es difícil de trabajar
con ella. Se trabaja con la distribución lognomal para matrices denidas positivas, que
está basada en la distribución normal para matrices simétricas después de hacer una log
transformación. Ésta distribución se dene de maneras diferentes, dependiendo si la log
transformación es una logmatriz lineal o si es el logmapeo Riemanniano.

La literatura en estadística sugiere dos maneras diferentes de construir distribuciones nor-


males para matrices simétricas. En primer lugar, se puede tomar como base Gupta, A.K.
& Nagar, D.K. (2000), que reorganizan las componentes de la matriz en un vector y tra-
ta el vector resultante como una distribución normal multivariada. En segundo lugar, se
puede tomar como base Chikuse,Y. (2003), que construye la distribución de probabilidad
usando las matrices directamente sin utilizar operadores de vectorización.

A continuación se muestran estas dos maneras de construir distribuciones de probabilidad


para matrices simétricas.

Distribución Normal Vectorizada.


A diferencia de la forma estándar de vectorización de matrices, donde se toman los elemen-
tos por columnas, a continuación se usa el operador vecd(.). Esta forma de vectorización
de matrices es más conveniente para el análisis de datos.
50 4 Regresión PLS. Implementación

Denición 4.1.8. Sea Y ∈ Sym(p). Se dice que la matriz Y tiene una distribución
normal matriz variada vectorizada simetricamente con media M ∈ Sym(p) y covarianza
Σq×q ∈ Sym+ (q), donde q = p(p+1)
2
, si :

vecd(Y ) ∼ N (vecd(M ), Σq×q )

La covarianza se puede descomponer de la siguiente manera:

 
Σdiag Σdiag,odiag
Σ=
Σodiag,diag Σodiag

donde Σdiag es la matriz de covarianza p × p de los elementos sobre la diagonal, Σodiag es


T
la matriz (q − p) × (q − p) de los elementos fuera de la diagonal y Σdiag,odiag = Σodiag,diag
es la matriz de covarianza cruzada p × (q − p) de las dos.

Distribución Normal Matriz Simétrica Variada.


Se comienza la construcción considerando q = p(p+1)
2
elementos diferentes normales inde-
pendientes de una matriz simétrica de orden p × p aleatoria.

Denición 4.1.9. Sea Z ∈ Sym(p). Se dice que Z es una matriz simétrica normal
estándar Npp (0, Ip ) si su densidad es:
 
1 1 2
ϕpp (Z) = q exp − tr(Z )
(2π) w 2

con respecto a la medida de Lebesgue en Rq , con q = p(p+1)


2
.
Sean {zij }pi,j=1 las entradas de la matriz Z . El término tr(Z 2 ) del exponente de la densidad
de Z es tal que:

p p p p
2
X X X X √
tr(Z ) = hZ, Zi = zii2 + zij2 = zii2 + ( 2zij )2
i,j=1 i<j i,j=1 i<j

esto es, la densidad de Z q = p(p+1)


es el producto de
2
normales independientes, donde los

p elementos de la diagonal de Z distribuyen N (0, 1) y los q − p = p(p−1)


2
elementos que
1
están por fuera de la diagonal de Z distribuyen N 0, .
2

La matriz simétrica normal estándar Z satisface las propiedades dadas en el siguiente


teorema.

Teorema 4.1.14. Si Z ∼ Npp (0, Ip ) entonces:

1. E(Z) = 0.
4.1 Matrices Denidas Positivas. Geometría 51

2. 1q E(t(Z 2 )) = 1.
3. tr(Z 2 ) ∼ χ2q .
4. E(exp(tr(T Z))) = exp − 21 tr(T 2 ) , donde T ∈ Sym(p).


En el caso univariado se tiene que si z ∼ N (0, 1) y y ∼ N (µ, σ 2 ) entonces z se transforma


en y mediante la relación y = σy +µ. De manera análoga, se puede establecer una relación
entre una matriz simétrica normal estándar Z y una matriz simétrica normal no estándar
Y . La relación está dada por la acción de grupo GL(p). Considere Z ∼ Npp (0, Ip ) y
Y ∈ Sym(p), entonces:

Y = GZGT + M

con G ∈ GL(p) y Z ∈ Sym(p). De esta última relación se tiene que Z = G−1 (Y −


M )(GT )−1 , por lo tanto:

tr(Z 2 ) = tr (G−1 (Y − M )(GT )−1 )2 = tr ((Y − M )(GT G)−1 )2 .


 

p+1
Usando el Jacobiano de la transformación se tiene que J(Z → Y ) = |G|−(p+1) = |GT G|− 2

Fang, K.T. and Zhang, Y.T (1990), de donde el Jacobiano y el exponente de la densidad
T +
de probabilidad dependen de G, a través de la matriz única G G = Σ ∈ Sym (p). Esto
conduce a la siguiente denición general.

Denición 4.1.10. Sea Y ∈ Sym(p). Se dice que Y tiene una distribución matriz simé-
trica normal variada Npp (M, Σ), donde M ∈ Sym(p) y Σ ∈ Sym+ (p), si tiene densidad:
 
1 1
exp − tr ((Y − M )Σ−1 )2

f (Y ; M, Σ) = q p+1
(2π) 2 |Σ| 2 2

con respecto a la medida de Lebesgue en Rq .


Con la intención de simplicar la inferencia en los valores y vectores propios de M , se
propone una versión simplicada de la denición 4.1.10. Considere Z ∼ Npp (0, Ip ) y sea
Y ∈ Sym(p) dada por:

Y = σZ + M

donde σ2 puede ser pensado como la varianza común de la matriz Y. Esto da lugar a la
siguiente denición.

Denición 4.1.11. Sea Y ∈ Sym(p). Se dice que Y tiene una distribución matriz simé-
trica normal variada Npp (M, σ2 ), donde M ∈ Sym(p) y σ > 0, si tiene densidad:
 
2 1 1 2

f (Y ; M, σ ) = q exp − 2 tr ((Y − M ))
(2π) 2 σ q 2σ
52 4 Regresión PLS. Implementación

con respecto a la medida de Lebesgue en Rq .

Este es un caso especial de la denición 4.1.10 con Σ = σI . Para una matriz simétrica
que sigue una distribución normal variada se satisfacen las siguientes propiedades.

Teorema 4.1.15. Si Y ∼ Npp (M, σ2 ) entonces:

1. E(Y ) = M .
2. 1q E(tr((Y − M )2 )) = σ2 .
3. 1
σ2
tr((Y − M )2 ) ∼ χ2q .

4. E[exp(tr(T Y ))] = exp tr T M − 21 σ2 T 2 , T ∈ Sym(p).




Distribución Lognormal para Matrices Denidas Positivas.


En el caso univariado se tiene que una variable aleatoria positiva X sigue una distribución
2
log normal con parámetros µ y σ si la variable aleatoria Y = log(X) tiene una distribución
normal. Se puede generalizar dicha distribución al caso de matrices denidas positivas de
dos formas. La primera forma es usando una log transformación matricial lineal. Una
forma mas general es usar log-residuales basados en el mapeo logarítmico Riemanniano.
A continuación se habla de dichas maneras de generalizar la distribución log normal a
matrices denidas positivas.

Sea Y ∈ Sym(p) y X = exp(Y ) ∈ Sym+ (p). A continuación se dene la distribución


lognormal para matrices denidas positivas de dos maneras diferentes, una basada en
vectorización de matrices y la otra en distribuciones normales matriciales.

Denición 4.1.12. Sea X ∈ Sym+ . Se dice que la matriz X tiene una distribución
matriz simétrica positiva vectorizada log normal variada con parámetros M ∈ Sym(p) y
Σq×q ∈ Sym+ (p), con q = p(p+1)2
, si Y = log(X) ∈ Sym(p) tiene una matriz simétrica
vectorizada distribución normal; esto es, si vecd(T ) ∼ N (vecd(M ), Σq×q ).
Denición 4.1.13. Sea X ∈ Sym(p). se dice que X tiene una matriz denida positi-
va distribución log normal con parámetros M ∈ Sym(p) y σ2 > 0, si Y = log(X) ∈
Sym(p) ∼ Npp (M, σ 2 ).

De acuerdo a la denición 4.1.13, se tiene que la densidad de X es:

 
2 J(X) 1 2

f (X; M, σ ) = exp − 2 tr (Y − M ) (4.1)
(2π)q/2 σ q 2σ

donde J(X) es el Jacobiano de la log transformación Y = log(X). A continuación se da


un resultado que permite calcular J(X).
4.1 Matrices Denidas Positivas. Geometría 53

Teorema 4.1.16. Sean λ1 > λ2 > · · · > λp los valores propios de la matriz X . El
Jacobiano de la transformación Y = log(X) está dado por:

1 Y log(λj ) − log(λi )
J(X) = J (Y → X) = . (4.2)
λ1 λ2 · · · λp i<j λj − λi

La log transformación matriz lineal es un caso especial del log-residual Riemanniano


tomando la identidad. La distribución log normal se puede generalizar tomando el log-
residual sobre un punto general M . En la ecuación 4.1, el punto de aplicación M reemplaza
el punto M como un parámetro de localización. se puede construir la distribución log
normal Riemanniana en la versión de vectorización y en la versión matricial directa.

Lognormal Riemanniana.
A continuación s denen las dos versiones para la distribución log normal Riemanniana.

Denición 4.1.14. Sea X ∈ Sym+ (p). Se dice que X tiene una matriz denida positiva
distribución log normal Riemanniana variada con parámetros M ∈ Sym+ (p) y covarianza
Σ ∈ Sym+ (q) si el mapeo log Riemanniano Y = Log(X) tiene una matriz simétrica
positiva vectorizada distribución normal; esto es,

vecd(Y ) = vecd (LogM (X)) ∼ N (0, Σq×q )

Para construir la log normal Riemanniana en la versión matricial, se comienza consideran-


do Z ∼ Npp (0, Ip ) normal estándar y se asigna el espacio tangente sobre la identidad. La
matriz denida positiva aleatoria W denida por el mapeo exponencial E = ExpI (Z) =
exp(Z) tiene la distribución log normal dada en la denición 4.1.13 con parámetros 0y1
por que Z = LogI (W ) = log(W ) es normal estándar. Por lo tanto W tiene densidad:

 
J(W ) 1 2

f (W ) = exp − tr (logW )
(2π)q/2 2

donde J(.) está dado por 4.2. Sea M ∈ Sym+ (p) y sea G alguna raíz cuadrada de M . Se
+ T
dene X ∈ Sym (p) por el grupo de acción de G como X = GW G donde G ∈ GL(p),
−(p+1)
−(p+1)
con Jacobiano J (W → X) = |G| = |GGT | 2 . Por lo tanto X tiene densidad:

J(G−1 X(GT )−1 )


 
1 −1 T −1 2

f (X) = −(p+1)
exp − tr (log(G X(G ) )) . (4.3)
(2π)q/2 |GGT | 2 2

Tiene sentido la siguiente denición.


54 4 Regresión PLS. Implementación

Denición 4.1.15. Sea X ∈ Sym+ (p). Se dice que X tiene una matriz denida positiva
distribución log normal Riemanniana variada con parámetros M ∈ Sym+ (p), si el mapeo
Riemanniano Y = LogM (X) ∈ Sym(p) tiene una matriz simétrica variada distribución
normal; esto es,

Y = LogM (X) ∼ Npp (0, Ip ).

Teorema 4.1.17. La densidad 4.3 no depende de la elección de G.

En la densidad 4.3 se tiene que M = GGT hace el papel de parámetro de localización, peor
también afecta la escala. Si en la denición 4.1.15 se cambia por Npp (0, σ 2 ) ó Npp (0, Σ),
entonces el factor de escala lo absorbe G. Por 4.2 se tiene que el Jacobiano J(.) solo de-
−1 T −1
pende de los valores propios de estos argumentos. Por lo tanto J(G X(G ) ) es función
−1 T −1
de los valores propios de G X(G ) , que son los mismos valores propios conjuntos de
X y M. Ahora, puede notarse que:

tr (log(G−1 X(GT )−1 ))2 = d2 (M, X)




esto es; es raíz de la distancia geodésica entre M y X. Esto conduce a una generalización
de la densidad 4.3, escrita en términos de la distancia geodésica.

Denición 4.1.16. Sea X ∈ Sym+ (p). Se dice que X tiene una matriz denida positiva
distribución normal geodésica variada con parámetro M ∈ Sym+ (p) si tiene densidad
 
1
f (X, M ) ∝ exp − d2 (M, X)
2

Las distribuciones de probabilidad descritas anteriormente para el conjunto Sym+ (p) se


utilizan en el momento de llevar a cabo los entornos de simulación en el software estadístico
R, en particular, se usa la distribución normal para matrices denidas positivas.

4.2. Datos respuesta en Sym+(p). Modelo de Regresión.

Dado el conjunto de datos: {(xi , yi ) : i = 1, 2, . . . , n}, el modelo de regresión incluye


frecuentemente 2-elementos importantes: una función enlace µi (β) = E[y|xi ] = g(xi , β) y
un residual i = yi − µi (β), donde βq×1 es el vector de coecientes de regresión, xi : vector
de k -variables regresoras y g(. , .): la función enlace dada por

g(. , .) : Rk × Rq → R ; (xi , β) → g(xi , β)

con , q = k + 1.
4.2 Datos respuesta en Sym+ (p). Modelo de Regresión. 55

Grácamente se tiene:

Figura 4.1: Modelo de Regresión Lineal sobre Espacios Euclídeos.

Dado un conjunto de datos: {(xi , Si ) : i = 1, 2, . . . , n}, en donde los datos de la variable


respuesta Si son datos variedad valuados (puntos sobre una variedad Riemanniana S) y xi
es un vector de covariables de interés sobre un espacio euclídeo. Un modelo de regresión
para este tipo de datos , involucra modelar la " media condicional de Si dado xi ,
denotada por: µi (β) = E[Si |xi ] = g(xi , β) con

g(. , .) : Rk × Rq → S ; (xi , β) → g(xi , β)

llamada función enlace. Para dos puntos Si y µi (β) sobre la variedad S, el modelo
también dene un residual o diferencia entre Si y µi (β). Grácamente se tiene:

Figura 4.2: Modelo de Regresión Lineal sobre Espacios no Euclídeos.


56 4 Regresión PLS. Implementación

La idea general, es transportar los objetos que pertenecen a el espacio no Euclídeo sobre el
espacio tangente común, llevar a cabo en dicho espacio tangente los respectivos modelos de
regresión y posteriormente mapear los resultados nuevamente sobre el espacio no Euclídeo.
Gracamente se tiene:

Figura 4.3: Modelo de Regresión Lineal sobre Espacios no Euclídeos. Idea General.

Dado que las matrices denidas positivas no están sobre un espacio euclídeo, entonces es
teórica y computacionalmente complicado desarrollar un marco estadístico formal donde
se tenga la forma de hacer estimación y pruebas de hipótesis, de modo que se usen co-
variables para predecir directamente las matrices denidas positivas como respuesta. Es
por ésta razón que se piensa en desarrollos teóricos que transformen las matrices denidas
positivas sobre espacios Euclídeos. En Zhu, H., Chen, Y., Ibrahim, J., Li, Y., Hall, C.,
Lin, W. (2009) se muestra el desarrollo de una metodología de regresión donde la respues-
ta son matrices denidas positivas log transformadas. El modelo se basa en un método
semiparamétrico que evita especicar distribuciones paramétricas para las matrices de-
nidas positivas aleatorias log transformadas. Se han planteado procesos de inferencia para
estimar los coecientes de regresión de dicho modelo, al igual de estadísticos de prueba
que permiten contrastar hipótesis de los parámetros desconocidos y procesos de prueba
basados en métodos de remuestreo para evaluar simultáneamente la signicancia estadís-
tica de hipótesis lineales. En este trabajo se considera el modelo de regresión polinomial
local intrínseco para matrices denidas positivas como respuesta.

Para estimar µ(x) = E[S|X = x0 ] se procede de manera diferente a la manera en que


se procede cuando se tiene un modelo de regresión sobre un espacio Euclídeo. Dado que
µ(x) está sobre un espacio curvado, no se puede usar directamente las series de Taylor
para expandir a µ(x) en X = x0 . Por tal razón, se busca transformar µ(x) de manera que
pueda hacerse una expansión de series de Taylor.

Suponga que se tiene un conjunto de datos {(xi , Si ) : i = 1, 2, . . . , n}, donde los datos de
+
la variable respuesta Si son datos sobre Sym (p) y xi es un vector de covariables de interés
sobre un espacio euclídeo. Un modelo de regresión para este tipo de datos , involucra
4.2 Datos respuesta en Sym+ (p). Modelo de Regresión. 57

modelar la media condicional de Si dado xi , denotada por: µi (β) = E[Si |xi ] = g(xi , β)
con g(. , .) : R × R → S ; (xi , β) → g(xi , β) llamada función enlace. Para estimar
k q

µ(x) sobre cada punto X = x0 se resuelve minimizando la siguiente función objetivo:

n
X
Gn (µ(x0 )) = Kh (xi − x0 )d2g (µ(x0 ), Si ) (4.4)
i=1

u
h−1 ,

donde kh (u) = K h
con h escalar positivo y K(·) es una función Kernel.

+
Se considera el mapa logaritmo Riemanniano de µ(x) en µ0 (x) sobre el espacio Tµ(x) Sym (p);
+
esto es, se considera Logµ0 µx ∈ Tµ(x) Sym (p). Ahora, como Logµ0 µx está sobre un espacio
tangente diferente para cada valor de X , entonces se transportan los elementos desde el
+ +
espacio Tµ(x) Sym (p) hasta el espacio común TIp Sym (p), a través del transporte paralelo
dado por:

Φµ(x0 ) : Tµ(x0 ) Sym+ (p) → TIp Sym+ (p)

Φµ(x0 ) Logµ(x0 ) µ(x) = Y (x) y su inversa Φ−1


 +
donde µ(x0 ) (Y (x)) = Logµ(x0 ) ∈ Tµ(x0 ) Sym (p).

Se tiene que Φµ(x0 ) (0p ) = Y (x0 ) = 0p , por lo tanto Logµ(x0 ) µ(x0 ) = 0p y como Y (x) y
Y (x0 ) están sobre el mismo espacio tangente TIp Sym+ (p), entonces se expande Y (x) en
x0 usando series de Taylor. Se obtiene entonces:

k0
X
Y (x) = Y (k) (x0 )(x − x0 )k
k=1

1
con k0 ∈ N y Y (k)
la derivada de orden k de Y (x) con respecto a x multiplicada por
k!
.
−1
Ahora, utilizando Φµ(x ) se tiene que:
0

k0
!
X
Logµ(x0 ) µ(x) = Φ−1 −1
µ(x0 ) (Y (x)) ≈ Φµ(x0 ) Y (k) (x0 )(x − x0 )k .
k=1

A partir de un análisis equivalente se tiene que:

k0
!!
  X
µ(x) = Expµ(x0 ) Φ−1
µ(x0 ) (Y
−1
(x)) = Expµ(x0 ) Φµ(x0 ) Y (k) (x0 )(x − x0 )k .
k=1

 k 
0
Φ−1 (k) k
P
Se puede ver que Expµ(x0 ) µ(x0 ) Y (x0 )(x − x0 ) = µ(x, α(x0 ), k0 ), donde
k=1
α(x0 ) contiene todos los parámetros de {µ(x0 ), Y (1) (x0 ), · · · , Y (k) (x0 )}. Para estimar α(x0 ),
se minimiza el problema:
58 4 Regresión PLS. Implementación

n k0
!! !
X X
Gn (α(x0 )) = Kh (xi − x0 )d2g Expµ(x0 ) Φ−1
µ(x0 ) Y (k) (x0 )(x − x0 )k , Si (4.5)
i=1 k=1

Claramente, la función objetivo 4.4 adopta una forma según la métrica Riemanniana
d2g (·, ·), cuya forma estructural depende del producto interno que se dene sobre el conjunto
Tµ(x) Sym+ (p). Por tal razón a continuación se exponen dos formas de resolver el problema;
una utilizando la métrica log-euclídea y otra utilizando el producto interno regular de
Frobenius, el producto interno escalado de Frobenius (denidos en la sección 4.1):

4.2.1. Métrica Log-Euclídea.


Para comenzar, a continuación se dene la métrica log-euclídea continuación Huang, Z.
Et al. (2015)
Denición 4.2.1. Sean T1 , T2 ∈ Tµ(x) Sym+ (p). La métrica Log-Euclídea sobre el conjunto
Sym+ (p) está denida por:


hT1 , T2 i = tr Dµ(x) log(T1 )Dµ(x) log(T2 ) ,

donde Dµ(x) log(T ) denota la derivada direccional de la matriz logaritmo en µ(x) a lo largo
de T .

Ahora, la geodésica asociada a la métrica log-euclídea dada en 4.2.1, está dada por:


γ(t, T1 ) = exp log(µ(x)) + tDµ(x) log(T2 ) .

Por otro lado, los mapeos exponencial y logarítmico Riemanniano están dados por:

1. Expµ(x) (T1 ) = exp log(µ(x)) + Dµ(x) log(T1 )



.

2. Logµ(x) (S1 ) = Dlog(µx ) exp (log(S1 ) − log(µ(x))).

Ahora, para µ(x), S ∈ Sym+ (p), se tiene que la distancia geodésica está dada por:

d2g (µ(x), S) = tr (log(µ(x)) − log(S))⊗2 ,


 

donde v ⊗2 = vv T , con v un vector. De ésta manera, la función objetivo dada en 4.4, queda
escrita como:

n
X
Kh (xi − x0 )tr (log(µ(x)) − log(Si ))⊗2
 
Gn (µ(x0 )) = (4.6)
i=1
4.2 Datos respuesta en Sym+ (p). Modelo de Regresión. 59

Ahora, considere µ(x), µ(x0 ) ∈ Sym+ (p) y Uµ(x0 ) ∈ Tµ(x0 ) Sym+ (p), se tiene que el trans-
porte paralelo Φµ(x0 ) está dado por:

Φµ(x0 ) : Tµ(x0 ) Sym+ (p) → TIp Sym+ (p),

donde Φµ(x0 ) = Dµ(x0 ) log(Uµ(x0 ) ). Luego, tomando Uµ(x0 ) = Logµ(x0 ) µ(x) ∈ Tµ(x0 ) Sym+ (p),
se tiene que:

Y (x) = Φµ(x0 ) (Logµ(x0 ) µ(x)) = log(µ(x)) − log(µ(x0 )),

de donde µ(x) = exp (log(µ(x0 ) + Y (x))). Por último, el residual de S respecto a µ(x), se
dene como εµ(x) = log(µ(x)) − log(µx0 ) y E[log(S)|X = x] = log(µ(x)) y el modelo de
regresión está dado por:

log(S|X) = log(µ(x)) + εµ(x) ,

con E[εµ(x) ] = 0.

4.2.2. Métrica de Frobenius.


Como se mencionó antes, la estructura del problema 4.4 depende de la distancia geodé-
sica que se propone sobre la variedad Riemanniana y dicha distancia a su vez depende
del producto interno que se dene sobre el espacio tangente. A continuación se hace un
desarrollo análogo al elaborado con la métrica log-euclídea.

Según la denición 4.1.5, se tiene que dados T1 , T2 ∈ Tµ(x) Sym+ (p), el producto interno
+
sobre el conjunto Tµ(x) Sym (p) está dado por:

hT1 , T2 i = tr T1 µ(x)−1 T2 µ(x)−1




y la geodésica γµ(x) (t, T1 ) está dada por:

γµ(x) (t, T1 ) = G(x) exp G(x)−1 T1 (G(x)−1 )T t G(x)T ,




donde µ(x) = G(x)G(x)T . Por otro lado, los mapeos exponencial y logarítmico Rieman-
niano están dados por:

1. Expµ(x) (T1 ) = γµ(x) (1, T1 ) = G(x) exp G(x)−1 T1 (G(x)T )−1 G(x)T .


2. Logµ(x) (S) = G(x) log G(x)−1 S(G(x)T )−1 G(x)T




Además, la distancia geodésica está dada por:


60 4 Regresión PLS. Implementación

q q
2
d(µ(x), S) = kLogµ(x) (S)k = tr(log (G(x)−1 SG(x)−T )) = tr(log2 (S −1/2 µ(x)S −T /2 )),

donde S 1/2 es alguna raíz de S . Ahora, considere µ(x), µ(x0 ) ∈ Sym+ (p), con µ(x0 ) =
G(x0 )G(x0 )T . Para alguna Uµ(x0 ) ∈ Tµ(x0 ) Sym+ (p), se tiene que el transporte paralelo
Φµ(x0 ) está dado por:

Φµ(x0 ) (Uµ(x0 ) ) = G(x0 )−1 Uµ(x0 ) G(x0 )−T ∈ TIP Sym+ (p)

De manera sencilla se tiene que:

Y (x) = Φµ(x0 ) Logµ(x0 ) µ(x) = log G(x0 )−1 µ(x)G(x0 )−T ,


 

de donde µ(x) = G(x0 ) exp(Y (x))G(x0 )T .


Cuando se usa el producto interno de Frobenius, se tiene que εµ(x) = log(G(x)−1 SG(x)−T
y al usar expansión en series de Taylor para Y (x) en x0 , se tiene que:

k0
!
X
µ(x) ≈ G(x0 ) exp Y (k) (x0 )(x − x0 )k G(x0 )T = µ(x, α(x0 ), k0 )
i=1

4.3. Modelo de Regresión PLS para Datos Respuesta


en el Conjunto Sym+(3).
Suponga que se tienen n matrices denidas positivas de orden 3×3 denotadas por Mi para
i = 1, 2, · · · , n obtenidas a partir de un voxel correspondiente de las matrices denidas
positivas normalizadas y reorientadas espacialmente de n individuos. Considere la log
i
transformación log(Mi ) = LM y un vector de orden 6 dado por:
(j,k)

 T
LiM = LiM(1,1) , LiM(1,2) , LiM(1,3) , LiM(2,2) , LiM(2,3) , LiM(3,3) ,

donde LiM(j,k) denota la componente (j, k) de la matriz logaritmo de la matriz Mi . Denote


i
por LM la matriz cuyas las están conformadas por las LM y cuyas columnas se denotan
(k)
por LM , para k = 1, 2, · · · , 6.

Suponga además que para cada individuo se observa un conjunto de covariables de inte-
rés. Dichas covariables de interés dependen del estudio que se está llevando a cabo; por
ejemplo, en estudios de imágenes medicas se consideran medidas demográcas o clínicas.
Comúnmente la información disponible en relación a las covariables es muy grande, por lo
que generalmente se presentan problemas de multicolinealidad y por otro lado se cuenta
4.3 P LS para Datos Respuesta en el Conjunto Sym+ (p) 61

con pocos individuos disponibles para el análisis de la información.

A continuación se muestra un modelo de regresión lineal para las matrices denidas po-
sitivas log transformadas:

(k)
LM = Xβ + ε, k = 1, 2, · · · , 6.
(k)
donde LM es un vector columna de orden n × 1, X es una matriz de orden n × p formado
por las covariables observadas; β es un vector de orden p × 1 formada por los parámetros
a estimar y ε es un vector de errores de orden n × 1.

De manera compacta, se tiene el siguiente modelo:

LM = X B + E
n×6 n×p p×6 n×6

donde LM es la matriz cuya i-ésima la es LiM , X es la matriz de covariables, B la matriz


de coecientes y E es la matriz de errores. En este modelo se tiene que E[E|X] = 0n×6 ,
Cov[E|X] = Σ6n×6n . Este modelo no asume supuestos distribucionales para las medidas
de imágenes.

Sea Θ(6p+ n(n+1) )×1 el vector de parámetros desconocidos contenidos en B y Σ. Para estimar
2
Θ(6p+ n(n+1) )×1 se maximiza la función objetivo:
2

n
1 X (k),i (k),i

ln (Θ) = − log|Σ|(LM − xi β)T Σ−1 (LM − xi β) , k = 1, 2 · · · , 6,
2 i=1

donde xi es la i-ésima la de la matriz de covariables X, utilizando el algoritmo iterativo


propuesto en Li, Y. (2009).

A continuación se presenta la implementación con datos simulados sobre el conjunto de


+
matrices denidas positivas de orden 3 × 3, Sym (p)(3). Consideramos que es importante
hacer las simulaciones sobre este conjunto pues las matrices denidas positivas aparecen
en muchas aplicaciones que incluyen imágenes de resonancia magnética por tensor difusión
(DT − M RI ). Una DT − M RI la cual rastrea la difusión efectiva de las moléculas de
agua en cierta región del cerebro, contiene una matriz denida-positiva 3 × 3, llamada
tensor difusión en cada uno de los voxeles de un volumen de imagen del cerebro. A
partir de los DT's se obtiene información global sobre la conectividad de varias regiones
cerebrales. Además de la información de conectividad de estas regiones; se ha mostrado
que una herramienta apropiada para el entendimiento de ciertos trastornos cerebrales, es la
información sobre la difusividad del agua en dichas regiones. Los datos obtenidos a partir
de DT-MRI, son modelados de manera más apropiada mediante espacios no-lineales, tales
como los espacios simétricos Riemannianos.
62 4 Regresión PLS. Implementación

4.4. Implementación con Datos Simulados.


A continuación se evalúa el comportamiento de las metodologías de regresión por compo-
nentes principales P CR, Métodos de Ridge y Lasso, Correlación Canónica y regresión por
mínimos cuadrados parciales P LS mediante conjuntos de datos simulados, comparando
los resultados de predicción de dichas metodologías. Para llevar a cabo las simulaciones
se usa el software estadístico R, en particular la librería plsr() que implementa el algorit-
mo Kernel para P LS , además la métrica utilizada en las transformaciones es la métrica
log-euclídea Arsigny, V. Et al. (2006).

Para llevar a cabo las simulaciones se tienen en cuenta las siguientes características:

1. Presencia de multicolinealidad en la matriz X.


2. Entornos donde n<p y diferentes estructuras de covarianza.

3. Entorno donde n = p.
4. Entorno donde n>p y diferentes estructuras de covarianza.

De esta manera se consideran posibles entornos de simulación tales que las metodologías
más usuales que permiten resolver el problema de multicolinealidad pueden ser compara-
dos en términos predictivos. Los entornos que se tienen en cuenta en las simulaciones son
los siguientes:

1. En el primer entorno se simulan n = 20 matrices denidas positivas sobre el conjunto


Sym+ (3), p = 15 covariables generadas a partir de una distribución normal multi-
variada con media cero y estructura de covarianza dada por Σ = I15 y matriz de
errores E generada a partir de una distribución normal con media cero y estructura
de covarianza dada por 0.6I6 . En éste entorno se consideran coecientes beta dados
en una matriz de orden p × 6 con βik = (1 + 0.1 × (k − 1)) para k = 1, 2 · · · , 6.

2. En el segundo entorno se consideran n = 20, p = 15, donde la matriz X se genera a


T
partir de Σ = 0.3I15 + 0.7115 115 . En este entorno se usan los mismos coecientes
beta del entorno 1.

3. En el tercer entrono se consideran n = 50, p = 50 con Σ = I50 . En este entorno se usan


una matriz de errores E análoga a la usada en el entorno 1 y los mismos coecientes
beta del entorno 1.
4. En el cuarto entorno se considera n = 30, p = 33 con Σ = I30 . En este entorno se usan
una matriz de errores E análoga a la usada en el entorno 1 y los mismos coecientes
beta del entorno 1.
5. En el quinto entorno se considera n = 20, p = 22, donde la matriz X es la concatenación
de dos matrices X1 y X2 que se generan a partir de Σ1 = 0.1I11 + 0.8111 1T11 y
Σ2 = 0.8I11 , respectivamente. En este entorno se usan los mismos coecientes beta
del entorno 1.
4.4 Implementación con Datos Simulados. 63

Se tiene entonces que en cada uno de los cinco entornos se simulan n observaciones co-
rrespondientes a n individuos, a cada uno de los cuales se le asocia una matriz denida
positiva de orden 3 × 3 y la medida de p covariables. Como se explicó en la sección 4.3,
dadas n matrices denidas positivas de orden 3 × 3 denotadas por Mi para i = 1, 2, · · · , n,
se procede de la siguiente manera.

1. Se calcula la log transformación log(Mi ) = LiM(j,k) .

2. Se construye un vector de orden 6 dado por:

 T
LiM = LiM(1,1) , LiM(1,2) , LiM(1,3) , LiM(2,2) , LiM(2,3) , LiM(3,3) ,

donde LiM(j,k) denota la componente (j, k) de la matriz logaritmo de la matriz Mi .

3. Se construye la matriz Y de orden n × 6 cuyas las están conformadas por las LiM .Por
facilidad con la notación, se nombra cada columna de la matriz Y por Yi para
i = 1, 2, 3, 4, 5, 6.

4. Se construye la matriz X de orden n×p cuyas las corresponden a las p covariables


asociadas a cada individuo.

5. Se resuelve el modelo Y = X B + E
n×6 n×p p×6 n×6
usando las metodologías de regresión por

componentes principales P CR, Métodos de Ridge y Lasso, Correlación Canónica y


regresión por mínimos cuadrados parciales P LS .

Para el entorno 1, en la tabla 4.1, se muestra el porcentaje de variabilidad acumulada de


X y de Y explicada por cada una de las metodologías P CR y P LS .

1 Comp 2Comps 3Comps 4Comps 5Comps 6Comps 7Comps 8Comps


XP CR 20.96 37.43 50.41 61.16 71.14 78.86 84.61 89.84
XP LS 17.97 31.23 44.88 53.16 60.14 70.19 78.29 83.60
Y1 25.92 68.49 68.60 68.79 77.51 91.22 94.86 95.36
Y1 86.46 94.54 95.21 97.39 97.39 98.07 98.07 98.16
Y2 27.17 61.16 63.22 63.49 76.18 89.59 94.78 94.80
Y2 84.59 94.13 96.28 97.03 97.43 97.49 97.67 97.74
Y3 27.99 64.91 66.58 67.35 80.11 91.54 93.83 94.38
Y3 87.12 95.50 96.85 97.19 98.15 98.54 98.90 99.28
Y4 30.30 61.05 62.34 62.52 73.11 87.77 93.04 93.10
Y4 84.16 92.18 96.16 98.14 98.91 98.95 99.04 99.05
Y5 23.41 67.25 69.07 69.46 80.05 90.75 94.06 94.15
Y5 86.12 95.82 96.09 97.38 98.66 98.69 98.95 99.31
Y6 28.36 60.32 61.75 64.25 78.46 95.05 96.68 96.72
Y6 85.61 95.53 98.23 98.28 98.68 99.28 99.28 99.28

Tabla 4.1: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Componentes


mediante P CR y P LS .
64 4 Regresión PLS. Implementación

Como se observa, las componentes P LS explican un mayor porcentaje de variabilidad de


Y que las componentes P CR. Se tiene que con 2 componentes P LS se explica más del
85 % de la variabilidad de Y y más de 25 % de la variabilidad de X.

Por otro lado, en la tabla 4.2 se muestran los porcentajes de variabilidad de X explicada
por cada una de las metodologías P CR y P LS . Como se observa, la metodología P CR
explica más de la variabilidad de X que la metodología P LS , lo cuál siempre sucede.

Comp 1 Comp 2 Comp 3 Comp 4 Comp 5 Comp 6 Comp 7 Comp 8


P CR 20.96 16.45 12.99 10.75 9.98 7.72 5.75 5.24
P LS 17.97 13.26 13.65 8.28 6.98 10.06 8.09 5.31

Tabla 4.2: Porcentaje de Variabilidad de X Explicada por cada Componente.


De manera gráca, a continuación se muestra que la metodología de regresión por mí-
nimos cuadrados P LS necesita menos componentes que la metodología de regresión por
componentes principales P CR y que además la metodología P LS predice mejor que la
metodología P CR.

La gura 4.4 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ).
En dicha gura se puede observar que P CR necesita al rededor de 7 componentes para
explicar la mayor parte de la variabilidad de los datos.

Figura 4.4: Número de Componentes vs RM SEP , para P CR

La gráca 4.5 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ). En dicha gráca se observa que P LS
4.4 Implementación con Datos Simulados. 65

necesita 5 componentes en la mayor parte de los casos.

Figura 4.5: Número de Componentes vs RM SEP , para P LS

En la gura 4.6 se muestran las grácas de los datos predichos junto con los valores
observados de las respuestas las cinco metodologías.

Figura 4.6: Datos Predichos junto con Datos Observados para las cinco Metodologías.
66 4 Regresión PLS. Implementación

Se puede apreciar en ésta gráca que los datos predichos por las cinco metodologías
siguen la tendencia de los datos observados, sin embargo, es complicado sacar una con-
clusión fuerte solo a partir de la observación. Para reforzar esta apreciación, se muestra a
continuación una tabla con lo cálculos de la raíz del error cuadrático medio de predicción
RM SEP , dado por

v 
uPm 2
u
t Y i − Y
b i
i=1
RM SEP =
m
con m número de datos analizados; para cada Yi contrastado por medio de cada modelo.

P CR P LS Ridge Lasso Correlación Canónica


Y1 1.2504560 0.5869316 1.5143150 2.0022890 1.4355210
Y2 1.4801680 0.7262227 1.4933710 1.7539550 1.3891930
Y3 1.4241780 0.5923941 1.5666200 2.0853660 1.7227740
Y4 1.8771910 0.5511395 1.4493240 2.1350370 1.5073150
Y5 1.8170360 0.6834595 2.0679450 2.6808540 2.0714140
Y6 1.3105220 0.5004141 1.7565540 2.4891250 2.1526500

Tabla 4.3: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

Como se puede observar, el mejor modelo en términos predictivos en este entorno, es el


modelo de regresión P LS . A continuación se hace un estudio del entorno de simulación
2, análogo al hecho para el entorno 1.

1 Comp 2Comps 3Comps 4Comps 5Comps 6Comps 7Comps 8Comps


XP CR 77.67 83.99 86.94 89.71 92.26 94.34 95.91 97.06
XP LS 70.59 80.34 84.80 87.75 88.61 90.77 92.58 93.86
Y1 0.21 0.69 5.01 13.29 14.50 15.05 17.94 49.15
Y1 6.85 51.55 66.33 78.03 91.67 93.81 94.43 95.24
Y2 0.33 0.69 4.87 13.08 14.35 14.79 17.46 50.17
Y2 7.37 51.16 66.64 78.19 91.35 93.32 93.83 94.84
Y3 0.26 0.82 4.99 13.57 14.91 15.29 17.90 50.07
Y3 7.16 52.07 66.50 78.27 91.63 93.69 94.13 95.14
Y4 0.29 0.81 4.87 13.20 14.57 14.87 18.19 49.81
Y4 7.28 51.60 66.28 78.04 90.92 93.18 93.87 95.03
Y5 0.27 0.81 5.19 13.24 14.62 14.90 17.79 49.97
Y5 7.19 51.72 66.32 78.28 91.92 93.90 94.49 95.48
Y6 0.34 0.89 5.24 13.06 14.50 14.80 17.63 48.93
Y6 7.42 51.07 65.41 77.32 91.17 93.25 93.90 94.97

Tabla 4.4: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-


nentes mediante P CR y P LS para el entorno 2.
4.4 Implementación con Datos Simulados. 67

En la tabla 4.4, se muestra que al igual que en el entorno 1, las componentes P LS expli-
can un mayor porcentaje de variabilidad de Y que las componentes P CR. Se tiene que
tres componentes P LS explican mas del 95 % de la variabilidad de Y y más de 20 % de
la variabilidad de X. En la tabla 4.5 se muestran los porcentajes de variabilidad de X
explicada por cada una de las metodologías P CR y P LS .

Comp 1 Comp 2 Comp 3 Comp 4 Comp 5 Comp 6 Comp 7 Comp 8


P CR 77.69 6.30 2.95 2.77 2.54 2.08 1.57 1.14
P LS 70.59 9.75 4.46 2.96 0.87 2.16 1.81 1.29

Tabla 4.5: Porcentaje de Variabilidad de X Explicada por cada Componente.

Como sucedió en el entorno 1, la metodología P CR explica más de la variabilidad de X


que la metodología P LS .

Las guras 4.7 y 4.8 muestran la gráca de el número de componentes contra la raíz
cuadrada del error cuadrático medio de predicción (RM SEP ) usando validación cruzada
(CV ). En dichas guras se puede observar que P CR necesita al rededor de 7 componentes
para explicar la mayor parte de la variabilidad de los datos, mientras que P LS necesita 5

Figura 4.7: Número de Componentes vs RM SEP , para P CR.


68 4 Regresión PLS. Implementación

Figura 4.8: Número de Componentes vs RM SEP , para P LS .

Por otro lado, en la guras 4.9 se muestran grácas de los datos predichos junto con los
valores observados de las respuestas para las cinco metodologías, donde se observa que los
datos predichos por las cinco metodologías siguen la tendencia de los datos observados.

Figura 4.9: Datos Predichos junto con Datos Observados para las cinco Metodologías.
4.4 Implementación con Datos Simulados. 69

Sin embargo, como sucedió en el entorno de simulación 1, la gráca 4.9 se puede prestar
para mal interpretaciones pues el análisis depende solo de la observación subjetiva. A
continuación se muestra la tabla con lo cálculos de la raíz del error cuadrático medio de
predicción para cada Yi contrastado por medio de cada modelo, de manera que podamos
hacer conclusiones más fuertes a partir de medidas numéricas.

P CR P LS Ridge Lasso Correlación Canónica


Y1 17.65125 4.764276 7.649557 7.515125 11.13729
Y2 19.74628 5.527623 9.032871 8.393567 12.43574
Y3 21.03039 5.739713 9.011737 9.194512 13.34046
Y4 22.88768 6.478766 10.390157 9.915 14.43428
Y5 24.79283 6.635963 10.895912 10.652353 15.29213
Y6 26.92705 7.577946 12.499813 11.354039 16.98342

Tabla 4.6: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

A partir de la gura 4.9 y la tabla 4.6, se concluye que el mejor modelo en términos
predictivos, es el modelo de regresión P LS .

En los entornos de simulación 1 y 2 consideramos n<p y dos estructuras de covarianza


diferentes. A continuación consideramos un entrono de simulación donde la estructura
de covarianza es la misma para diferentes diferentes tamaños de individuos n, tales que
n < p. Para llevar a cabo dicho estudio se tienen en cuenta las siguientes consideraciones.

1. La matriz X se genera a partir de una distribución normal multivariada con media


cero y estructura de covarianza dada por Σ = In y la matriz de errores E se genera
a partir de una distribución normal con media cero y estructura de covarianza dada
por 0.6I6 . Se consideran coecientes beta dados en una matriz de orden p×6 con
βik = (1 + 0.1 × (k − 1)) para k = 1, 2, · · · , 6.

2. Se simulan 7 entornos de simulación, todos con la misma estructura de covarianza y con


pares de parámetros (n, p) dados por: (20, 15), (25, 15), (30, 15), (35, 15), (40, 15),
(45, 15) y (50, 15).

3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raíz
del error cuadrático medio de predicción y nalmente en cada modelo se promedian
dichos estos 1000 errores.

4. Se elabora una gura compuesta por seis grácos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,
donde cada gráco ilustra el número de individuos versus el promedio de la raíz del
error cuadrático medio de predicción.
70 4 Regresión PLS. Implementación

A continuación se muestra la gura descrita en los anteriores pasos, para diferentes ta-
maños de individuos n. En esta gura se puede observar que la metodología de regresión
P LS es la mejor en términos predictivos, puesto que siempre la raíz del error cuadrático
medio de predicción está por debajo en este modelo.

Figura 4.10: Número de Individuos vs RMSEP con los 5 Métodos.

En la gura 4.10 se tiene que: el modelo de regresión por componentes principales P CR


está representado por el color rojo, el modelo de regresión Ridge por el color azul, el
modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónica
por el color violeta y el modelo de regresión por mínimos cuadrados parciales P LS por el
color negro.

Como puede observarse en la gura 4.10, entre las cinco metodologías de regresión, la
peor en términos predictivos es la metodología de regresión P CR, siendo la conocida y
usada de todas las metodologías que resuelven el problema de la multicolinealidad. Las
otras metodologías, si bien no se comportan como la metodología de regresión P LS , se
observan estables en términos predictivos.

Claramente, no es suciente un solo entorno de simulación donde variamos el tamaño de


individuos n, para sacar una conclusión tan fuertes como: la regresión P LS es la mejor
metodología de regresión en términos predictivos; es por esta razón que más adelante
mostramos los otros entornos de simulación con la intención de hacer dicha armación de
manera más categórica.
4.4 Implementación con Datos Simulados. 71

A continuación hacemos el estudio del entorno de simulación 3, análogo a el estudio de


los anteriores entornos. En este entorno de simulación mostramos como se comportan las
cinco metodologías con n = p = 50 y la estructura de covarianza descrita al principio
de esta sección, así como entornos de simulación donde se usa la misma estructura de
covarianza y diferentes valores de n y p.

En la tabla 4.7, se muestra que al igual que en los entornos anteriores, las componentes
P LS explican un mayor porcentaje de variabilidad de Y que las componentes P CR. Se
tiene que tres componentes P LS explican mas del 95 % de la variabilidad de Y y más de
20 % de la variabilidad de X.


N Comps 1 2 3 4 5 6 7 8 9 10
XP CR 7.67 15.15 21.42 27.01 32.41 37.44 42.29 46.84 51.32 55.33
XP LS 5.03 8.78 13.04 17.61 22.10 25.35 29.15 33.87 37.78 40.53
Y1 0.29 0.54 11.92 14.82 24.83 27.37 32.83 39.79 39.83 40.05
Y1 76.99 92.53 96.66 97.90 98.64 98.97 99.28 99.39 99.50 99.56
Y2 0.06 0.26 11.37 14.25 24.31 26.11 31.28 38.39 38.44 38.73
Y2 75.99 92.42 95.89 97.21 97.71 98.50 98.80 99.00 99.11 99.44
Y3 0.25 0.49 12.64 16.02 25.42 27.95 32.60 40.03 40.11 40.21
Y3 77.30 92.28 96.58 97.90 98.54 98.97 99.16 99.20 99.38 99.56
Y4 0.13 0.35 11.86 14.59 24.05 26.34 31.74 38.64 38.71 39.00
Y4 75.92 92.26 96.64 98.13 98.62 98.96 99.13 99.35 99.58 99.70
Y5 0.22 0.49 12.03 14.75 24.38 27.10 31.99 38.94 38.99 39.35
Y5 76.18 92.07 96.60 97.95 98.58 98.93 99.21 99.39 99.55 99.65
Y6 0.14 0.42 11.89 14.90 24.78 27.18 32.70 39.45 39.51 39.87
Y6 77.15 92.88 96.71 97.94 98.52 98.99 99.22 99.39 99.51 99.72

Tabla 4.7: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-


nentes mediante P CR y P LS .

En la tabla 4.8 se muestran los porcentajes de variabilidad de X explicada por cada una
de las metodologías P CR y P LS . Como sucedió en el entorno 1, la metodología P CR
explica más de la variabilidad de X que la metodología P LS .

Componente 1 2 3 4 5 6 7 8 9 10
P CR 7.67 7.48 6.27 5.59 5.40 5.03 4.85 4.55 4.48 4.00
P LS 5.03 3.75 4.26 4.57 4.49 3.25 3.80 4.72 3.91 2.75

Tabla 4.8: Porcentaje de Variabilidad de X Explicada por cada Componente.

La gura 4.11 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ).
En dicha gura se puede observar que P CR necesita al rededor de 8 componentes para
explicar la mayor parte de la variabilidad de los datos.
72 4 Regresión PLS. Implementación

Figura 4.11: Número de Componentes vs RM SEP , para P CR.

La gura 4.12 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ). En
dicha gura se puede observar que P LS necesita 2 componentes para explicar la mayor
parte de la variabilidad de los datos.

Figura 4.12: Número de Componentes vs RM SEP , para P LS .


4.4 Implementación con Datos Simulados. 73

En la gura 4.13 se muestran grácas de los datos predichos junto con los valores ob-
servados de las respuestas para las cinco metodologías, donde se observa que los datos
predichos por las cinco metodologías siguen la tendencia de los datos observados.

Figura 4.13: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Para terminar, a continuación se muestra la tabla con lo cálculos de la raíz del error cua-
drático medio de predicción para cada Yi contrastado por medio de cada modelo.

P CR P LS Ridge Lasso Correlación Canónica


Y1 4.887979 0.5342415 1.310832 1.6206994 2.464352
Y2 5.424270 0.7592322 1.380233 0.9539525 2.903177
Y3 5.721696 0.678418 1.421008 1.3057188 3.024128
Y4 6.35685 0.7589142 1.558509 1.2686909 3.334825
Y5 6.866349 0.7822355 1.481032 1.7317725 3.474628
Y6 7.222695 0.10032 1.71478 1.1613663 3.842692

Tabla 4.9: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

A partir de las guras 4.13 y la tabla 4.9, se concluye que el mejor modelo en términos
predictivos, es el modelo de regresión P LS .

Como en el caso n < p, se llevan a cabo entornos de simulación donde n = p con la misma
estructura de covarianzas y diferentes números de individuos n. a continuación se describe
el procedimiento.
74 4 Regresión PLS. Implementación

1. La matriz X se genera a partir de una distribución normal multivariada con media


cero y estructura de covarianza dada por Σ = In y la matriz de errores E se genera
a partir de una distribución normal con media cero y estructura de covarianza dada
por 0.6I6 . Se consideran coecientes beta dados en una matriz de orden p×6 con
βik = (1 + 0.1 × (k − 1)) para k = 1, 2, · · · , 6.
2. Se simulan 7 entornos de simulación, todos con la misma estructura de covarianza y con
pares de parámetros (n, p) dados por: (20, 20), (25, 25), (30, 30), (35, 35), (40, 40),
(45, 45) y (50, 50).
3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raíz
del error cuadrático medio de predicción y nalmente en cada modelo se promedian
dichos estos 1000 errores.

4. Se elabora una gura compuesta por seis grácos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,
donde cada gráco ilustra el número de individuos versus el promedio de la raíz del
error cuadrático medio de predicción.

A continuación se muestra la gura descrita en los anteriores pasos, para diferentes ta-
maños de individuos n. En esta gura se puede observar que la metodología de regresión
P LS es la mejor en términos predictivos, puesto que siempre la raíz del error cuadrático
medio de predicción está por debajo en este modelo.

Figura 4.14: Número de Individuos vs RMSEP con los 5 Métodos.

En la gura 4.14 se tiene que: el modelo de regresión por componentes principales P CR


está representado por el color rojo, el modelo de regresión Ridge por el color azul, el
4.4 Implementación con Datos Simulados. 75

modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónica
por el color violeta y el modelo de regresión por mínimos cuadrados parciales P LS por el
color negro.

Se puede observar en la gura 4.14 que entre las cinco metodologías implementadas, la
mejor metodología de regresión en términos predictivos es la metodología de regresión
P LS , mientras que la peor metodología de regresión en términos predictivos es la meto-
dología de regresión P CR.

A continuación hacemos el estudio del entorno de simulación 4, que es análogo al estudio


de los anteriores entornos de simulación. En la tabla 4.10, se muestra que al igual que en
el entorno 1, las componentes P LS explican un mayor porcentaje de variabilidad de Y
que las componentes P CR. Se tiene que tres componentes P LS explican mas del 95 % de
la variabilidad de Y y más de 20 % de la variabilidad de X.


N Comps 1 2 3 4 5 6 7 8 9 10
XP CR 13.53 24.28 33.28 41.11 48.44 54.86 61.08 66.33 71.29 75.94
XP LS 11.15 20.23 27.67 33.68 39.54 44.07 49.12 53.60 58.25 61.90
Y1 20.42 47.24 69.53 70.98 71.81 71.82 73.48 77.78 85.31 85.57
Y1 85.07 93.38 96.31 97.86 99.12 99.25 99.49 99.50 99.62 99.63
Y2 20.06 46.65 67.97 69.56 71.18 71.26 73.92 78.77 87.45 87.54
Y2 85.20 94.32 97.34 98.12 98.89 99.52 99.57 99.60 99.68 99.69
Y3 18.80 47.51 67.72 68.81 70.28 70.34 72.61 76.63 85.78 85.90
Y3 84.40 93.94 96.97 98.65 99.22 99.58 99.63 99.83 99.90 99.92
Y4 19.87 48.55 69.24 70.58 71.78 71.83 73.94 78.76 87.55 87.60
Y4 85.99 94.90 97.72 98.96 99.40 99.61 99.64 99.64 99.70 99.84
Y5 19.62 47.56 68.89 70.13 71.36 71.41 73.03 78.16 86.60 86.79
Y5 85.22 94.27 97.16 98.52 99.20 99.43 99.62 99.64 99.76 99.78
Y6 19.74 47.61 69.04 70.04 71.28 71.30 73.72 78.14 87.15 87.27
Y6 85.58 94.73 97.66 98.80 99.33 99.53 99.63 99.78 99.81 99.88

Tabla 4.10: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-


nentes mediante P CR y P LS .

X explicada por cada una


En la tabla 4.11 se muestran los porcentajes de variabilidad de
de las metodologías P CR y P LS . Como sucedió en el entorno 1, la metodología P CR
explica más de la variabilidad de X que la metodología P LS .

Componente 1 2 3 4 5 6 7 8 9 10
P CR 13.53 10.75 9.00 7.83 7.33 6.41 6.22 5.25 4.96 4.66
P LS 11.15 9.08 7.44 6.01 5.86 4.53 5.05 4.48 4.65 3.65

Tabla 4.11: Porcentaje de Variabilidad de X Explicada por cada Componente.


76 4 Regresión PLS. Implementación

Las guras 4.15 y 4.16 muestras las grácas de el número de componentes contra la raíz
cuadrada del error cuadrático medio de predicción (RM SEP ). Se puede observar que
P CR necesita al rededor de 9 componentes para explicar la mayor parte de la variabilidad
de los datos, mientras que P LS necesita al rededor de 5 componentes para explicar la
mayor parte de la variabilidad de los datos.

Figura 4.15: Número de Componentes vs RM SEP , para P CR.

Figura 4.16: Número de Componentes vs RM SEP , para P LS .


4.4 Implementación con Datos Simulados. 77

En la gura 4.17 se muestran grácas de los datos predichos junto con los valores obser-
vados de las respuestas, para las cinco metodologías.

Figura 4.17: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Se puede observar que todas las metodologías siguen la tendencia de los datos observa-
dos. Para terminar, a continuación se muestra la tabla con lo cálculos de la raíz del error
cuadrático medio de predicción para cada Yi contrastado por medio de cada modelo.

P CR P LS Ridge Lasso Correlación Canónica


Y1 3.201197 0.5388887 2.161116 0.5500054 1.87215
Y2 3.333337 0.4523601 2.193823 2.06645542 2.039777
Y3 3.86018 0.4804413 2.429476 0.46192009 2.004417
Y4 4.009459 0.4932187 2.689932 4.53046569 2.254372
Y5 4.434356 0.6474308 2.318958 0.24699547 2.171948
Y6 4.651769 0.6197044 2.93466 0.07643169 2.646129

Tabla 4.12: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

Como se puede observar en la gráca 4.17 y en la tabla 4.12, la metodología de regresión


P LS es la mejor en términos predictivos.
78 4 Regresión PLS. Implementación

Para el último entorno de simulación, el entorno de simulación 5, en la tabla 4.13 se


muestra que al igual que en los otros entornos, las componentes P LS explican un mayor
porcentaje de variabilidad de Y que las componentes P CR.Se tiene que 2 componentes
P LS explican casi el 100 % de la variabilidad de Y y más de 65 % de la variabilidad de
X.

1 Comp 2Comps 3Comps 4Comps 5Comps 6Comps 7Comps 8Comps


XP CR 49.57 61.65 71.01 78.68 83.48 87.66 90.95 93.33
XP LS 49.44 58.18 63.76 71.61 77.67 84.97 86.22 90.20
Y1 88.52 88.54 95.06 95.83 99.11 99.21 99.22 99.22
Y1 91.62 98.91 99.66 99.72 99.86 99.90 99.93 99.93
Y2 89.40 89.41 95.53 96.11 99.46 99.54 99.58 99.58
Y2 92.40 99.13 99.86 99.90 99.94 99.94 99.96 99.96
Y3 89.12 89.21 95.21 95.79 99.45 99.52 99.56 99.56
Y3 92.15 98.99 99.82 99.91 99.92 99.93 99.96 99.97
Y4 88.84 88.87 95.56 96.21 99.38 99.54 99.56 99.56
Y4 91.95 99.23 99.84 99.89 99.94 99.94 99.97 99.98
Y5 88.73 88.77 94.94 95.46 99.18 99.29 99.33 99.33
Y5 91.78 98.80 99.73 99.88 99.95 99.96 99.98 99.98
Y6 88.75 88.78 95.38 96.11 99.31 99.36 99.38 99.38
Y6 91.86 99.11 99.77 99.83 99.92 99.95 99.95 99.96

Tabla 4.13: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-


nentes mediante P CR y P LS .

En la tabla 4.14, se muestran los porcentajes de variabilidad de X explicada por cada una
de las metodologías P CR y P LS . Como sucedió en los entornos 1 y 2, la metodología
P CR explica más de la variabilidad de X que la metodología P LS .

Comp 1 Comp 2 Comp 3 Comp 4 Comp 5 Comp 6 Comp 7 Comp 8


P CR 49.57 12.08 9.36 7.67 4.80 4.18 3.29 2.38
P LS 49.44 8.74 5.58 7.85 6.07 7.29 1.26 3.97

Tabla 4.14: Porcentaje de Variabilidad de X Explicada por cada Componente.

Las gura 4.18 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ).
En dicha gura se puede observar que P CR necesita al rededor de 5 componentes para
explicar la mayor parte de la variabilidad de los datos.
4.4 Implementación con Datos Simulados. 79

Figura 4.18: Número de Componentes vs RM SEP , para P CR.

Las gura 4.19 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ). En dicha gura se puede observar que
P LS necesita al rededor de 4 componentes para explicar la mayor parte de la variabilidad
de los datos.

Figura 4.19: Número de Componentes vs RM SEP , para P LS .


80 4 Regresión PLS. Implementación

En las gura 4.20 se muestran grácas de los datos predichos junto con los valores obser-
vados de las respuestas, para las cinco metodologías.

Figura 4.20: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Se puede observar que los datos predichos con las cinco metodologías tienen la tenden-
cia de los datos observados. Para terminar con el estudio del entorno de simulación 5, a
continuación se muestra la tabla con lo cálculos de la raíz del error cuadrático medio de
predicción para cada Yi contrastado por medio de cada modelo.

P CR P LS Ridge Lasso Correlación Canónica


Y1 1.849407 0.5290935 1.809127 1.04006 0.5009812
Y2 1.999721 0.3813527 1.011486 1.217753 0.6380294
Y3 2.222313 0.4656012 2.226277 1.632809 0.5804465
Y4 2.304864 0.4704565 2.252231 1.053600 0.5387682
Y5 2.694399 0.6520158 2.621099 2.091338 0.7273657
Y6 2.684047 0.6531228 2.648936 1.785191 0.656619

Tabla 4.15: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

Como se puede observar en las grácas 4.20 y en la tabla 4.15, la metodología de regre-
sión P LS es la mejor en términos predictivos, teniendo en cuenta que en algunos casos la
metodología de regresión correlación canónica le compite en algunos casos.
4.4 Implementación con Datos Simulados. 81

Como en los casos n < p y n = p, se llevan a cabo entornos de simulación donde n > p con
la misma estructura de covarianzas y diferentes números de individuos n. A continuación
mostramos el procedimiento.

1. La matriz X se genera a partir de una distribución normal multivariada con media


cero y estructura de covarianza dada por Σ = In y la matriz de errores E se genera
a partir de una distribución normal con media cero y estructura de covarianza dada
por 0.6I6 . Se consideran coecientes beta dados en una matriz de orden p×6 con
βik = (1 + 0.1 × (k − 1)) para k = 1, 2, · · · , 6.
2. Se simulan 7 entornos de simulación, todos con la misma estructura de covarianza y con
pares de parámetros (n, p) dados por: (20, 22), (25, 27), (30, 32), (35, 37), (40, 42),
(45, 47) y (50, 52).
3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raíz
del error cuadrático medio de predicción y nalmente en cada modelo se promedian
dichos estos 1000 errores.

4. Se elabora una gura compuesta por seis grácos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,
donde cada gráco ilustra el número de individuos versus el promedio de la raíz del
error cuadrático medio de predicción.

Figura 4.21: Número de Individuos vs RMSEP con los 5 Métodos.

En la gura 4.21 se tiene que: el modelo de regresión por componentes principales P CR


está representado por el color rojo, el modelo de regresión Ridge por el color azul, el
82 4 Regresión PLS. Implementación

modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónica
por el color violeta y el modelo de regresión por mínimos cuadrados parciales P LS por el
color negro.

Se puede observar que el mejor modelo de regresión en términos predictivos, es el modelo


de regresión por mínimos cuadrados parciales P LS .
Capítulo 5

Conclusiones y Trabajos Futuros

En esta tesis se hace un estudio de la metodología de regresión por mínimos cuadrados


parciales (P LS) aplicada a datos que no viven sobre un Espacio Euclídeo, por medio
de dos líneas diferentes: La primera es mediante el uso de variedades Riemannianas, en
+
particular sobre el conjunto de matrices denidas positivas Sym (p) y la segunda es por
medio del teorema de embebimiento de Rådström, en particular sobre el conjunto de
m
multi intervalos I . En la primera línea se muestra la implementación de la metodología
P LS con datos simulados y se compara dicha metodología con las metodologías de regre-
sión por componentes principales P CR, análisis y correlación canónico, Ridge y Lasso.
Los resultados presentados apoyan la metodología P LS en el sentido que ésta resuelve
el problema de la multicolinealidad y además es más eciente en términos de predicción.
En la segunda línea se hace una propuesta de corte teórico, a manera de trabajo futuro,
teniendo en cuenta que para dicho propósito se extiende la regresión lineal polinomial y
múltiple al caso intervalo-valuado.

En la literatura desarrollada hasta la fecha no se encuentra la aplicación de la metodo-


logía de regresión por mínimos cuadrados parciales P LS sobre la variedad Riemanniana
Sym+ (p) con datos reales, nosotros tampoco lo hemos hecho debido a la dicultad de
conseguir este tipo de datos. Para trabajos futuros se plantea entonces aplicar la me-
todología de regresión por mínimos cuadrados parciales P LS con datos reales sobre el
+
conjunto Sym (3), relacionados con imágenes cerebrales. Por otro lado, se propone hacer
+
un desarrollo análogo al elaborado con la variedad Riemanniana Sym (p) sobre otro tipo
de variedades Riemannianas, como por ejemplo sobre datos funcionales o datos de datos
de representación medial axial (m-rep).

En la presente tesis se propone la metodología de regresión por mínimos cuadrados par-


m
ciales P LS sobre el espacio no Euclídeo I de manera teórica; quedan abiertas investiga-
ciones de tipo numérico tanto con datos simulados como con datos reales, que muestren
la potencia de la regresión polinomial y múltiple en el caso intervalo-valuado, así como
la regresión P LS con datos de intervalo. Además, dado que existen avances signicativos
relacionados con optimización no lineal sobre el conjunto I m y hay propuestas de la me-

83
84 5 Conclusiones y Trabajos Futuros.

todología de regresión P LS sobre Espacios Euclídeos para el caso no lineal, queda como
problema abierto proponer la metodología de regresión P LS intervalo-valuada para el
caso no lineal. Por otro lado, queda abierto el problema de desarrollar las metodologías de
regresión análisis de correlación canónico, Ridge y Lasso, para el caso intervalo-valuado.
Apéndice A

Anexo: Elementos de Topología y


Geometría Diferencial

A continuación se hace una revisión sobre las propiedades matemáticas de los objetos
geométricos que se consideran en el trabajo. Dicha revisión se hace necesaria dado que
para estudiar modelos de regresión sobre espacios que no son Euclídeos, se hace necesario
conocer los elementos teóricos necesarios para llevar a cabo mínimas construcciones. Para
profundizar más alrededor de conceptos de topología algebraica y geometría diferencial
se puede consultar por ejemplo Munkres, J.R (1975).

La continuidad de una función real valuada es formulada en términos de intervalos abier-


tos, esto es, está dada por medio de la denición usual de  − δ. Una topología dene
cuales subconjuntos de un conjunto abierto X son abiertos, de la misma forma que un
intervalo abierto. A continuación se formaliza el concepto de conjunto abierto.

A.1. Conceptos de Topología


Denición A.1.1. Una Topología sobre un conjunto abierto X es una colección τ de
subconjuntos de X , tales que cumple las siguientes condiciones:

1. El conjunto vacío φ y el conjunto X están en τ .


2. La unión de una colección arbitraria de elementos de τ también está en τ .
3. la intersección de una colección nita de elementos de τ también está en τ .
El par (X, τ ) se llama Espacio Topológico. Los elementos de τ se llaman conjuntos
abiertos.

Denición A.1.2. Sea (X, τ ) un espacio topológico. Un conjunto A ⊆ X es un conjunto


cerrado si su complemento es abierto, esto es, A es cerrado si X − A es abierto.
85
86 A Anexo: Elementos de Topología y Geometría Diferencial

Existen conjuntos abiertos y cerrados al mismo tiempo y también existen conjuntos que
no son abiertos ni cerrados.

Denición A.1.3. Sea (X, τ ) un espacio topológico. Una vecindad abierta de x ∈ X ,


es un abierto U tal que x ∈ U .
Denición A.1.4. Dado un espacio topológico (X, τ ), una base topológica es un con-
junto B ⊆ τ tal que todo abierto no vacío U ∈ τ se puede expresar como una unión de
elementos de B
Denición A.1.5. Una Métrica sobre un conjunto X es una función d : X × X → R
que cumple las siguientes condiciones:

1. d(x, y) ≥ 0.
2. d(x, y) = 0 si y sólo si x = y.
3. d(x, z) ≤ d(x, y) + d(y, z).

El par (X, d) se llama Espacio Métrico.

Mediante la denición de distancia en un espacio métrico, se tiene que una base para
una topología sobre X puede ser denida como la colección de bolas abiertas de la forma
B(x, r) = {y ∈ X : d(x, y) < r} para todo x ∈ X , r ∈ R.

Se introduce el concepto de topología con la intención de generalizar la noción de conti-


nuidad de mapeos de espacios euclídeos. A continuación se hace dicha generalización:

Denición A.1.6. Sean X y Y espacios topológicos. Un mapeo f : X → Y es continuo


si para cada conjunto abierto U ⊂ Y , se tiene que el conjunto f −1 (U ) es abierto en X .
Denición A.1.7. Sean X y Y espacios topológicos. Un mapeo f : X → Y es un
homeomorsmo si es biyectivo y tanto f como f −1 son continuas. En este caso se dice
que X y Y son homeomorfos.
Cuando X y Y son homeomorfos, hay una correspondencia biunívoca tanto entre los
puntos como en los conjuntos abiertos de X y Y, por lo tanto como espacios topológicos
X y Y son indistinguibles, lo que signica que cualquier propiedad que se verique en el
espacio X basado únicamente en la topología de X también es cierto para Y.
Denición A.1.8. Un espacio topológico X se dice Hausdor si para cualquiera de dos
puntos distintos x, y ∈ X existen conjuntos abiertos disjuntos U y V tales que x ∈ U y
y ∈V.
Denición A.1.9. Sea X un espacio topológico. Una colecciónS de subconjuntos abiertos
O de X se dice que es un cubrimiento abierto, si X = U . Un espacio topológico
U ∈O
se dice compacto, si para todo cubrimiento abierto O de X existe una subcolección nita
de conjuntos de O que cubre a X .
A.2 Variedades Diferenciales 87

Denición A.1.10. Una separación de un espacio topológico X es un par de conjuntos


disjuntos U y V tal que X = U ∪ V . Se dice que X es conectado si no existe ninguna
separación de X .

A.2. Variedades Diferenciales


Las variedades diferenciales son espacios topológicos que localmente se comportan como
espacios euclídeos. En la mayoría de las variedades diferenciales al igual que en los espacios
topológicos, es natural que se hable de continuidad, diferenciación, integración, campos
vectoriales y ecuaciones diferenciales. A continuación se hace una revisión básica de los
conceptos que se necesitan. Para una visión más general de los conceptos de geometría
diferencial, se puede consultar Spivak, M. (1999), Auslander, L. & MacKenzie, R.E. (1963),
Milnor, J.W (1997) y Helgason, S. (1978).

Denición A.2.1. Una variedad topológica es un espacio topológico Hausdor M con


una base contable tal que para cada p ∈ M existe una vecindad U de p que es homeomorfo
a Rn para algún natural n; esto es, existe un homeomorsmo x : U → Θ ⊆ Rn , para un
abierto Θ en Rn .
En cada punto p∈M la dimensión n de Rn en la denición anterior, es única. Si el entero
n es el mismo para cualquier punto en M , entonces M se llama variedad n−dimensional.

A continuación se dene la noción de diferenciación de mapeos en variedades. La diferen-


ciación de mapeos sobre espacios euclídeos es denida como una propiedad local. Aunque
una variedad es localmente homeomórca a un espacio euclídeo, se requiere de más es-
tructuras para establecer la diferenciación.
Recuerde que sobre un espacio euclídeo, una función f : Rn → R es suave o C∞ si existen
n m
todas sus derivadas parciales. Un mapeo o aplicación de espacios euclídeos f : R → R se
puede pensar como una n−tupla de funciones real valuadas, es decir f = (f1 , f2 , · · · , fn )
y f es suave si cada una de las fi lo es.

Dadas dos vecindades U y V en una variedad M , se dice que dos homeomorsmos


x : U → Rn y y : V → Rn están C∞ relacionados si el mapeo x◦y −1 : y(U ∩V ) → x(U ∩V )

es C .

Al par (x, U ) se le llama entorno coordenado de p o sistema de coordenadas locales


alrededor de p, y se puede considerar como la asignación de un conjunto de coordenadas
a los puntos en la vecindad U de p; esto es, a cualquier punto p ∈ U le son asignadas
las coordenadas x1 (p), x2 (p), · · · , xn (p). Los entornos coordenados son importantes para
escribir expresiones locales para derivadas, vectores tangentes y métricas Riemannianas
sobre una variedad.

Una colección de entornos coordenados cuyo dominio cubre a


S M se le llama atlas ; esto
es, A = {(xα , Uα ) : α ∈ I} es un atlas si M= Uα .
α∈I
88 A Anexo: Elementos de Topología y Geometría Diferencial

Denición A.2.2. Un atlas A sobre una variedad M se dice que es maximal si para
cualquier otro atlas A0 sobre M , cualquier entorno de coordenadas locales (x, U ) ∈ A0
también está en A, esto es, A contiene A0 .
Denición A.2.3. Una estructura suave sobre una variedad M es un atlas maximal
A sobre M

La variedad M en conjunto con dicho atlas se denomina una variedad suave.


Teorema A.2.1. Dada una variedad M con un atlas A, existe un único atlas A0 tal que
A ⊂ A0 .

Considere la función f : M → R sobre una variedad suave M . Se dice que f es una


función suave si para cualquier entorno de coordenadas locales (x, U ) sobre M , se tiene
que f ◦x:U →R es suave.

Un mapeo f : M → N de variedades suaves se dice mapeo suave, si para cada entorno de


coordenadas locales (x, U ) sobre M y cada entorno de coordenadas locales (y, V ) sobre
−1
N, el mapeo y ◦ f ◦ x : x(U ) ⊆ Rn → y(V ) ⊆ Rn es un mapeo suave.

Como en el caso de espacios topológicos, se tiene el deseo de determinar cuando dos


variedades suaves son equivalentes, lo que indica que ellas son homeomorfas como espacios
topológicos y que también tienen estructuras suaves.

Denición A.2.4. Dadas dos variedades suaves M y N , un mapeo biyectivo f : M → N


se llama un difeomorsmo si tanto f como f −1 son mapeos suaves. Se dice en este caso
que M y N son difeomorfas.

Dada una variedad M ⊂ Rd , se puede asociar un subespacio lineal de Rd a cada punto


p ∈ M , llamado espacio tangente en p. El espacio tangente a M en p se denota por Tp M y
se considera de forma intuitiva como el subespacio lineal que mejor aproxima a M en una
vecindad del punto p. Los vectores en el espacio tangente se llaman vectores tangentes
en p.

Los vectores tangentes se pueden considerar derivadas direccionales . Considere una


curva suave γ : (−, ) → M , con γ(0) = p, entonces dada cualquier función f : M → R,
la composición f ◦ γ : (−, ) → R es una función suave y existe la siguiente derivada:

d
(f ◦ γ)(0),
dt
esto conduce a una relación de equivalencia ∼ entre las curvas suaves que pasan por p
en t = 0; Cp = {γ : (−, ) → M : γ > 0, γ(0) = p, γ es diferenciable}. Si γ1 y γ2
esto es,
son curvas suaves que pasan a través del punto p en t = 0, entonces γ1 ∼ γ2 , si para algún
entorno de coordenadas (x, U ) de p se cumple que:
A.2 Variedades Diferenciales 89

d d
(f ◦ γ1 )(0) = (f ◦ γ2 )(0),
dt dt

es decir, las curvas son equivalentes si los vectores tangentes en Rn de ambas curvas vis-
tas en coordenadas locales coinciden para cualquier función suave f : M → R. Note que
f ◦ γ1 (0) = f (γ1 (0)) = f (γ2 (0)) = f ◦ γ2 (0) = p. Ahora, un vector tangente se dene como
una de estas clases de equivalencia de curvas.

Se puede mostrar, Auslander, L. & MacKenzie, R.E. (1963), que estas clases de equiva-
lencia forman un espacio vectorial que es el espacio tangente Tp M , el cual tiene la misma
dimensión de M. Dado un sistema de coordenadas locales (x, U ) que contiene a p, una

base para el espacio tangente Tp M está dada por los operadores derivadas parciales
∂xi
,
las cuales son los vectores tangentes asociados con las curvas coordenadas de x.

Un campo vectorial sobre una variedad M es una función que asigna de manera
suave a cada punto p ∈ M un vector tangente Xp ∈ Tp M . Este mapeo es suave en el
sentido que las componentes de los vectores pueden ser escritas como funciones suaves en
cualquier sistema de coordenadas locales. Esto es, un campo vectorial es una aplicación
X : M → T M, tal que π ◦ X =SIdM , donde π : T M → M , Xp 7→ π(Xp ) = p es la
proyección canónica y TM = Tp M es la variedad tangente de M .
p∈M

Un campo vectorial se puede ver como un operador


X : C ∞ (M ) → C ∞ (M ), el cual

mapea una función suave f ∈ C (M ) a una función suave Xf : M → M tal que
p → Xp f , en otras palabras, la derivada direccional es aplicada en cada punto sobre M,

con C = {f : M → R : f es diferenciable o suave}.

Para dos variedades M y N, un mapeo suave φ:M →N induce un mapeo lineal de los
espacios tangentes:

φ∗ : Tp M → Tφ(p) N,

dicho mapeo se llama diferencial de φ en p.


Esta diferencial está dada por φ∗ (Xp )f =

Xp (f ◦φ), para cualquier Xp ∈ Tp M y para cualquier función suave f ∈ C (M ). Un mapeo
suave de variedades no siempre induce un mapeo de campos vectoriales, sin embargo un
concepto relacionado se da en la siguiente denición:

Denición A.2.5. Dado un mapeo de variedades suaves φ : M → N , se dice que un


campo vectorial X sobre M y un campo vectorial Y sobre N están φ−relacionados si
φ∗ (X(p)) = Y (q) es cierto para cada q ∈ N y para cada p ∈ φ−1 (q).
90 A Anexo: Elementos de Topología y Geometría Diferencial

A.3. Geometría Riemanniana


La idea de distancias sobre una variedad es relevante para la denición de estadísticas
sobre variedades. La noción de distancia sobre una variedad se enmarca en la geometría
Riemanniana, la cual se relaciona con la teoría de variedades suaves. Para ver más sobre
geometría Riemanniana revisar Milnor, J.W (1963), Boothby, W.M. (1986), Spivak, M.
(1999) y (1977).

Recuerde la denición de longitud de una curva suave sobre un espacio euclidiano: sea
γ : [a, b] → Rd un segmento de curva suave. En cualquier punto t0 ∈ [a, b], la derivada
0
de la curva γ (t0 ) da la velocidad de la curva al tiempo t0 . La longitud del segmento de
curva γ está dada por la integral de velocidad de la curva, esto es:

Z b
L(γ) = kγ 0 (t)kdt.
a

Esta denición de longitud requiere la norma de los vectores tangentes. En variedades


esto se trata por medio de la denición de métrica Riemanniana.

Denición A.3.1. Una métrica Riemanniana sobre una variedad M es una función
que asigna suavemente a cada punto p ∈ M un producto interno h., .i sobre el espacio tan-
gente Tp M . Una variedad Riemanniana es una variedad suave dotada de una métrica
Riemanniana.
1
La norma de un vector tangente v ∈ Tp M se dene como kvk = hv, vi 2 .
Dadas las coor-

denadas locales x1 , x2 , · · · , xn sobre una vecindad de p, los vectores coordenados vi =
∂xi
en p, forman una base para el espacio tangente Tp M . La métrica Riemanniana se puede
expresar en esta base como una matriz n×n denotada por g , llamada el tensor métrico ,
cuyas entradas están dadas por:

gij = hvi , vj i

Las gij son funciones suaves de coordenadas x1 , x2 , · · · , xn .

Dado un segmento de curva suave γ : [a, b] → M , la longitud de γ se puede denir de


manera similar al caso euclideo:
Z b
L(γ) = kγ 0 (t)kdt,
a

donde el vector tangente γ 0 (t) es un vector sobre Tγ(t) M y la norma está dada por la
métrica Riemanniana en γ(t).

Dada una variedad M y una variedad N con métrica Riemanniana h., .i, un mapeo
φ:M →N induce una métrica φ∗ h., .i sobre M denida por:
A.3 Geometría Riemanniana 91

φ∗ hXp , Yp i = hφ∗ (Xp ), φ∗ (Yp )i

Esta métrica se llama pull-back inducida por φ, ya que ésta mapea la métrica en la
dirección opuesta del mapeo φ.
Sobre espacios euclídeos la trayectoria más corta entre dos puntos es una línea recta y
la distancia entre los puntos es medida como la longitud de ese segmento de línea recta.
Esta noción de trayectoria más corta puede ser extendida a variedades Riemannianas
considerando el problema de hallar el segmento de curva suave más corto entre dos puntos
sobre la variedad. Si γ : [a, b] → M es una curva suave sobre la variedad Riemmaniana
M con puntos nales γ(a) = x y γ(b) = y , una variación de γ que mantiene los puntos
nales jos es una familia α de curvas suaves:

α : (−, ) × [a, b] → M

tal que:

1. α(0, t) = γ(t),
2. αe(s0 ) : t 7→ α(s0 , t), es un segmento de curva suave para s0 ∈ (−, ),
3. α(s, a) = x y α(s, b) = y para todo s ∈ (−, ).

La trayectoria suave más corta entre los puntos x, y ∈ M puede ser vista como hallar
un punto crítico para la función longitud, donde la longitud de α
e se considera como una
función de s. La trayectoria γ=α
e(0) es una trayectoria crítica para L si:

dL(e
α(s))
= 0.
ds
Resulta más fácil trabajar la trayectoria crítica del funcional energía, el cual está dado
por:

Z b
E(γ) = kγ 0 k2 dt
a

Se puede probar, Spivak, M. (1999) que una trayectoria crítica para E también es crítica
para L. De manera recíproca, una trayectoria crítica para L, una vez parametrizada de
forma proporcional a la longitud de arco, es una trayectoria crítica para E. Por tanto, al
asumir curvas que están parametrizadas proporcionalmente a la longitud de arco, no hay
diferencia entre curvas con longitud mínima y aquellas con mínima energía. Una trayec-
toria crítica del funcional E se llama una geodésica.

Dado un gráco (x, U ) una curva geodésica γ ⊂ U se puede escribir en coordenadas locales
como γ(t) = (γ 1 (t), γ 2 (t), · · · , γ n (t)). Usando algún sistema de coordenadas locales, γ
cumple la siguiente ecuación diferencial, Spivak, M. (1999):
92 A Anexo: Elementos de Topología y Geometría Diferencial

n
d2 γk X
k dγ i dγ j
= − Γi,j (γ(t))
dt2 i,j=1
dt dt

A Γkij se les llama los símbolos de Christoel y se denen de la siguiente manera:

n  
1 X kl ∂gjl ∂gil ∂gij
Γkij = g + j − ,
2 l=1 ∂xi ∂x ∂xl

donde g ij denota las entradas de la matriz inversa g −1 de la métrica Riemanniana.

Dados dos puntos sobre una variedad Riemanniana no hay garantía que exista una geo-
désica entre ellos. También pueden existir varias geodésicas uniendo los puntos, es decir,
no hay garantía de que la geodésica sea única. Además, una geodésica no tiene que ser
un mínimo global de la longitud funcional, esto es, pueden existir geodésicas de diferentes
longitudes entre los mismos puntos.

La idea de mínimo global de la longitud, lleva a la denición de distancia métrica d


dada por d : M × M → R. esta distancia métrica se dene como:

d(p, q) = Inf {L(γ) : γ es una curva suave entre p y q}

Si existe una geodésica entre los puntos p y q que cumple esta distancia, esto es, si
L(γ) = d(p, q) entonces a γ se le llama geodésica minimal . Las geodésicas minimales
existen bajo ciertas condiciones.

Denición A.3.2. Una variedad Riemmaniana M se dice que es completa si cualquier


segmento geodésico γ : [a, b] → M se puede extender a una geodésica desde el conjunto de
los números reales a M .
Teorema A.3.1. Hopf-Rinow
Si M es una variedad Riemanniana completa y conectada, entonces la distancia métrica
d(., .) inducida sobre M es completa. Además entre cualquiera dos puntos sobre M existe
una geodésica minimal.
Dadas las condiciones iniciales γ(0) = p y γ 0 (0) = v , la teoría de ecuaciones diferenciales
parciales de segundo orden garantiza la existencia de una única solución a la ecuación de
la denición de γ , al menos localmente. Así, existe una única geodésica γ con γ(0) = p y
γ 0 (0) = v denida en algún intervalo (−, ). Cuando la geodésica γ existe en el intervalo
[0, 1], el mapa exponencial Riemanniano en el punto p se dene así:

Expp : Tp M → M
v → Expp (v) = γ(1)
A.4 Grupos de Lie 93

Si M es una variedad completa entonces el mapa exponencial Riemanniano está denido


para todos los vectores v ∈ Tp M .

Teorema A.3.2. Dada una variedad Riemmaniana M y un punto p ∈ M , el mapa


Expp M es un difeomorsmo sobre alguna vecindad U ⊆ Tp M que contiene el cero.
Este teorema implica que el mapa exponencial Expp tiene una inversa denida por lo
menos sobre una vecindad Expp (U ) de p, donde U es el mismo que en el anterior teorema.
A esta inversa se le llama el mapa logarítmico Riemanniano y lo denimos como sigue:

Logp : Expp (U ) ⊆ M → Tp M
X → Logp (X) = v
Denición A.3.3. Una Isometría es un difeomorsmo φ : M → N de variedades
Riemannianas que preserva la métrica Riemanniana. Es decir, si h., .iM y h., .iN son las
métricas para M y N respectivamente, entonces φ∗ h., .iM = φ∗ h., .iN
De la denición anterior concluimos que una isometría preserva longitudes de curvas; esto
es, si c es una curva suave sobre M , entonces la curva φ ◦ c es una curva de la misma
longitud sobre N . Además, la imagen de una geodésica bajo una isometría es nuevamente
una geodésica.

A.4. Grupos de Lie


n
El conjunto de todas las posibles traslaciones del espacio euclídeo R es nuevamente el
n n n
espacio R . Un punto p ∈ R es transformado por el vector v ∈ R mediante la suma
p + v. Esta transformación tiene una única transformación inversa, llamada traslación
n
por el vector negativo −v . La operación de traslación es un mapeo suave del espacio R .
La composición de las dos traslaciones mencionadas anteriormente también es un mapeo
suave. Un conjunto de transformaciones con estas propiedades, es decir, una variedad
suave con operaciones de grupo suaves, se conoce como un grupo de Lie. Muchas otras
transformaciones de interés de espacios euclídeos también son grupos de Lie, entre las
cuales están las rotaciones, las reexiones y magnicaciones. Sin embargo los grupos de
Lie aparecen mas generalmente como transformaciones suaves de variedades.

Denición A.4.1. Un grupo es un conjunto G dotado de una operación ⊗ tal que:

1. Para todo x, y, z ∈ G, se satisface (x ⊗ y) ⊗ z = x ⊗ (y ⊗ z).


2. Existe un e ∈ G, tal que para todo x ∈ G se satisface x ⊗ e = e ⊗ x = x.
3. Para todo x ∈ G, existe x−1 ∈ G tal que se satisface x ⊗ x−1 = x−1 ⊗ x = e.

Como se mencionó antes, un grupo de Lie le da la estructura de variedad suave a un grupo.


94 A Anexo: Elementos de Topología y Geometría Diferencial

Denición A.4.2. Un grupo de Lie G es una variedad suave que también forma un
grupo, donde las dos operaciones de grupo multiplicación e inversa son mapeos suaves de
variedades. Esto es:

Multiplicación : G × G → G
(x, y) 7→ x ⊗ y

Inversa : G → G
x 7→ x−1

son mapeos suaves de variedades.


Dado un punto y sobre un grupo de Lie G, es posible denir dos difeomorsmos:

Multiplicación por izquierda :G→G


x 7→ yx

Multiplicación por derecha :G→G


x 7→ xy

Un campo vectorial X G, se llama invariante a izquierda si dicho


sobre un grupo de Lie
campo es invariante bajo la multiplicación a izquierda, esto es, Ly⊗ X = X para cualquier
y ∈ G. Los campos vectoriales invariantes a derecha se denen de manera análoga. Un
campo vectorial invariante a izquierda es únicamente denido mediante sus valores sobre
el espacio tangente en la identidad; es decir, en Te G.

Recuerde que los campos vectoriales sobre G pueden ser vistos como operadores sobre

el espacio de funciones suaves, C (G) = {f : G → R : f es suave o diferenciable}. Por lo
tanto dos campos vectoriales X e Y pueden ser compuestos para formar otro operador
XY sobre C ∞ (G). Sin embargo el operador XY no necesariamente es un campo vectorial.
Pero el operador XY − Y X si es un campo vectorial sobre G. Esto da lugar a la denición
del corchete de Lie.

Denición A.4.3. Sean X e Y campos vectoriales sobre G. El corchete de Lie entre


X e Y que se denota por [X, Y ] se dene por:

[X, Y ] = XY − Y X

A continuación se dene el concepto de álgebra de Lie.

Denición A.4.4. Una álgebra de Lie es un espacio vectorial dotado de un producto


bilineal [., .] : V × V → V llamado corchete de Lie que cumple:

1. [X, Y ] = −[Y, X].


A.4 Grupos de Lie 95

2. Para todo X , Y , Z ∈ V se cumple [[X, Y ], Z] + [[Y, Z], X] + [[Z, X], Y ] = 0.


El espacio tangente de un grupo de Lie G, que se denota por g, forma una álgebra de Lie.
El corchete de Lie sobreg es inducido mediante el corchete de Lie sobre el correspondiente
campo vectorial invariante a izquierda. Si X e Y son dos vectores en g, entonces sean X̃ e
Ỹ los únicos campos vectoriales invariante a izquierda correspondientes sobre G, entonces
el corchete de Lie está dado por:

[X, Y ] = [X̃, Ỹ ](e)

El corchete de Lie proporciona una prueba para saber si el grupo de Lie G es conmutativo.
Un grupo de Lie es conmutativo si y sólo si el corchete de Lie sobre las correspondiente
álgebra de Lie g es cero, esto es, si [X, Y ] = 0 para todo X e Y en g.

A.4.1. Mapa Exponencial y Logarítmico de Grupos de Lie


Denición A.4.5. Un mapeo de grupos de Lie φ : G1 → G2 se llama un homeomor-
smo de grupos de Lie, si es un mapeo suave y un homeomorsmo de grupos; esto es,
φ(e1 ) = e2 cuando e1 y e2 son los respectivos elementos identidad de G1 y G2 respectiva-
mente y φ(gh) = φ(g)φ(h), para todo g, h ∈ G1
La imagen de un homeomorfísmo de grupos de Lie subgrupo
h : R → G, se llama un
uni-paramétrico. Un subgrupo uni-paramétrico es al mismo tiempo una curva
suave y un subgrupo de G. Esto no signica que cualquier subgrupo uni-paramétrico
es un subgrupo de Lie de G. Existe una correspondencia biunívoca entre el álgebra de Lie
y los subgrupos uni-paramétricos.

Teorema A.4.1. Sea g el álgebra de Lie de un grupo de Lie G. Dado cualquier vector
X ∈ g, existe un único homeomorsmo de grupos de Lie hX : R → G, tal que hX (0) = X .
0

Un mapa exponencial de grupos de Lie, exp : g → G se dene como sigue:

exp(X) = hX (1)

A.4.2. Métricas Bi-Invariantes


Denición A.4.6. Una métrica Riemanniana h., .i sobre un grupo de Lie G, se dice que
es una métrica Bi-Invariante si es invariante tanto bajo multiplicación a izquierda
como a derecha, es decir, Rg⊗ h., .i = L⊗g h., .i = h., .i para todo g ∈ G.
Teorema A.4.2. Para un grupo de Lie G con una métrica Bi-Invariante el mapa expo-
nencial de grupo de Lie coincide con el mapa exponencial Riemanniano en la identidad,
esto es, para cualquier vector tangente X ∈ g se tiene:

exp(X) = Expe (X)


96 A Anexo: Elementos de Topología y Geometría Diferencial

Usando la inversa a izquierda de la métrica Riemanniana, cualquier geodésica en un


punto g∈G se puede escribir como la multiplicación a izquierda de una geodésica en la
0
identidad. Esto es, la geodésica γ con condición inicial γ(0) = g y γ (0) = Lg⊗ (X) está
dada por:

γ(t) = g exp(tX)

Teorema A.4.3. Un grupo de Lie compacto G tiene una métrica Bi-Invariante.

A.4.3. Espacios Simétricos


Un espacio simétrico Riemanniano es una variedad conectada M tal que en cada
punto de M el mapeo que regresa geodésicas a través de ese punto es una isometría. Al-
n n
gunos ejemplos comunes de espacios simétricos son los espacios euclidianos R , esferas S
n
y espacios hiperbólicos H . Los espacios simétricos y los métodos para calcular geodésicas
y distancias sobre ellas, aparecen de forma natural a partir de ciertas acciones de grupos
de Lie sobre variedades.

Antes de denir lo que es un espacio simétrico, es necesario dar algunas deniciones


preliminares acerca de mapeos de conjuntos. Sea X y φ cualquier mapeo de X en si
mismo. Un punto x ∈ X se llama punto jo de φ, si φ(x) = x. El mapeo φ se llama
involutivo si φ no es el mapeo identidad pero su cuadrado si lo es, esto es, φ ◦ φ = Id.

Denición A.4.7. Un espacio simétrico es una variedad Riemanniana conectada M


tal que en cada punto p de M existe una isometría involutiva φp : M → M que tiene a p
como un punto jo aislado.

El término aislado signica que existe una vecindad U de p tal que p es el único punto en
U que es un punto jo de φp . Esta denición es difícil de intuir, aunque es suciente para
implicar algunas propiedades importantes de espacios simétricos.

Teorema A.4.4. Si un espacio simétrico Riemanniano es completo, y si φp es una isome-


tría involutiva de M , entonces φp es una reexión del espacio tangente Tp M , es decir,
φp (X) = −X y φp regresa geodésicas a través de p, es decir φp (Exp(X)) = Expp (−X) para
todo x ∈ Tp M tal que dicha geodésica exista.

A.4.4. Acciones de Grupos de Lie


Denición A.4.8. Dada una variedad suave M y un grupo de Lie G, una acción de
grupo suave de G sobre M , es una mapeo suave G×M → M , denido como (g, p) 7→ g.p,
tales que para todo g, h ∈ G y todo p ∈ M se cumple que:

1. e.p = p.
A.4 Grupos de Lie 97

2. (g.h).p = (g.(h.p)).

La acción de grupo se podría pensar como una transformación de la variedad M, de la


misma forma que las matrices son transformaciones del espacio euclidiano.

La órbita de un punto p ∈ M se dene como G(p) = {g.p : g ∈ G}. En el caso que


M tenga una sola órbita, entonces a M se le llama un espacio homogéneo y en este
caso se dice que la acción de grupo es transitiva . El subgrupo de Isotropía de p se de-
ne como Gp = {g ∈ G : g.p = p}, es decir, Gp es el subgrupo de G que deja jo al punto p.

Sea H un subgrupo de Lie cerrado del grupo de Lie G. La cerradura izquierda de un


elemento g ∈ G se dene como gH = {gh : h ∈ H}. El espacio de todas estas cerraduras
se denota por G/H y es una variedad suave. Existe una biyección natural G(p) ∼
= G/Gp ,
dada por el mapeo, g.p 7→ gGp .

Sea M p ∈ M , un punto base arbitrario. Siempre se puede escribir


un espacio simétrico y
a M como un espacio homogéneo M = G/Gp , donde G es un grupo conectado de isome-
trías de M y el subgrupo de isotropía Gp es compacto. El hecho que G es un grupo de
isometrías signica que d(p, q) = d(g.p, g.q), para todo p, q ∈ M y g ∈ G.

Un elemento g ∈ G induce un mapeo suave φg : M → M vía la acción de grupo, denido


como φg (p) = g.p. Este mapeo también tiene inversa suave φg−1 . Por lo tanto φg es un
difeomorsmo.

Denición A.4.9. Dada una acción de grupo de Lie G sobre una variedad M , una
métrica Riemanniana G-invariante h., .i sobre M es una métrica tal que el mapeo
φg es una isometría para toda g ∈ G.

A.4.5. Espacios Simétricos como Grupos de Lie Cocientes


El siguiente teorema da un criterio para que una variedad posea una métrica G-invariante.

Teorema A.4.5. Tome un grupo de Lie G que actúa transitivamente sobre una variedad
M . Si para algún punto p ∈ M el subgrupo de isotropía Gp es un subgrupo de Lie compacto
conectado de G, entonces M tiene una métrica G-invariante.

Los espacios simétricos aparecen naturalmente a partir de espacios homogéneos con mé-
tricas G-invariantes, como lo muestra el siguiente teorema.

Teorema A.4.6. Suponga que G, M y p cumplen las condiciones del teorema A.4.5. Si
α : G → G es un automorsmo involutivo, esto es un isomorsmo de G en si mismo, con
un conjunto jo Gp , entonces M es un espacio simétrico.

El recíproco de este teorema también es cierto.


98 A Anexo: Elementos de Topología y Geometría Diferencial

Teorema A.4.7. Si M es un espacio simétrico y p es cualquier punto de M , entonces


M es difeomorfo al grupo de Lie cociente G/Gp , donde G = I0 (M ) es el componente
conectaod del grupo de Lie de isometrías de M y Gp es el subgrupo de Lie compacto de G
que deja al punto p jo. Además existe un automorsmo involutivo α : G → G que deja
jo a Gp .
Teorema A.4.8. Un grupo de Lie conectado G con métrica Bi-Invariante es un espacio
simétrico.

Las geodésicas sobre un espacio simétrico M = G/Gp , son calculadas a través de la acción
de grupo. Debido a que G es un grupo de isometrías que actúa transitivamente sobre M ,
es suciente considerar únicamente geodésicas iniciando en el punto base p. Para un punto
arbitrario q ∈ M , las geodésicas que inician en q son de la forma g.γ , donde g = g.q y γ
es una geodésica con γ(0) = p. Las geodésicas son la imagen de la acción de un subgrupo
uniparamétrico de G que actúa sobre el punto base p, como se enuncia en el siguiente
teorema.

Teorema A.4.9. Si M es un espacio simétrico con métrica G-invariante, como en el


teorema A.4.6, entonces una geodésica γ que inicia en el punto p ∈ M , es de la forma:

γ(t) = exp(tX).p

donde X es un vector sobre el álgebra de Lie g.


Apéndice B

Anexo: Teorema de Rådström

Los teoremas de embebimiento son una herramienta muy útil en el estudio del álgebra y
la topología algebráica, el sentido práctico nació con el álgebra, pero su uso se extendió
por todas las áreas de la matemática. Existen resultados de suma importancia que son
desarrollados en Fernandez (2008) y que están basados en Rådström (1953). El tema de
éste artículo fue planteado para otras aplicaciones, pero Banks y Jacobs Banks, H. T. &
Jacobs, M. Q. (1970) usaron este resultado para crear un cálculo diferencial para lo que
denominaron multifunciones, además de otras dos formas de generar la diferencial.

Desde la teoría del análisis convexo se tiene que para un espacio topológico lineal real
M , si S y R son subconjuntos convexos en M y si λ es un número real, los subconjuntos
S + R y λS están bien denidos y son convexos en M . Se entiende por S + R y λS ,
los conjuntos S + R = {z|z = x + y, x ∈ S, y ∈ R} y λS = {z|z = λx, x ∈ S}. Estas
operaciones satisfacen para S, R, Z ∈ M y λ, µ ∈ R las siguientes propiedades:

1. (S + R) + Z = S + (R + Z).
2. S + R = R + S .
3. λ (S + R) = λS + λR.
4. λ (µS) = (λµS).
5. 1S = S .

Así, el conjunto de todos los subconjuntos convexos de M es un semigrupo conmutativo


bajo la adición. Si la situación hubiera sido tal que no sólo fuera un semigrupo sino también
un grupo, y además se diera que (λ + µ) S = λS + µS , entonces el conjunto de todos los
subconjuntos convexos podría haber sido un espacio vectorial. Sin embargo, esto es cierto
sólo si λ y µ tienen el mismo signo, en particular si ambos son positivos. A continuación
se describen las condiciones bajo las cuales un semigrupo conmutativo bajo la operación
adición, puede ser embebido en un grupo y bajo cuales condiciones la multiplicación
por escalar puede ser extendida en este grupo de tal manera que el sistema resultante
sea un espacio vectorial. Las condiciones aparecen en Rådström (1953) y conforman un

99
100 B Anexo: Teorema de Rådström

método clásico para extender semigrupos conmutativos, el cual por ejemplo, es usado en
la construcción de los números enteros.
A continuación se enuncia el teorema que muestra las condiciones bajo las cuales se realiza
la extensión antes mencionada.

Teorema B.0.1. Teorema de Extension de Semigrupo

1. Sea M un semigrupo conmutativo en el cual la ley cancelativa se cumple; esto es, para
S , R, Z ∈ M , se tiene que:

1. (S + R) + Z = S + (R + Z),
2. S + R = R + S ,
3. si S + Z = R + Z entonces S = R.
Entonces M puede ser embebido en un grupo N . Además N puede ser elegido mi-
nimal en el siguiente sentido: Si G es cualquier grupo en el cual M es embebido,
entonces N es isomorco a un subgrupo de G que contiene a M .
2. Si existe una multiplicación por escalar real no negativo en M y satisface:
4. λ (S + R) = λS + λR,
5. (λ + µ) S = λS + µS ,
6. λ (µS) = λµS ,
7. 1S = S ,

entonces una multiplicación por escalar real puede ser denida en N tal que convierte
a N en un espacio vectorial y así para λ ≥ 0 y S ∈ M el producto λS coincide con
el dado en M .
3. Si además una métrica d (S, R) esta dada en M y satisface que:
8. d (S + Z, R + Z) = d (S, R),
9. d (λS, λR) = λd (S, R),
10. S + R y λS son operaciones continuas en la topología inducida por d en M ,
entonces una métrica puede ser denida en N y así convierte a N en un espacio
vectorial normado y es tal que si S , R ∈ M , la distancia entre S y R es igual a
d (S, R).

Los siguientes resultados son fundamentales tanto para el teorema de embebimiento de


m
Rådström, enunciado con la métrica dH ; como para su aplicación sobre el conjunto I ,
con un métrica denida en dicho conjunto y que cumple con las mismas propiedades de
la métrica dH en su enunciado, además de ser equivalente a la métrica dH .

Lema B.0.1. Sean S, Z y R conjuntos dados en un espacio lineal normado real. Suponga
que Z es cerrado y convexo, R es acotado, y que S + R ⊂ Z + R, entonces S ⊂ Z .
101

La invarianza de la metrica de Hausdor es dada a través del siguiente lema.

Lema B.0.2. Sean S y Z conjuntos convexos en un espacio lineal normado M . También


suponga que S + λE y Z + λE son cerrados para todo λ ≥ 0, donde E es la esfera unidad.
Sea R cualquier conjunto cerrado en M . Entonces dH (S, Z) = dH (S + R, Z + R).

Combinando los resultados anteriores, Rådström probó en Rådström (1953), lo que ahora
se denomina el teorema de embebimiento de Rådström y que se enuncia a continuación.

Teorema B.0.2. Teorema de Extension de Rådström.

Sea M un espacio lineal normado real, si L cualquier espacio de puntos los cuales son
conjuntos cerrados,acotados y convexos en M , el cual tiene las siguientes propiedades:

1. L es cerrado bajo la adicción y multiplicación por escalar no negativo,


2. Si R ∈ L y S es la esfera unitaria de M , entonces R + S es cerrado,
3. L es métrizado por la métrica de Hausdor,

entonces, L puede ser embebido como un cono convexo en un espacio normado real N de
tal manera que:

1. El embebimiento es isométrico.
2. La adición en L induce la adición en N .
3. La multiplicación por escalar no negativo en L induce la correspondiente multiplicación
por escalar no negativo en N .

Además, N puede ser elegido minimal en el siguiente sentido: Si H es cualquier espacio


lineal normado real, en el cual L está embebido en el sentido anterior, entonces H contiene
un subespacio que contiene a L y es isomorfo a N .

Son conjuntos que satisfacen las condiciones impuestas sobre L: El conjunto de todos los
conjuntos convexos compactos de dimensión nita y El conjunto de todos los conjuntos
convexos y compactos.
102 B Anexo: Teorema de Rådström
Apéndice C

Anexo: Multi-Intervalos y
Multi-Matrices

A continuación se presentan los elementos preliminares relacionados con intervalo vectores


e intervalo matrices, dado que el propósito del presente trabajo es proponer la metodología
de regresión P LS para el caso donde las variables explicativas y las variables respuesta son
conformadas por intervalos, no por números. Aquí se presentan los elementos algebraicos
fundamentales para que este trabajo sea autocontenido.

C.1. El conjunto I
El conjunto I y su estructura algebraica y analítica es presentada en Wu, H.C. (2007)
y Moore Et al. (2009) para el estudio del problema de optimización mono-objetivo bajo
incertidumbre.

El conjunto I se dene como:

I = {I ⊆ R : I intervalo cerrado, acotado y convexo}

 
Si A∈I entonces A = aL ; aU , donde aL ≤ aU y los superíndices LyU provienen de sus
correspondientes palabras en inglés Lower y Upper, para simbolizar el extremo inferior y
el extremo superior del intervalo, ambos extremos deben ser nitos.

   
Si A, B ∈ I , con A = aL ; aU y B = bL ; bU , entonces se dene la igualdad entre estos
objetos de la siguiente manera:

A=B si y sólo si aL = b L y aU = b U

En I se pueden denir las siguientes operaciones algebraicas:

   
Sean A, B ∈ I y α ∈ R, con A = aL ; aU y B = bL ; bU ,

103
104 C Anexo: Multi-Intervalos y Multi-Matrices

1. Adición en I:

A + B = aL + b L ; aU + b U
 

2. Multiplicación por un escalar en I


( 
αaL ; αaU Si α≥0
αA =  U 
αa ; αaL Si α<0

Con estas operaciones en I es importante hacer notar que: Respecto de la operación +, el


conjunto I satisface las propiedades: clausurativa, conmutativa, asociativa y modulativa,
además se cumple la ley cancelativa, pero no es un espacio vectorial ya que con la operación
algebraica + los elementos no siempre tienen inverso aditivo.

Adicionalmente, otra operación en el conjunto I, es la diferencia de Hukuhara, que se


dene de la siguiente manera:

Denición C.1.1. Sean Kc (Rm ) = {C ⊆ Rm : C es conjunto compacto y convexo} y A,


B ∈ Kc (Rm ), si existe C ∈ Kc (Rm ) tal que A = B + C , entonces C se llama la diferencia
de Hukuhara, denotada por C = A B .
   
Al aplicar la denición C.1.1 en el conjunto I , se tiene que con A = aL ; aU , B = bL ; bU
L U
en I , la diferencia de Hukuhara entre A y B si existe, es el intervalo C = c ; c el cual
 L L U U

está denido por C = a − b ; a − b .
 L U
Ahora, si se dene la longitud de un intervalo A = a , a ∈ I , denotada por l (A) como
l (A) = aU − aL , se obtiene el siguiente resultado.

Proposición C.1.1. Sean A = aL ; aU y B = bL ; bU ∈ I , entonces A B existe si y


   

sólo si l (A) ≥ l (B).

La prueba de la anterior proposición se puede encontrar en Banks, H. T. & Jacobs, M.


Q. (1970).

Por otra parte, al conjunto I también se le dota de una métrica, llamada la métrica de
Hausdor (1914) que lo hace un espacio métrico completo. Para X e Y, subconjuntos de
un espacio métrico E, se tiene que:

 
dH (X, Y ) = máx sup ı́nf kx − yk , sup ı́nf kx − yk
x∈X y∈Y y∈Y x∈X

donde k·k es la distancia denida en el espacio métrico (E, k · k). Las pruebas sobre
estas armaciones se pueden encontrar en Wu, H.C. (2007), Alefeld, G. & Hersberger, J.
(1983), Banks, H. T. & Jacobs, M. Q. (1970), Moore Et al. (2009).
C.1 El conjunto I 105

m
En particular, la norma Housdor induce una métrica para el conjunto I que puede ser
 L U  L U
expresada de la siguiente manera: Sean A = a ; a y B = b ;b , la métrica Housdor
dH (·, ·) en I, está dada por:

dH (A, B) = máx |aL − bL |, |aU − bU | .




Dado es espacio métrico (I, dH (·, ·)), tiene sentido hablar de los conceptos de límite y de
convergencia.

Denición C.1.2. Sean {An } una sucesión de intervalos en I y A ∈ I . Se dice que la


sucesión de intervalos {An } converge al intervalo A y se escribe lı́m An = A, si para todo
n→∞
 > 0 existe N ∈ N tal que para n ≥ N , se tiene que dH (An , A) < .

Lema C.1.1. La convergencia en el conjunto I se puede reducir a la convergencia en R


en el siguiente sentido: lı́m An = A si y sólo si lı́m aLn = aL y lı́m aUn = aU .
n→∞ n→∞ n→∞

En el conjunto I toma sentido el concepto de límites y convergencia de funciones. En


primer lugar, se da a continuación el concepto de función intervalo-valuada.

Denición C.1.3. La función f : Rn → I denida en el espacio Euclídeo Rn es llamada


función intervalo-valuada. Ésta función puede ser escrita como f (x) = f L (x), f U (x) ,


donde f L y f U son funciones real-valuadas denidas en Rn tales que f L ≤ f U para todo


x ∈ Rn .

A continuación se presenta la denición de límite de una función intervalo valuada.

Denición C.1.4. Sean c ∈ Rn , A ∈ I y f una función intervalo-valuada. El límite de


f cuando x tiende a c es A y se escribe lı́m f (x) = A, si y sólo si para todo  > 0 existe
x→c
δ > 0 tal que para kx − ck < δ , se tiene dH (f (x), A) < .

El límite de funciones intervalo-valuadas se puede reducir al límite de funciones real-


valuadas como se muestra en el siguiente teorema.

Teorema C.1.1. x→c


lı́m f (x) = A si y sólo si lı́m f L (x) = aL y lı́m f U (x) = aU .
x→c x→c

Sin lugar a dudas, la diferenciación es uno de los conceptos clave en la optimización,


porque las cualidades de las derivadas de una función proporcionan información muy
relevante relacionada con los mínimos y valores extremos de una función. La extensión
de diferenciabilidad a una función intervalo-valuada se basa en la diferencia Hukuhara. A
continuación se presentan los conceptos de derivada en lso sentidos fuerte y débil.

Denición C.1.5. Sea X un conjunto abierto en R. Una función f : X → I con f (x) =


f (x), f (x) , se llama debilmente diferenciable en x0 ∈ X si las funciones real-valuadas
 L U


f L y f U son diferenciables en x0 en el sentido usual.


106 C Anexo: Multi-Intervalos y Multi-Matrices

Denición C.1.6. Sea X un conjunto abierto en R. La función f : X → I con f (x) =


f (x), f (x) , se llama H -diferenciable ó fuertemente diferenciable en x0 ∈ X , si existe
 L U


A(x0 ) ∈ I tal que:

f (x0 + h) f (x0 ) f (x0 ) f (x0 − h)


lı́m+ , y lı́m+
h→0 h h→0 h
ambos existen y son iguales a A(x0 ). Se dice entonces que A(x0 ) es la H -derivada de f
en x0 .
En Wu, H.C. (2007) se da la demostración del siguiente teorema que presenta las condi-
ciones para que una función intervalo-valuada sea H -diferenciable.
Teorema C.1.2. Sea X un conjunto abierto en Rn . La función f : X → I con f (x) =
f (x), f U (x) . Suponga que f es débilmente diferenciable en x0 con derivadas (f L )0 (x0 ) =
 L 

aL (x0 ) y (f U )0 (x0 ) = aU (x0 )

1. Si f L (x0 +h)−f L (x0 ) ≤ f U (x0 +h)−f U (x0 ) y f L (x0 )−f L (x0 −h) ≤ f U (x0 )−f U (x0 −h)
para todo h > 0, entonces f es H -diferenciable en x0 con H -derivada A(x0 ) =
[aL (x0 ), aU (x0 )].

2. Si aU (x0 ) > aL (x0 ) entonces f no es H -diferneciable en x0 .

A partir de éste teorema se concluye que si f es H -diferenciable entonces es débilmente


diferenciable.

C.2. El Conjunto I m
Se Dene I m = {I1 × · · · × Im : Ij ∈ I} para todo j = 1, · · · , m y por abuso de lenguaje,
se representa como un arreglo m × 1 de intervalos, esto es,
  

 I1 

m  ..  m
I =  .  ⊆ R : Ij ∈ I , para todo j = 1, · · · , m

 I 

m

sobre este conjunto, cada elemento se llama un multi-intervalo como en Fernandez (2008).
       
aL1 ; aU1 bL1 ; bU1
m . .
Se dice también que si A, B ∈ I con A =  . yB= .
   
. . 
 L U  L U
am ; am bm ; bm

A=B si y sólo si aLj = bLj y aUj = bUj para todo j = 1, · · · , m.

En Im se denen las operaciones adición y multiplicación por escalar como sigue:

Sean A, B ∈ I m y α∈R
C.2 El Conjunto I m 107

 
A1 + B1
1. A + B =  .
   
. donde Aj = aLj ; aUj y Bj = bLj ; bUj ,

 . 
Am + Bm
dado que cada Aj + Bj ∈ I , para todo j , j = 1, · · · , m entonces A + B ∈ I m.
 
αA1
2. αA = 

.
.
.

 nuevamente, αAj ∈ I , para todo j , j = 1, · · · , m luego, αA ∈ I m .
αAm

Con lo anterior, las operaciones adición y multiplicación por escalar son clausurativas
m m
sobre I . Adicionalmente se tiene que para A, B y C ∈ I y α, λ ∈ R no negativos.
La operación + satisface las propiedades:

P.-1 Asociatividad. (A + B) + C = A + (B + C)
P.-2 Conmutatividad. A+B =B+A
 
[0; 0]
P.-3 Elemento
 .. 
neutro. 0 =  .  tal que A+0=0+A=A
[0; 0]

La operación multiplicación por un escalar satisface las propiedades:

P-4. Asociatividad. α (λA) = (αλ) A


P-5. Elemento neutro. 1 ∈ R, 1A = A

y por último, las leyes distributivas de la suma y el producto por escalar.

P-6. Distributividad con la suma. α (A + B) = αA + αB


P-7. Distributividad con la suma escalar. (α + λ) A = αA + λA

Esta es la aritmética para el conjunto Im que interesa, aunque Im no es espacio vectorial,


pues no todo multi-intervalo A posee inverso aditivo.

Aunque las propiedades P. − 4 y P. − 6 también se cumplen para escalares negativos,


no es interesante desde el punto de vista teórico, por otro lado la propiedad P. − 7 no se
cumple en general si tomamos λ = −α, con α positivo, ya que el lado izquierdo es igual
a 0 0
pero el lado derecho puede ser distinto de
     
αaL1 , αaU1 + −αaU1 , −αaL1
.
0 = (α + (−α))A 6= αA + (−α) A =  .
 
. 
 L   
αam , αaUm + −αaUm , −αaLm

Adicionalmente, se ha probado que I m es un semigrupo conmutativo que satisface la ley


cancelativa, ya que cada elemento A, B y C ∈ I m son conjuntos cerrados, acotados y
108 C Anexo: Multi-Intervalos y Multi-Matrices

convexos de Rm , con lo cual se está frente a un conjunto con una estructura muy cercana
a la de los espacios vectoriales.

En Fernandez (2008) se demuestra que el conjunto Im dotado de la adición, la mul-


tiplicación por un escalar y la métrica Hausdor, satisface las condiciones del teorema
de Rådström B.0.2 y puede ser embebido en un espacio vectorial. En Fernandez (2008)
se hace la construcción de dicho embebimiento. Del mismo modo en Fernandez (2008)
se construye el concepto de función multi intervalo-valuada así como los conceptos de
diferenciabilidad en los sentidos fuerte y débil.

C.3. Órdenes Parciales y Convexidad


Los problemas de optimización matemática mono-objetivo, están denidos sobre el campo
de los reales, R, el cual es totalmente ordenado, por esta razón en las presentaciones sobre
problemas de este tipo de optimización, se obvia el estudio sobre ordenes parciales. En
contraste, en los problemas de optimización matemática multi-objetivo, este tema toma
m
gran relevancia, puesto que al espacio vectorial R no se le ha dotado de un orden total, lo
que obliga a reexionar sobre el signicado de la expresión "minimizar o maximizar" una
n m
función f : R → R . Esto es fundamental porque el concepto de minimizar o maximizar
está ligado a ordenar y poder decidir si un elemento a de un conjunto M antecede o no
a otro elemento b del conjunto M. Dado que nuestro objetivo en este trabajo es estudiar
problemas de optimización multi-objetivo, se hace necesario introducir algunos conceptos
sobre los órdenes parciales que usaremos.

En este trabajo utilizaremos el orden de Pareto para el caso de funciones vector-valuadas.

Denición C.3.1. Sean x, y ∈ Rm


x ≤ y si y sólo si xi ≤ yi para todo i = 1, 2, ..., m.

Cuando x≤y se dice que x antecede a y o y sucede a x. Si no se cumple que x≤y o


y ≤ x, entonces x e y se llaman no comparables.

En Wu, H.C. (2007), Wu, H.C. (2007), Wu, H.C. (2007) y Fernandez (2008) se presentan
m
los órdenes parciales LU , U C y CW para I y I ; además se presentan relaciones de
m
implicación de gran importancia entre estos. Para esta tesis se usa el orden LU en I .
Dicho orden parcial se dene como sigue:

Denición C.3.2. Sean A = aL ; aU y B = bL ; bU ∈ I :


   

A LU B si y sólo si aL ≤ bL y aU ≤ bU

El orden parcial LU en I, denido antes, genera el siguiente orden parcial en I m.


C.3 Órdenes Parciales y Convexidad 109

   
A1 B1
.   . 
 ..  y B =  ..  ∈ I m . La relacion binaria denida
Teorema C.3.1. Sean A = 
Am Bm
como:

A LU B si y sólo si Aj LU Bj para todo j, j = 1, · · · , m (C.1)

Denen en I m una relación de orden parcial.


La prueba de este teorema se hace en Fernandez (2008).

Teorema C.3.2. Sean A, B y C ∈ I m .

El orden parcial LU denido en I m es compatible con respecto a la adición y a la mul-


tiplicación por un escalar positivo, esto es:
1. A LU B si y solo si A + C LU B + C .
2. A LU B si y solo si λA LU λB .
Demostración. Sean A, B y C ∈ Im

1. A + C LU B + C es equivalente a Aj + Cj LU Bj + Cj para todo j = 1, · · · , m,


lo cual es equivalente aaLj + cLj ≤ bLj + cLj y aUj + cUj ≤ bUj + cUj para j = 1, · · · , m,
y como son reales y el orden en R es compatible con la adición, entonces se obtiene
el resultado.

2. Si λ > 0, entonces λA LU λB , entonces λAj LU λBj para j = 1, · · · , m, si y sólo


L L U U
si λaj ≤ λbj y λaj ≤ λbj para j = 1, · · · , m y como el orden en R también es
compatible con la multiplicación por escalar positivo, se concluye que A LU B .

Sea funa función real valuada diferenciable en un subconjunto no vacío, abierto y convexo
n ∗
X de R entonces f es convexa en x si y sólo si:

f (x) − f (x∗ ) ≥ ∇f (x∗ )T (x − x∗ ) Para x ∈ X.


Se sabe que si X es un subconjunto no vacío convexo de Rn y F = (f1 , f2 , · · · , fm ) es una

función vector-valuada denida en X entonces la función F es convexa en x si y sólo si

las funciones real valuadas fi para i = 1, 2, · · · , m son convexas en x .

La intención es generalizar los conceptos de función convexa para una función real valuada
y vector-valuada a una función multi-intervalo valuada; dicho propósito se lleva a cabo
por medio de la siguiente denición y de la posterior proposición.
110 C Anexo: Multi-Intervalos y Multi-Matrices

Denición C.3.3. Sea X un subconjunto no vacío convexo de Rn y F un función multi-


intervalo valuada denida en X . F es convexa en x∗ si y sólo si:
F(λx∗ + (1 − λ)x) LU λF(x∗ ) + (1 − λ)F(x)

para todo λ ∈ (0, 1) y todo x ∈ X


Proposición C.3.1. Sea X un subconjunto no vacío convexo de Rn y F un función multi-
intervalo valuada denida en X . La función F es convexa en x∗ si y sólo si las funciones
vector-valuadas FL y FU son convexas en x∗ .

C.4. El conjunto In×p(R)


A continuación se dene el conjunto de todas las matrices de orden n×p cuyas entradas
son elementos del conjunto I.

Denición C.4.1. Una multi-matriz de orden n × n es el siguiente conjunto:

X I = X, X = X : X ≤ X ≤ X
  

donde X y X son matrices de orden n × n y de entradas reales que satisfacen X ≤ X en


el sentido usual.

A continuación se denen la matriz centro y la matriz radio.

Denición C.4.2. Sea X I una multi-matriz de orden n × n. Las matrices centro y radio,
que se denotan por XC y ∆X , se denen por:

1. XC = 1
X +X .

2

2. ∆X = 1

2
X −X

De manera trivial se tiene que una multi-matriz XI se puede expresar como:

X I = [Xc − ∆X, XC + ∆X] .

A continuación se denen las multi-matrices simétricas.

Denición C.4.3. Sea X I una multi-matriz. X I es simétrica si:

X I = XSI
h   i
donde XSI =
T
1
2
X + X T , 12 X + X
C.4 El conjunto In×p (R) 111

A partir de la denición se tiene que: XI es simétrica si y sólo si X y X son simétricas.


Una multi-matriz simétrica puede contener matrices no simétricas.

Se dene In×p (R) como el conjunto de todas las multi-matrices de orden n×p. En analogía
al caso escalar, una multi-matriz X I ∈ In×p (R) puede ser expresada como X I = (Xij )
donde Xij ∈ I . A continuación se denen operaciones sobre el conjunto In×p (R).

Denición C.4.4. Sobre el conjunto In×p (R) se denen las siguientes operaciones:

1. Adición. Sean X I = (Xij ) , Y I = (Yij ) ∈ In×p (R), entonces:

X I ± Y I = (Xij ± Yij )

2. Multiplicación. Sean X I = (Xij ) ∈ In×r (R) y Y I = (Yij ) ∈ Ir×p (R), entonces:


r
!
X
XIY I = Xik Ykj
k=1

3. En particular, Si X I = (Xij ) ∈ In×r (R) y uI = (Yij ) ∈ Ir×1 (R), entonces:


r
!
X
I I
X u = Xik uk
k=1

4. Multiplicación por un intervalo. Sean X I = (Xij ) ∈ In×p (R) y K ∈ I , entonces:

KX I = X I K = (KXij )

Dado que la metodología P LS se basa en el cálculo de vectores y valores propios, entonces


debe extenderse el concepto de valor y vector propio al caso de multi-matrices.

C.4.1. Intervalo-eigenvalores e Intervalo-eigenvectores


Dada una multi-matriz xI ∈ In×p (R), muchas investigaciones se han hecho en base a la
caracterización de soluciones del siguiente problema de intervalo-eigenvalores:

X I uI = λuI (C.2)

El problema C.2 tiene importantes propiedades Deif, A.S. & Rohn, J. (1994), Rohn, J.
(1993) y es útil para una amplia gamma de aplicaciones en física e ingeniería. El problema
I I
C.2 se resuelve determinando dos conjuntos λα y uα dados por:

λIα = λα (X) : X ∈ X I , uIα = uα (X) : X ∈ X I , α = 1, 2, · · · , r


 
112 C Anexo: Multi-Intervalos y Multi-Matrices

I I I
donde (λα , uα ) es un eigenpar de X ∈ X . El par (λα , uα ) es el α-ésimo eigenpar de
X I y representa el conjunto de los α-ésimos eigenvalores y el conjunto de los α-ésimos
I
eigenvectores de todas las matrices dentro de X .

Denición C.4.5. Sea x ∈ Rn . El vector z = sign(x) está dado por:


(
1 xi ≥ 0
zi =
−1 xi < 0

S = diag(sign(x)) es la matriz diagonal cuya diagonal está conformada por los elementos
de sign(x).
La denición C.4.5 es fundamental para formular el siguiente teorema que entrega una
importante herramienta para calcular los eigenvalores de una multi-matriz.

Teorema C.4.1. Sean X I ∈ In×n (R), XC y ∆X las matrices centro y radio respecti-
vamente y uα (XC ) para α = 1, 2, · · · , n los eigenvectores de XC . Si X I es simétrica y
S α = diag(sign(uα(XC ) )) para α = 1, 2, · · · , n calculada para XC es constante en X I ,
entonces el eigenvalor λα de X ∈ X I oscila en el intervalo:

λIα = λα (XC − S α ∆XS α ), λα (XC + S α ∆XS α ) , α = 1, 2 · · · , n.


 

El teorema C.4.1 da una forma exacta de calcular el intervalo-eigenvalor λIα . Los intervalo-
eigenvectores se pueden calcular resolviendo un problema de programación lineal ?.
Teorema C.4.2. Una condición necesaria y suciente para que uα (X) sea una eigenvec-
tor de X asociado al eigenvalor λα (X) es:

− ∆X|uα (X)| ≤ (λα (X)I − S α XC S α ) |uα (X)| ≤ ∆X|uα (X)| (C.3)

donde I es la matriz unitaria y λα (X) ≤ λα (X) ≤ λα (X).


Para obtener cotas para las componentes de uα (X) se escribe la expresión C.3 de la
siguiente manera:

 
λα (X)I − S α XC S α − ∆X
|uα (X)| ≤ 0
S α XC S α − ∆X − λα (X)

donde λα (X) ≤ λα (X) ≤ λα (X).

Para calcular cotas superiores e inferiores para uα (X) se minimiza y maximiza |uiα | sujeto
a C.3 para i = 1, 2 · · · , n−1 mientras se mantiene |uin | igual a uno. Este tipo de problema
de optimización es un problema de programación lineal y se resuelve de manera numé-
α
rica. Las cotas para uα (X) se obtienen multiplicando las cotas de |uα (X)| por la matriz S .
C.4 El conjunto In×p (R) 113

Hasta el momento se han mostrado teoremas donde los intervalo-eigenvalores se calculan


de manera exacta. Sin embargo, existen algoritmos que permiten calcular dichos intervalo-
eigenvalores de manera numérica Hladik Et al. (2008), Hladik Et al. (2009), Hladik, Et
al. (2011).

C.4.2. Intervalo-Valores Singulares


I
Los valores singulares de una multi-matriz X pueden ser calculados directamente del
T I
problema de eigenvalores para X X con X ∈ X Deif, A.S. (1991). Se considera el
siguiente conjunto:

Σ = σ : X T Xu = σ 2 u, u 6= 0, X ∈ X I


La intención es calcular los intervalo-valores singulares σαI para α = 1, 2 · · · , p para todo


X ∈ X I . Los siguientes tres supuestos son necesarios:

1. Se debe dar que sign(uα (X)) para α = 1, 2, · · · , p es invariante para cada X ∈ X I .


Por lo tanto se tiene que sign(uα (XC )) es igual a sign(uα (X)) para α = 1, 2, · · · , p.

2. Debe darse que |δXuα | < 2|XC uα | donde |δX| ≤ ∆X .

3. Debe darse que sign(XC uα ) para α = 1, 2, · · · , p es invariante para cada X ∈ XI.

las condiciones para la validez de los supuestos 1, 2 y 3 se dan en ?, donde S1α =


diag(sign(uα )) y S2α = diag(sign(XC uα )).

Teorema C.4.3. Los valores de δX que optimizan el valor singular σα de la matriz


XC + δX , para todo |δX| ≤ ∆X , están dados por:

δX = ±S2α ∆XS1α .

Teorema C.4.4. Bajo los supuestos 1, 2 y 3 los valores singulares  cuadrados σ de


2

XC + δX , para todo |δX| ≤ ∆X , varían en el intervalo λα = λα , λα para α = 1, 2 · · · , r,


I

donde:

1. λα = λα XCT XC − 2 S1α ∆X T S2α XC


 α T α

S
+ S1 ∆X ∆XS1 .

2. λα = λα
 
XCT XC + 2 S1α ∆X T S2α XC S + S1α ∆X T ∆XS1α .

De esta manera se pueden calcular intervalo-valores singulares de una multi-matriz XI y


por tanto una descripción del conjunto Σ. Por otro lado, se muestra como se calculan los
intervalo-eigenvalores de una matriz X X con X ∈ X I .
T
114 C Anexo: Multi-Intervalos y Multi-Matrices
Apéndice D

Anexo: Algunos Elementos de


Estadística Intervalo Valuada

A continuación se presentan algunas deniciones y resultados que permiten extender al-


gunos conceptos estadísticos al caso intervalo-valuado Gioia & Lauro (2005).

Denición D.0.1. Considere un conjunto de variables de intervalo [x1 , x1 ], [x2 , x2 ], · · · ,


[xn , xn ]. El intervalo media, que se denota por M , es el intervalo:
 n
P n
P

 i=1 i=1 xi 
 n xi , n 
M = [M , M ] =  

Denición D.0.2. Considere un conjunto de variables de intervalo [x1 , x1 ], [x2 , x2 ], · · · ,


[xn , xn ] con media M . La i-ésima desviación SC(Xi ) de Xi con respecto a M , está dada
por:
" ! !#
1 X 1 X
SC(Xi ) = xi − xi − xj , xi − xi − xj , i = 1, 2, · · · , n.
n j6=i
n j6=i

El multi intervalo SC(X) formado por todas las desviaciones está dado por:

SC(X) = (SC(Xi )) , i = 1, 2, · · · , n
Teorema D.0.1. Considere un conjunto de variables de intervalo [x1 , x1 ], [x2 , x2 ], · · · ,
[xn , xn ] con media M . se verica que:

n
X
SC(Xi ) = 0.
i=1

Denición D.0.3. Considere un conjunto de variables de intervalo [x1 , x1 ], [x2 , x2 ], · · · ,


[xn , xn ]. Considere la siguiente función:

115
116 D Anexo: Algunos Elementos de Estadística Intervalo Valuada

n n
!2
1X 1X
V ar(X) = f (x1 , x2 , · · · , xn ) = xh − xk .
n h=1 n k=1

La varianza de X = (X1 , X2 , · · · , Xn ) donde Xi = [xi , xi ], que se denota por V(X), está


dada por:
 
V(X) = mı́n f (x1 , x2 , · · · , xn ), máx f (x1 , x2 , · · · , xn )
xi ∈Xi xi ∈Xi

En Gioia & Lauro (2005) se dan importantes resultados de f y V ar(X); por ejemplo:

1. f es una función continua.

2. V ar(X) es un intervalo cerrado.


3. V ar(X) es un intervalo formado por elementos no negativos.
4. Tiene sentido calcular la desviación estándar de X a partir de V ar(X), considerando
1
f 2.

A continuación se considera una extensión de los conceptos de covarianza y correlación


de variables intervalo valuadas.

Denición D.0.4. Considere dos variables de tipo intervalo X = (X1 , X2 , · · · , Xn ) con


Xi = [xi , xi ] para i = 1, 2, · · · , n y Y = (Y1 , Y2 , · · · , Yn ) con Yi = [y i , y i ] para i =
1, 2, · · · , n. Considere la función:

n
" n
! n
!#
1X 1X 1X
Cov(X, Y ) = g(x1 , · · · , xn , y1 , · · · , yn ) = xi − xk yi − yk .
n i=1 n k=1 n k=1

La covarianza entre X y Y , que se denota por Cov(X, Y), está dada por:

 
Cov(X, Y) = mı́n g(x1 , · · · , xn , y1 , · · · , yn ), máx g(x1 , · · · , xn , y1 , · · · , yn )
xi ∈Xi ,yi ∈Yi xi ∈Xi ,yi ∈Yi

Denición D.0.5. Considere dos variables de tipo intervalo X = (X1 , X2 , · · · , Xn ) con


Xi = [xi , xi ] para i = 1, 2, · · · , n y Y = (Y1 , Y2 , · · · , Yn ) con Yi = [y i , y i ] para i =
1, 2, · · · , n. Considere la función:

Cov(X, Y )
Corr(X, Y ) = h(x1 , · · · , xn , y1 , · · · , yn ) = p p .
V ar(X) V ar(Y )

La correlación entre X y Y , que se denota por Corr(X, Y), está dada por:
117

 
Corr(X, Y) = mı́n h(x1 , · · · , xn , y1 , · · · , yn ), máx h(x1 , · · · , xn , y1 , · · · , yn )
xi ∈Xi ,yi ∈Yi xi ∈Xi ,yi ∈Yi

A partir de la denición de la función h, se tiene que el conjunto Cov(X, Y) satisface:

1. Corr(X, Y) es el intervalo formado por todas las correlaciones que pueden ser calcu-
ladas cuando las variables varían en sus respectivos rangos de variación.

2. Cualquier elemento en Corr(X, Y) varía entre −1 y 1.

3. En particular, Corr(X, Y) = 1.

A continuación se da la denición de vector estandarizado.

Denición D.0.6. Considere una variable de tipo intervalo X = (X1 , X2 , · · · , Xn ) con


Xi = [xi , xi ] para i = 1, 2 · · · , n. Considere la función:

xi − x
f (x1 , x2 , · · · , xn ) = √ 2

donde x y σ2 denotan media y varianza muestral.

La estandarización de la variable X , que se denota por s, es la variable s = (s1 , s2 , · · · , sn )


con:
 
si = mı́n f (x1 , x2 , · · · , xn ), máx f (x1 , x2 , · · · , xn )
xi ∈Xi xi ∈Xi

En el caso clásico, dada una matriz X ∈ Rn×p , la estandarización de X es una matriz


S ∈ R que resulta de X estandarizando cada una de sus componentes; esto es, cada
componente sij de S está dada por:

xij − xj
sij = √ 2 .
nσj

A partir de S , se construye la matriz SS T . Dada una multi matriz X I ∈ In×p (R), los mas
I I I T
natural es pensar en construir la matriz estandarizada S y calcular S (S ) ; sin embargo
se sigue un camino diferente con la intención de garantizar que cada componente de la
nueva matriz sea un intervalo. Dicho propósito se alcanza por medio de la maximización
T
y la minimización de cada componente de la matriz SS cuando cada xij de cada varía
en su rango de valores. A continuación se formalizan estas apreciaciones.
118 D Anexo: Algunos Elementos de Estadística Intervalo Valuada

Denición D.0.7. Considere una multi matriz X I ∈ In×p (R). Considere la función:

Fi (x1j , x2j , · · · , xnj ) = (ssT )ij

donde (ssT )ij es la ij -ésima componente de la matriz SS T , con S la matriz estandarizada


de alguna X ∈ X I .

La multimatriz (SS T )I ∈ In×n (R), es tal que su ij -ésima componente está dada por:
 
T I
((ss )ij ) = mı́n Fi (x1j , x2j , · · · , xnj ), máx Fi (x1j , x2j , · · · , xnj )
xij ∈Xij xij ∈Xij
Apéndice E

Trabajo Futuro. Regresión por Mínimos


Cuadrados Parciales P LS con Datos de
Intervalo

La incertidumbre en los datos puede ser considerada mediante un intervalo numérico en


el cual una variable puede asumir sus posibles valores, esto se conoce como datos de in-
tervalo. En este capítulo se extiende la metodología de regresión P LS al caso donde tanto
las variables explicativas como las variables respuesta y los coecientes de regresión son
del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve
tres problemas que se presentan con los datos de tipo real: en primer lugar problemas
de multicolinealidad tanto en las variables explicativas como en las variables respuesta,
en segundo lugar problemas cuando los datos no pertenecen a un espacio Euclídeo y por
último problemas cuando la incertidumbre en los datos se representa por medio de in-
tervalos. Hoy en día existen tareas del común, tales como planicación y operación de
sistemas eléctricos, planicación de producción, logística del transporte, inventarios, ges-
tión de carteras de valores; entre otras, que involucran incertidumbre. De ésta manera se
requieren modelos que tengan en cuenta dicha incertidumbre y puedan dar la posibilidad
de tomar decisiones para resultados óptimos desde una gama de posibilidades o escenarios
posibles. Por otro lado, el análisis de datos reales a menudo se ve afectado por diferentes
tipos de errores tales como: errores de medición, errores de cálculo e impresición relacio-
nada con el método adoptado para la estimación de los datos.

El presente capítulo está estructurado de la siguiente manera: en la sección E.1 se presenta


la metodología de regresión lineal con datos de intervalo, donde se muestran modelos de
regresión como el método del centro, el método del centro y el rango, el método bivariante
del centro y el rango y el método restringido, que no trabajan con la información completa
dada por los intervalos sino que trabajan con números reales que se obtienen a partir
de los intervalos. En la misma sección se utilizan elementos de optimización intervalo-
valuada para estimar los parámetros de regresión en el caso de variables explicativas
conformadas por números reales y tanto coecientes de regresión como variable respuesta
de tipo intervalo. Se naliza la sección haciendo una propuesta de un modelo de regresión

119
120 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

lineal múltiple donde las variables explicativas, las variables respuesta y los coecientes
de regresión son del tipo intervalo. En al sección E.2 se muestra la extensión del análisis
de componentes principales al caso intervalo-valuado. Por último, en la sección E.3 se
presenta la metodología de regresión P LS con datos de intervalo.

E.1. Regresión Lineal con Datos de Intervalos


Se han tratado diferentes enfoques para llevar a cabo el análisis de regresión lineal para
los datos de intervalo, desde que se presentó el primer enfoque Billard & Diday (2000).
Primero se ajusta un modelo de regresión lineal para el punto central de los intervalos,
luego, se aplica el modelo ajustado a los límites inferior y superior de las variables in-
dependientes para hacer predicciones de los límites inferior y superior, respectivamente.
Neto Et. al. (2004) y De Carvalho Et. al. (2004) transforman las variables de intervalo
originales variables de punto central y rango y luego llevan a cabo un análisis de regresión
clásica en cada una de las variables punto central y variables de rango por separado. Pos-
teriormente Billard & Diday (2007) extienden los conceptos de Lima Nieto y de Carvalho
considerando el punto central y el rango del intervalo de manera simultánea. Neto Et. al.
(2005), De Carvalho, F. & Neto, E. (2010) mejoran su propuesta proponiendo un proble-
ma de programación lineal restringida. La principal desventaja de todos estos métodos es
la pérdida de información al realizar las regresiones.

A continuación se hace una presentación teórica de cada uno de éstos métodos.

E.1.1. Método del Centro


Suponga que X1 , X2 , · · · , Xp son p intervalo vectores explicativos y Y el intervalo vector
respuesta. Sea Xij = [aLij , aUij ] el intervalo i sobre el intervalo vector j . Sean Xij,C y Yi,C
para i = 1, 2, · · · , n los puntos medios de los intervalos de las variables explicativas y la
variable respuesta respectivamente. El modelo de regresión se puede ver entonces como:

Y C = X C βC + εC

donde YC = (Y1,C , Y2,C , · · · , Yn,C )T , XC = (X1,C , X2,C , · · · , Xn,C )T , βC = (β0 , β1 , · · · , βp )T


y Xi,C = (1, Xi1,C , Xi2,C , · · · , Xip,C )T para i = 1, 2, · · · , n. Se tiene que el estimador βbC
está dado por:

−1
βbC = XC XCT XCT YC

Para una nueva observación X new = (X1new , X2new , · · · , Xpnew )T donde Xjnew = [Xjnew,L , Xjnew,U ]
para j = 1, 2, · · · , p, el b = [Yb L , Yb U ], está dado por:
valor predicho Y

Yb L = X new,L βbC , Yb U = X new,U βbC


E.1 Regresión Lineal con Datos de Intervalos 121

E.1.2. Método del Centro y el Rango


En contraste con el método del centro, que considera los centros de los intervalos, el
método del centro y el rango no solo considera los centros de cada intervalo sino el centro
y el rango de cada intervalo. Éste método considera el modelo:

Y C = X C βC + εC

y de manera independiente resuelve un modelo análogo considerando los rangos de cada


intervalo. Sean Xij,r y Yi,r para i = 1, 2, · · · , n los rangos de los intervalos de las variables
explicativas y la variable respuesta, respectivamente. El modelo de regresión para los
rangos, se puede ver entonces como:

Yr = Xr βr + εr

donde Yr = (Y1,r , Y2,r , · · · , Yn,r )T , Xr = (X1,r , X2,r , · · · , Xn,r )T , βr = (β0 , β1 , · · · , βp )T y


Xi,r = (1, Xi1,r , Xi2,r , · · · , Xip,r )T para i = 1, 2, · · · , n. Se tiene que el estimador βbr está
dado por:

−1
βbr = Xr XrT XrT Yr

Para una nueva observación X new = (X1new , X2new , · · · , Xpnew )T donde Xjnew = [Xjnew,L , Xjnew,U ]
para j = 1, 2, · · · , p, el b = [Yb L , Yb U ], está dado por:
valor predicho Y

YbC − Ybr b U YbC + Ybr


Yb L = , Y =
2 2
donde YbC = X new βbC y
new
Ybr = X βbr

E.1.3. Método Bivariante de Centro y el Rango


El método bivariante del centro y el rango es una modicación del método del centro
y el rango, en el sentido que los centros de los intervalos y los rangos de los intervalos
no se toman de manera independiente. El método bivariante de centro y rango utiliza
simultaneamente los centros de los intervalos y los rangos de los intervalos. El modelo
puede ser visto como:

Y = Xβ + ε

donde Y = (YC , Yr ), YC = (Y1,C , Y2,C , · · · , Yn,C )T , Yr (Y1,r , Y2,r , · · · , Yn,r )T , con X =


(X1 , X2 , · · · , Xn )T donde Xi = (1, Xi1,C , Xi2,C , · · · , Xip,C , Xi1,r , Xi2,r , · · · , Xip,r )T y β =
(β0 , β1,C , β2,C , · · · , βp,C , β1,r , β2,r , · · · , βp,r )T . Se tiene entonces que:

βb = (X T X)−1 X T Y
122 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

El valor de una nueva observación X new está dado por:

YbC − Ybr b U YbC + Ybr


Yb L = , Y =
2 2

donde (YbC , Ybr ) = X new βb.

E.1.4. Método Restringido


En los anteriores métodos puede darse que el límite inferior de las predicciones sea mayor
que el límite inferior. Basados en programación lineal, se propone un método restringido
donde se garantiza que las estimaciones de los β 's sean no negativas. El modelo se puede
ver como:

YC = XC βC + εC , Yr = Xr βr + εr

sujetos a las restricciones βj,C ≥ 0 y βj,r ≥ 0 para j = 1, 2 · · · , p.

E.1.5. Estimación de Parámetros con Optimización Intervalo-valuada


A continuación se presentan algunos resultados obtenidos en Gallego-Posada & Puerta-
Yepes (2015). En dichos resultados se muestra la estimación de parámetros intervalos
usando una metodología análoga a mínimos cuadrados sobre el conjunto I.

Ajuste Polinomial Generalizado.


Considere ci = [cLi , cUi ] ∈ I para i = 0, 1, 2 · · · , n. Se dice que p(x) es un polinomio
generalizado si puede ser expresado de la forma:

n
X n
X
i
p(x) = ci x = [cLi , cUi ]xi .
i=0 i=1

Considere un conjunto de observaciones yi = [yiL , yiU ] ∈ I para i = 1, 2, · · · , m. Se puede


modelar el fenómeno usando un polinomio de grado n en forma matricial como sigue:

      
y1 1 x1 x21 x31 · · · xn1 c0 ε1
 y 2   1 x 2 x 2 x 3 · · · x n   c1   ε 2 
2 2 2
 ..  =  .. .. .  .  +  . 
     
. . ..
 .  . . . . . . .  .. 
. . .  . 
ym 1 xm x2m x3m · · · xnm cm εm

o de manera compacta como Y = VC + E, donde V es la matriz de Vandermonde.


E.1 Regresión Lineal con Datos de Intervalos 123

En Gallego-Posada & Puerta-Yepes (2015) se considera un polinomio de grado 10 con


coecientes de intervalo. Se toma una muestra aleatoria de intervalos teóricos y con ésta
información se busca estimar los los valores originales de los coecientes que generan este
comportamiento. En la gura E.1 se muestra el polinomio intervalo-valuado, donde las
bandas moradas representan la muestra aleatoria de intervalos.

Figura E.1: Gráco Polinomio Intervalo-valuado.

La primer técnica que se utiliza para estimar los coecientes, es la metodología de mínimos
cuadrados ordinarios, donde la estimación de C está dada por C b = (VT V)−1 VT Y. Estos
2
resultados pueden ser obtenidos minimizando la norma L de los residuales entre los
puntos medios del modelo estimado y las medidas reales

m
X
mı́n yi ))2
(m(yi ) − m(b
i=1

donde m(yi ) representa el punto medio de las medidas reales y m(b


yi ) representa el punto
medio del modelo estimado.

Figura E.2: Estimación de Parámetros por M.C.


124 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

En la gura E.2 se muestran los verdaderos coecientes en color rojo y las estimaciones
de los coecientes en color gris.Como se observa las estimaciones son bastante sensibles
utilizando mínimos cuadrados ordinarios.

La segunda metodología que se implementa en Gallego-Posada & Puerta-Yepes (2015)


para estimar los coecientes del polinomio intervalo-valuado, es un algoritmo evolutivo
llamado Dierential Evolution (DE ) desarrollado originalmente por Price al tratar de
resolver un problema de ajuste del polinomio de Chebychev propuesto por Storn. Una
completa descripción de DE aparece en Storn & Price (1997).

Las estimaciones obtenidas utilizando la metodología DE se presentan en la gura E.3.


Como se observa no hay una mejora sustancial en la calidad de la estimación en relación
con los valores reales de los parámetros. La mayoría de las estimaciones cae casi en el
punto medio de los intervalos reales. Sin embargo, algunos del coecientes se subestiman
o sobrestiman en la longitud del intervalo, como se puede ver claramente en coecientes
en las guras E.1 y E.3. Además, dada la naturaleza de la heurística, la calidad de las
estimaciones no es muy uniforme y, en algunos casos, la búsqueda no converge a valores
adecuados de los parámetros.

Figura E.3: Estimación de Parámetros con DE .

Como otra alternativa, en Gallego-Posada & Puerta-Yepes (2015), se utiliza la implemen-


tación en el software CVX para optimización convexa desarrollado en I.CVX Research
(2012) y Grant & Boyd (2008). Para evitar la sobre estimación de la longitud de los inter-
1
valos, la métrica inducida en I por la norma L se utiliza para medir los residuos, que se
pueden expresar en términos de la distancia Hausdor en I. de ésta manera, el problema
de optimización puede ser expresado como:

m
X
mı́n dH (yi , ybi )
i=1

Los resultados de ésta metodología son presentados en la gura E.4. Como puede verse,
las estimaciones coinciden con éxito con los valores reales de los parámetros, con errores
E.1 Regresión Lineal con Datos de Intervalos 125

de magnitud de 10−9 en relación a los puntos nales teóricos. De ésta manera puede
observarse la potencia de la metodología y como ésta captura la incertidumbre dada por
las mediciones.

Figura E.4: Estimación de Parámetros con CV X .

Función de Weierstrass.
Con el n de mostrar la potencia de la metodología, en Gallego-Posada & Puerta-Yepes
(2015), se toma una función no tan suave como un polinomio. De ésta manera, se toma
la función de Weierstrass Hardy (1916) dada por:


X
f (x) = an cos(bn πx)
n=0

En este caso la intención es estimar el coeciente a que es tomado como un intervalo,


basados en un conjunto de medidas para x ∈ [0, 1]. Basados en la métricaL1 inducida en
I, se resuelve el problema de optimización mencionado previamente. En la gráca E.5 se
muestra la estimación de la función de Weierstrass junto con los intervalos estimados.

Figura E.5: Estimación de la Función de Weierstrass.


126 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

Como se puede ver en la gura, los coecientes estimados para este modelo son capaces
de manejar el comportamiento caótico y ruidoso de ésta función, así como la extrema
sensibilidad que existe en el parámetro.

Series de Fourier aplicada a la Modelación Densidades Espectrales de Potencia.


El uso de hidrófonos para las mediciones de la densidad espectral de potencia de las señales
de sonido generados por lanchas se realizaron con el n de desarrollar una caracterización
de la rma acústica. Se realizaron un total de 36 mediciones, sin embargo 12 de ellas
fueron descartados debido a factores que generaron cambios en el comportamiento del
espectro, por ejemplo, los cambios en la velocidad de la embarcación y sus motores. Las
24 mediciones aceptadas se presentan en la gura E.6, donde el eje horizontal representa
la frecuencia en Hz y el eje vertical la densidad espectral de potencia en dB/Hz . Debido
a cuestiones de condencialidad, la fuente de estos datos no pueden ser especicado.

Figura E.6: Medidas Reales. Nivel como Función de la Frecuencia.

Para describir este comportamiento se propuso un modelo de series de Fourier. Una serie
de Fourier es una forma de representar una función de onda como la suma de ondas
sinusoidales simples, descomponiendo la señal en la suma de un (posiblemente innito)
conjunto de funciones oscilantes simples, a saber, senos y cosenos, como sigue:

n
X
f (x) = a0 + ai cos(iwx) + bi sin(iwx)
i=1

donde un a0 es un término constante (intercepto) los datos y se asocia con i=0 término
coseno, w es la frecuencia fundamental de la señal, n es el número de términos (armó-
nicos) en la serie. En este caso se estimaron modelos de varios órdenes, sin embargo, un
modelo de orden 8 muestra la tendencia observada en las medidas de forma adecuada,
especialmente en las partes iniciales y nales de los datos.
E.1 Regresión Lineal con Datos de Intervalos 127

Con base en el conjunto completo de mediciones, se extraen los límites superior e inferior
en cada instante y con ésta información, se estiman los coecientes las cotas superior e
inferior que limitan el modelo. En la gura E.7 se muestran dichas cotas

Figura E.7: Cotas Superior e Inferior del Modelo.

Usando éstas estimaciones, se propone una función intervalo-valuada que encierra la


volatibidad de las medidas usando series de Fourier para describir las funciones supe-
rior e inferior; esto es, se propone una función intervalo-valuada f : R → I dada por
f (x) = [f L (x), f U (x)], donde la funciones que acota inferiormente está dada por:

n
X
L
f (x) = aL0 + aLi cos(iwL x) + bLi sin(iwxL )
i=1

y la función que acota superiormente está dada por:

n
X
U
f (x) = aU0 + aUi cos(iwU x) + bUi sin(iwxU )
i=1

Figura E.8: Gráca Intervalo-Valuada del Modelo de Fourier Estimado.


128 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

En la gura E.8 se muestra la rma acústica estimada junto con las cotas superior e
inferior. Es importante notar que la estimación utiliza únicamente información con las
medidas máximas y mínimas en cada instante. Por lo tanto, la calidad de las estimaciones
obtenidas podrían haber sido igual de buenas como las presentadas en una situación
donde se tiene escasa información disponible. También es posible percibir una reducción
en el ruido de las señales proporcionadas por el modelo, que es importante con el n de
aproximar el comportamiento local del fenómeno.

E.1.6. Regresión Lineal Simple con datos Intervalos


En Gioia & Lauro (2005) se hace una extensión de la metodología de regresión lineal
simple al caso intervalo valuado. A continuación se muestran de manera general dichos
resultados.

X1I , Y1I X2I , Y2I · · · , XnI , YnI


  
Considere un conjunto de n pares , , , donde:

XjI = [xj , xj ], YjI = [y j , y j ], j = 1, 2 · · · , n.

El propósito de la propuesta es considerar todas las posibles combinaciones de pares


I I bI , βbI tales que:
ordenados (xi , yi ) con xi ∈ Xi y yi ∈ Yi y determinar los parámetros β0 1

Y I = βb0I + βb1I X I .

Para dicho propósito se consideran los conjuntos:

n
 
P


 (xi − x)(yi − y) 


i=1
βb1 = βb1 (x1 , · · · , xn , y1 , · · · , yn ) = n
P : xi ∈ XiI , yi ∈ YiI (E.1)
(xi − x)2

 

 
i=1

n o
βb0 = βb0 (x1 , · · · , xn , y1 , · · · , yn ) = y − βb1 x : xi ∈ XiI , yi ∈ YiI . (E.2)

Maximizando y minimizando las funciones E.1 y E.2, se obtienen los siguientes intervalos:

 
βb1I = mı́n βb1 , máx βb1 (E.3)
xi ∈XiI ,yi ∈YiI xi ∈XiI ,yi ∈YiI

 
βb0I = mı́n βb0 , máx β0 .
b (E.4)
xi ∈XiI ,yi ∈YiI xi ∈XiI ,yi ∈YiI

En Gioia & Lauro (2005) se muestran varios ejemplos utilizando esta metodología.
E.1 Regresión Lineal con Datos de Intervalos 129

E.1.7. Regresión de Polinimios con Datos Intervalos


En la subsección E.1.5 se hace una primera extensión de la metodología de regresión por
mínimos cuadrados ordinarios en el caso de variables explicativas en el conjunto de los
números reales R y variable respuesta intervalo. Dicha extensión se hizo utilizando la mé-
1
trica inducida en I por la norma L ; esto es, por medio de la distancia Hausdor en I . La
intención ahora es extender dichos conceptos considerando tanto las variables explicativas
como la respuesta de tipo intervalo.

X1I , Y1I X2I , Y2I · · · , XnI , YnI


  
Considere un conjunto de n pares , , , donde:

XjI = [xj , xj ], YjI = [y j , y j ], j = 1, 2 · · · , n.

El propósito es determinar los parámetros βb0I , βb1I , · · · , βbpI tales que:

Y I = βb0I + βb1I X I + βb2I (X I )2 + · · · + βbpI (X I )p + ε,

con (X I )k = X I (X I )k−1 donde k = 2, · · · , p. Dicho propósito se logra resolviendo el


problema de optimización:

n
X
mı́n dH (YiI , YbiI ).
i=1

E.1.8. Regresión Lineal Múltiple con Datos de Intervalos


El objetivo de la regresión lineal múltiple con datos de intervalos, es construir un modelo
I
que relacione una variable dependiente de tipo intervalo Y con un conjunto de variables
I I I
explicativas de tipo intervalo X1 , X2 , · · · , Xp . La relación de tipo lineal mencionada está
dada por:

Y I = βb0I + βb1I X1I + βb2I X2I + · · · + βbpI XpI + ε (E.5)

De manera análoga a la regresión de polinomios con datos intervalos, la estimación de los


bI , βbI , · · · , βbI , se logra resolviendo el problema de optimización:
parámetros β 0 1 p

n
X
mı́n dH (YiI , YbiI ).
i=1
130 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

E.2. Análisis de Componentes Principales con Datos de


Intervalos
A continuación se muestra la extensión del análisis de componentes principales al caso
I
intervalo-valuado Federica & Carlo (2006). Considere una multimatriz X sobre el con-
I I I I
junto In×p (R) cuyas columnas son los multivectores X1 , X2 , · · · , Xp , con Xj dada por

XjI = Xij = [xij , xij ] i para i = 1, 2, · · · , n. Se tiene entonces que:




 
[x11 , x11 ] [x12 , x12 ] [x13 , x13 ] · · · [x1p , x1p ]
 [x , x21 ] [x , x22 ] [x , x23 ] · · · [x , x2p ] 
 21 22 23 2p
XI = 

. . . . .
. . . .. .

 . . . . 
[xn1 , xn1 ] [xn2 , xn2 ] [xn3 , xn3 ] · · · [xnp , xnp ]

Se supone que las variables intervalo-valuadas son estandarizadas previamente (Ver apén-
dice Federica & Carlo (2006)). Se sabe que la metodología de regresión por componentes
principales resuelve el problema de determinar m≤p ejes uα para α = 1, 2, · · · , m tales
que resuelven el problema de optimización:

máx uTα X T Xuα


(
uTα uβ = 0 α 6= β (E.6)
s.a
uTα uβ = 1 α = β
donde X ∈ Rn×p es una matriz de orden n×p y entradas reales. El problema de optimi-
zación E.6 se puede reducir al problema de eigenvalores y eigenvectores:

X T Xuα = λuα , 1 ≤ α ≤ m. (E.7)

Cuando los datos son del tipo intervalo, se tiene que el problema E.7 se convierte en el
siguiente problema de eigenvalores y eigenvectores:

(X I )T X I uIα = λI uIα , 1 ≤ α ≤ m, (E.8)

cuyas soluciones de intervalo están dadas por:

λα (Z) : Z ∈ (X I )T X I , uα (Z) : Z ∈ (X I )T X I , α = 1, 2 · · · , m.
   
(E.9)

Los intervalos dados en E.9 pueden ser calculados por medio del teorema C.4.1. El proble-
ma E.8 se puede resolver mediante el álgebra de intervalos, teniendo en cuenta que pueden
encontrarse intervalos de gran tamaño. La primera idea que se presenta para resolver el
I
problema E.8 es tomar cualquier matriz X ∈ X y resolver el problema E.7; sin embargo,
este camino es bastante lento computacionalmente. Para resolver el problema E.8 de una
manera más directa, se considera la siguiente relación:

(X I )T X I = XY : X ∈ (X I )T , Y ∈ X I ⊃ X T X : X ∈ X I
 
(E.10)
E.2 Análisis de Componentes Principales con Datos de Intervalos 131

I T I
esto signica que en la multimatriz (X ) X están contenidas matrices que no tienen la
T
forma X X . Esto implica que los eigenvalores y eigenvectores del problema E.8 son de
gran tamaño. Dicho inconveniente se resuelve considerando el conjunto:

ΘI = X T X : X ∈ X I .


Para calcular los eigenvalores y eigenvectores del conjunto ΘI , se puede utilizar el teorema
C.4.4. Debe tenerse en cuenta que cuando las hipótesis del teorema C.4.4 no se satisfacen,
se puede utilizar el teorema C.4.1.

A partir de la denición D.0.5, denote por ΓI ,


la matriz de correlaciones donde la com-
I I I I
ponente ij -ésima de dicha matriz es la correlación entre Xi y Xj . Se tiene que Θ ⊂ Γ
I
(Federica & Carlo (2006)); esto es, se tiene que los eigenvalores y eigenvectores de Γ pue-
I
den ser de gran tamaño en relación a los eigenvalores y eigenvectores de Θ . El concepto
de ortogonalidad entre multi vectores se da en la siguiente denición.

Denición E.2.1. Sean uIα y uIβ dos multi vectores. uIα y uIβ son ortogonales si y sólo si
para todo uα ∈ uIα tal que uTα uα = 1, se tiene que existe uβ ∈ uIβ tal que α 6= β y uTβ uβ = 1,
que satisface uTα uβ = 0.

Como se dijo en el capítulo 3; en el caso clásico, el porcentaje de variabilidad total que


recoge el componente principal α-ésimo está dado por:

λα
p .
P
λj
j=1

En el caso intervalo valuado, se tiene que el porcentaje de variabilidad total que recoge
cada componente principal intervalo valuado está dado por:

 
 λα λα 
, .
 
 Pp Pp
λα + λj λα + λj
 
j=1,j6=α j=1,j6=α

Por otro lado, considere el conjunto:

(ΘT )I = XX T : X ∈ X I ;


donde se utiliza el teorema C.4.4 si la matriz (X T )I satisface las condiciones de dicho


teorema. De lo contrario, se pueden calcular los autovalores y autovectores de la matriz
T I T I
estandarizada dada en la denición D.0.7. Debe tenerse en cuenta que (Θ ) ⊂ (SS ) ,
por tal razón los eigenvalores y eigenvectores calculados pueden ser de gran tamaño.
132 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

En el caso clásico, se sabe que una matriz y su transpuesta tiene los mismos eigenvalores y
su autovectores están conectados por una relación particular. En el caso intervalo valuado
I I I I I I
se tiene que si λ1 , λ2 , · · · , λp son los eigenvalores de Θ con eigenvectores u1 , u2 , · · · ,
I I T I I I
up y también son los eigenvalores de (Θ ) con eigenvectores v1 , v2 , · · · , vp , entonces
T I I I
tomando un eivenvector de alguna X X ∈ Θ y vα ∈ vα ; se tiene que existe uα ∈ uα tal
que:

uα = kα X T vα

donde kα es una constante que se introduce por la condición de norma unitaria del vector
X T vα .

A partir de la teoría clásica de regresión por componentes principales, se sabe que el α-


ésimo componente principal cα de una matriz X ∈ Rn×p se puede calcular por medio de
una de las dos siguientes maneras:

1. Multiplicando la matriz X por el α-ésimo vector propio uα .


2. Multiplicando la raíz cuadrada del eigenvalor λα por el eigenvector vα .

De manera análoga, el α-ésimo componente principal cIα de una matriz X I ∈ In×p (R) se
puede calcular por medio de una de las dos siguientes formas:

1. cIα = X I uIα .
2. cIα =
p
λIα vαI .

Si se denota por UI la matriz cuya α-ésima entonces de


columna es el eigenvector uIα ,
I I
manera matricial se calculan las componentes principales por medio de la relación X U .

De esta manera, se ha mostrado como se utiliza el análisis de componentes principales


cuando se tienen datos de intervalo. Si bien el cálculo de valores y vectores propios está
basado en teoremas, existen actualmente algoritmos numéricos que permiten llevar a ca-
bo los cálculos de una manera más sencilla (Hladik Et al. (2008), Hladik Et al. (2009),
Hladik, Et al. (2011), Stoyanov (2014), Rhon (1993)).

E.2.1. Metodología de Regresión por Componentes Principales


con Datos de Intervalos
Utilizando los elementos desarrollados en Federica & Carlo (2006) y la metodología de
regresión lineal múltiple con datos intervalos propuesta en E.1.8, se propone a continuación
la metodología de regresión por componentes principales con datos de intervalo. Considere
I
una variable dependiente de tipo intervalo Y y un conjunto de variables explicativas de
I I I
tipo intervalo X1 , X2 , · · · , Xp , que presentan multicolinealidad.
E.3 Regresión P LS con datos de Intervalos 133

1. Se utiliza el análisis de componentes principales desarrollada en Federica & Carlo


I I I
(2006) y se calculan las componentes principales C1 , C2 , · · · , Ck que recogen la
mayor variabilidad.

2. Con las componentes principales calculadas en el punto 1, se utiliza la metodología de


regresión lineal múltiple con datos intervalos propuesta en E.1.8; esto es, se estiman
los los parámetros βbI , βbI , · · · , βbI tales que:
0 1 k

Y I = βb0I + βb1I C1I + βb2I C2I + · · · + βbkI CkI + ε (E.11)

Como sucede en el caso clásico, la metodología de regresión por componentes principa-


les con datos intervalos, solo tiene en cuenta las variables explicativas para resolver el
problema de multicolinealidad. De ésta manera entonces, tiene sentido pensar en una me-
todología de regresión que resuelva el problema de la multicolinealidad pero teniendo en
cuenta la variable respuesta. Dicha metodología se lleva a cabo en la siguiente sección.

E.3. Regresión P LS con datos de Intervalos


El propósito de la presente sección es extender la metodología de regresión por mínimos
cuadrados parciales P LS sobre espacios euclídeos, al caso de metodología de regresión por
mínimos cuadrados parciales P LS con datos de intervalo. Como se menciona en el apéndi-
ce C, el conjunto de intervalos I no es un espacio vectorial; sin embargo se puede embeber
(Fernandez (2008)) en un espacio vectorial usando el teorema de Rådström (1953) . De
esta manera se extiende la metodología de regresión P LS sobre un espacio no Euclídeo.
La extensión de la metodología P LS al caso intervalo-valuado se presenta de manera teó-
rica; resultados numéricos con datos reales y simulados se presentarán en trabajos futuros.

I I
Considere dos multi matrices X y Y , cuyos datos en las las provienen de n indivi-
I I
duos u objetos, donde X contiene la información de p características y Y describe q
propiedades. El objetivo es determinar una relación lineal:

Y I ≈ XI B I

En lugar de determinar esta relación directamente, se tiene que tanto XI como YI son
modelados mediante variables latentes en base a los modelos de regresión:

XI = TI (PI )T + EIX y YI = UI (QI )T + EIY ,

donde a relación entre los scores está dada por:

UI = TI DI + EI .
134 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.

A partir de las subsecciones E.1.1, E.1.2, E.1.3 y E.1.4, se extiende de manera natural la
metodología de regresión por mínimos cuadrados parciales P LS al caso intervalo-valuado.
De ésta manera se da lugar a los siguientes métodos cuando hay presencia de multicoli-
nealidad en el caso intervalo-valuado.

1. Método del centro para la metodología P LS con datos de intervalo.

2. Método del centro y el rango para la metodología P LS con datos de intervalo.

3. Método bivariante del centro y el rango para la metodología P LS con datos de inter-
valo.

1. Método restringido para la metodología P LS con datos de intervalo.

Estas metodologías son una propuesta inicial para resolver el problema intervalo-valuado;
sin embargo su principal inconveniente es que botan la información de los intervalos desde
el principio.

A continuación se propone la metodología de regresión por mínimos cuadrados parciales


con datos de intervalos; donde la información de los intervalos no se bota en principio.

E.3.1. Algoritmo Kernel para P LS con Datos intervalo.


I I
Por razones técnicas, se utilizan otros vectores de cargas, w para los x -variables y
I I I I I I I I
c para las y -variables; esto es t = X w y c = Y c . De manera análoga a la
metodología clásica expuesta en la sección 3.5, se tiene que:

1. w1I es el eigenvector asociado al eigenvalor más grande de (XI )T YI (YI )T XI .

2. cI1 es el eigenvector asociado al eigenvalor más grande de (YI )T XI (XI )T YI .

Los scores de las de las direcciones encontradas son las proyecciones

1. tI1 = XI w1I .
2. uI1 = YI cI1 .

Se tiene además que:

1. La variable latente pI1 es calculada en relación al modelo XI = TI (PI )T , utilizando


la metodología de regresión lineal múltiple con datos intervalos propuesta en E.1.8.

2. La variable latente qI1 es calculada en relación al modelo YI = UI (QI )T , utilizando


la metodología de regresión lineal múltiple con datos intervalos propuesta en E.1.8.
E.3 Regresión P LS con datos de Intervalos 135

A partir de las variables latentes tI1 , pI1 , uI1 y qI1 ; se construyen las matrices desinadas
XI1 y Y1I , dadas por:

XI1 = XI tI1 (pI1 )T , Y1I = YI uI1 (qI1 )T .


I I I
Utilizando las matrices X1 y Y1 , se tiene que w2 es el eigenvector asociado al eigenvalor
I T I I T I I
más grande de (X1 ) Y1 (Y1 ) X1 . De manera análoga, c2 es el eigenvector asociado al
I T I I T I
eigenvalor más grande de (Y1 ) X1 (X1 ) Y1 .

I I I I I I
El proceso continúa de manera análoga y se calculan w1 , w2 , · · · , wa y c1 ,c2 ,· · · , ca o de
I I
manera compacta, las matrices W y W . De manera análoga a la expuesta en la sección
3.5, se propone:

−1
BI = WI (PI )T WI (CI )T ,

donde la inversa de una multimatriz se calcula según Rhon (2011).

E.3.2. Algoritmo NIPALS para P LS con Datos Intervalo.


A continuación se muestra una versión del algoritmo NIPALS para P LS con datos in-
tervalo, con los principales pasos. Si se quiere calcular la primera componente P LS se
procede así:

1. Inicialice uI1 , por ejemplo, con la primera la de la matriz YI .


2. Calcule w1I resolviendo XI = uI1 (w1I )T .
3. tI1 = XI w1I .
4. Calcule cI1 resolviendo YI = tI1 (cI1 )T .
5. (u∗1 )I = YI cI1 .
6. ∆uI = dH ((u∗1 )I , uI1 ).
7. Si ∆uI < ε, entonces pare; sino uI1 = (u∗1 )I y vuelva al paso 2.
8. Calcule pI1 resolviendo XI = tI1 (pI1 )T .
9. Calcule qI1 resolviendo YI = uI1 (qI1 )T .
10. Calcule dI1 resolviendo uI1 = tI1 (dI1 )T .
14. XI1 = XI tI1 (pI1 )T y Y1I = YI dI1 t1 (cI1 )T

Finalmente se tiene que:

−1
BI = WI (PI )T WI (CI )T .
136 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.
Bibliografía

Alefeld, G.; Hersberger, J.(1983), Introduction to interval computations. Academic Press.

Arsigny, V., Fillard, P., Pennec, X., Ayache, N. (2006), Log-euclidean metrics for fast and
simple calculus on diusion tensors. Magnetic Resonance in Medicine. 56. 411-421.

Auslander, L., MacKenzie, R.E (1963), Introduction to dierentiable manifolds. McGraw-


Hill. New York.

Banks, H. T. , Jacobs, M. Q. (1970), A dierential calculus for multifunctions. Journal


of Mathematical Analysis and Applications. 29. 246-272.

Billard, L.; Diday, E. (2000), Regression Analysis for Interval-Valued Data. Data
analysis, Classication, and Related Methods. eds. H.A.L. Kiers, J.-P. Rassoon,
P.J.F.Groenen, and M. Schader, Springer-Verlag, Berlin. 369-374.

Billard, L.; Diday, E. (2007), Symbolic Data Analysis: Conceptual Statistics and Data
Mining. Wiley, Chichester. 295-306.

Boothby, W.M. (1986), An introduction to dierentiable manifolds and Riemannian


geometry. Academic Press.

Chikuse,Y. (2003), Statistics on special manifolds. Springer-Verlag. New York.

Cummins, D., Andrews, C.W. (1995), Iteratively reweighted partial least squares: A
performance analysis by Monte Carlo simulations. J.Chemon. 9. 489-507.

De Carvalho, F., Neto, E., Tenorio, C. (2004), A New Method to Fit a Linear Regression
Model for Interval-valued Data, Springer-Verlag, Berlin. 295-306.

137
138 BIBLIOGRAFÍA

De Carvalho, F., Neto, E., Tenorio, C. (2005), Applying constrained linear aggression
models to predict interval-valued data. Springer-Verlag,Berlin. 92-106.

De Carvalho, F., Neto, E. (2010), Constrained linear regression models for symbolic
interval-valued variables. Computational Statistics and Data Analysis. 54(2).
333-347.

De Jong, S. (1993), SIMPLS: An alternative approach to partial least squares regression.


J.Chemom. Intell. Lab.Syst. 18. 251-263.

Deif, A.S. (1991), Singular values of an interval matrix. Linear Algebra and its Applica-
tions. 151. 125-133.

Deif, A.S., Rohn, J. (1994), On the invariance of the sign pattern of matrix eigenvectors
under perturbation. Linear Algebra and its Applications. 196.63-70.

Docarmo, M. (1992), Riemannian geometry. Birkhauser.

Fang, K.T. and Zhang, Y.T (1990), Generalized multivariate analysis. Springer-Verlag.
Berlin Heidelberg.

Federica, G.; Carlo, N. (2006), Principal components analysis on interval data. Compu-
tational Statistic. 21. 343-363

Fernandez, J.P (2008), Optimización multi-objetivo intervalo valuada. Thesis of Master.


Universidad EAFIT.

Forstner, W., Moonen, B. (1999), A metric for covariance matrices. In Friedhelm Krumm
und Volker S. Schwarze, editor, Quo vadis geodesia. Department of Geodesy and
Geoinformatics,Stuttgart University. 113-128.

Gallego-Posada, J.D; Puerta-Yepes, M.E. (2015), Interval Analysis and Optimization


Applied to Parameter Estimation under Uncertainty. Preprint.

Geladi, P., Kowalski, B. (1986), Partial least-squares regression: A tutorial. Elsevier.


185. 1-17.
BIBLIOGRAFÍA 139

Gil,J., Romera, R. (1998), On robust partial least square (PLS) methods. J.Chemon. 12.
365-378.

Gioia, F.; Lauro, C. (2005), Basic Statistical Methods for Interval Data. Statistica
Applicata. 17. In press

Grant, M.; Boyd, S. (2000), Graph implementations for nonsmooth convex programs
Recent Advances in Learning and Control, Springer-Verlag, Limited.

Gupta, A.K., Nagar, D.K. (2000), Matrix variate distributions. Chapman and Hall/CRC..
Boca Raton, Florida.

Hardy, G. (1916), Weierstrass non-dierentiable function. Transactions of the American


Mathematical Society, 17, 301.

Hastie, T. (2001), The elements of statistical learning. Springer. New York.

Helgason, S. (1978), Dierential geometry, Lie groups, and symmetric spaces. Academic
press.
Helland, I. (2001), Some theoretical aspects of partial least squares regression. Elsevier.
58. 97-107.

Hausdor (1914), Grundzuege der mengenlehre. Leipzig: Veit and Company.

Hladik, M, Daney, D, Tsigaridas, E. (2008), An Algorithm for the Real Interval Eigenva-
lue Problem. Institut National of de Recherche en Informatique et en Automatique,
6680, 1-28.

Hladik, M, Daney, D, Tsigaridas, E. (2009), Bounds on eigenvalues and singular values


of interval matrices.Institut National of de Recherche en Informatique et en
Automatique, 1234, 1-18.

Hladik, M, Daney, D, Tsigaridas, E.(2011), Characterizing and approximating eigenvalue


sets of symmetric interval matrices. Computers and Mathematics with Applications,
62, 3152-3163.
140 BIBLIOGRAFÍA

Hoerl, A., Kennard, R. (1970), Ridge regression: Biased estimation for nonorthogonal
problems. Techonometrics. 12.55-67.

Hoeskuldsson, A. (1998), PLS regresion methods. J.Chemom. 2. 211-228.

Huang, Z., Wang, R., Shan, S., Li, X. and Chen, X. (2015), Log-Euclidean metric learning
on symmetric positive denite manifold with application to image set classication.
Preprint.

Jhonson,R.A., Wichern, D.W. (2002), Applied multivariate statistical analysis. Prentice


Hall, Upper Saddle River. NJ.

Lee, J.M. (1977), Riemannian manifolds: An introduction to curvature.

Li, Y. (2009), RADTI: Regression analysis of diusion tensor images. Medical imaging.
7259.
Lindgren, F. (1993), The Kernel algorthm for P LS . J.Chemom. 7. 45-59.

Manne, R. (1987), Analysis of two partial least sqares algorithms for multivariate
calibration. J.Chemom. Intell. Lab.Syst. 2. 187-197.

Milnor, J.W. (1963), Morse Theory. Princeton university press.

Milnor, J.W. (1997), Topology from the dierentiable viewpoint. Princeton university
press.

I.CVX Research (2012), CVX: Matlab software for disciplined convex programming,
version 2.0. http://cvxr.com/cvx.

Moore, R, Baker, R, Claud, M (2009), Introduction to Interval Analysis. Society for


Industrial and Applied Mathematics, Philadelphia.

Munkres, J.R (1975), Topology: A rst course. Prentice-Hall.

Neto, E.A, De Carvalho, Tenorio, C. (2004), Univariate and Multi-variate Linear


Regression Methods to Predict Interval-valued Features, Springer-Verlag, Berlin.
526-537.
BIBLIOGRAFÍA 141

Neto, E, De Carvalho, Tenorio, C.(2005), Applying Constrained Linear Aggression


Models to Predict Interval-Valued Data, Springer-Verlag,Berlin. 92-106.

Rådström, H. (1953), An embedding theorem for spaces of convex sets. American


MAthematical Society, 3, 165-169.

Rhon, J. (1993), Interval Matrices: Singularity and Real Eigenvalues. Society for Indus-
trial and Applied Mathematics, 14, 82-91.

Rhon, J. (2011), Inverse Interval Matrix: A Survey. Electronic Journal in Linear Algebra,
22, 704-719.

Rohn, J. (1993), Interval matrices: singularity and real eigenvalues. SIAM J, Matrix Anal
Apply. 14. 82-91.

Schwartzman, A. (2006), Random ellipsoids and false discovery rates: Statistics for
diusion Tensor imaging data. Standford University. Ph. D Thesys.

Spivak, M. (1999), A comprehensive introduction to dierential geometry. Publish or


Perish. 1,2,3,4,5.

Storn, R., Price, K. (1997), Dierential evolution-a simple and ecient heuristic for global
optimization over continuous spaces. Jornal of Global Optimization, 11, 341-359.

Stoyanov (2014), Eigenvalues of Symmetric Interval Matrices. Thesis of Master. Charles


University in Praga.

Tibshirani, R. (1996), Regression shrinkage and selection via the lasso. Royal Statistics
Society. 58. 267-288.

Valencia, L., Diaz, F., Calleja, S. (2003) Regresión PLS en las Ciencias Experimentales.
Línea 300.
Wakeling, I.N, Mace, H.J. (1992), A robust PLS procedure. J.Chemom. 6. 189-198.

Wold, H. (1975), Soft Modeling by Latent Variables; The Non-linear Iterative Partial
Least Squares Approach. Perspectives in Probability and Statistics, , 1-2.
142 BIBLIOGRAFÍA

Wold, H. (1985), Partial Least Squares. Encyclopedia of Statistical Sciences, 6, 581-591.

Wold, H. (2001), Personal Memories of the early P LS Development. Chemometrics and


Intelligent Laboratory Sistems, 58, 109-130.

Wold, H. (1982), Estimation of Principal Components and Related Models by Iterative


Least Squares. In Krishnaiah, P(ed.), Multivariate Analysis, Academic Press. New
York. 391-420.

Wold, S, Albano, C, DunnIII,J, Edlund, U, Esbensen, K, Geladi, P, Hellberg, S,


Johansson, E, Lindberg,W Multivariate Data Analysis in Chemestry,
(1984),
in Chemometrics, Mathematics and Statistics in Chemestry. Reidel Publishing
Company. Dordrecht. 17-18.

Wu, H.C. (2007), The Karush-Kuhn-Tucker optimality conditions in an optimization


problem with interval-valued objective function. European Journal of Operational
Research. 176.46-59.

Wu, H.C. (2007), On interval-valued nonlinear programming problems. Journal of


Mathematical Analysis and Applications. 5.299-316.

Wu, H.C. (2007), Wolfe duality for interval-valued optmization. Journal of Mathematical
Analysis and Applications. 138. 497-509.

Zhu, H., Chen, Y., Ibrahim, J., Li, Y., Hall, C., Lin, W. (2009), Intrinsic regression models
for positive-denite Matrices with applications to diusion tensor imaging. Journal
of american Statistical Association. 104. 1203-1212.

S-ar putea să vă placă și