Documente Academic
Documente Profesional
Documente Cultură
Tesis o trabajo de grado presentada(o) como requisito parcial para optar al título de:
Magister en Ciencias-Estadística
Director:
Raúl Perez Agámez, PhD
Profesor Asociado.
Línea de Investigación:
Análisis Multivariado.
La regresión por mínimos cuadrados parciales (P LS) es una técnica de relación de va-
riables introducida por Wold (1972,1975,1985), Wold (1972), Wold (1985) y extendida
posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold
(2001). La regresión lineal múltiple ordinaria generalmente manipula variables controla-
bles o fácilmente medibles para predecir el comportamiento de otras variables y es usual
cuando las variables explicativas son pocas, cuando no existen problemas de multicoli-
nealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres
condiciones falla entonces la regresión lineal múltiple ordinaria no es ecaz. Por otro lado,
la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuan-
do el número de variables es demasiado grande se puede generar un modelo que ajuste
muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde
existen muchas variables explicativas, puede que existan pocas variables no observables
que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de
la regresión P LS es extraer estas variables latentes, recogiendo la mayor variación de las
variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la
mejor manera posible.
Actualmente existen datos que provienen de problemas reales y tales que no pertenecen
a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con
características especiales. Existen dos líneas en particular para abordar éste problema: la
primera es la geometría diferencial, que permite construir una variedad que transforma los
datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida
y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se
hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la
línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo
en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que
resulta de una relación de equivalencia entre los elementos del conjunto inicial.
ix
x
tales como regresión por componentes principales P CR, análisis y correlación canónico,
regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología
P LS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera
de trabajo futuro, se extiende la metodología de regresión P LS al caso donde tanto las
variables explicativas como las variables respuesta y los coecientes de regresión son del
tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve
tres problemas que se presentan con los datos de tipo real: en primer lugar problemas
de multicolinealidad tanto en las variables explicativas como en las variables respuesta,
en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y
por último problemas cuando la incertidumbre en los datos se representa por medio de
intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque
desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices
denidas positivas y el segundo enfoque desde la línea del embebimiento, en particular
sobre los conjuntos de multi-intervalos y multi-matrices.
Abstract
Partial least squares regression (P LS) is a method of relaiont of variables introduced by
Wold (1972,1975,1985), Wold (1972), Wold (1985) and later extended to the eld of che-
mometrics by his brother Wold Et al. (1984), Wold (2001). Regression generally handled
controllable variables or measurable variables easily to predict the behavior of other varia-
bles. The ordinary multiple linear regression is usual when the explanatory variables are
few, when there aren't problems of multicollinearity and when there is a clear relationship
between the variables. If any of these three conditions fails then ordinary linear regression
is not eective. Furthermore, multiple linear regression uses many explanatory variables,
but when the number of variables is too large can create a model that t the data very
well, but fails in predicting new data. In these cases, where there are many explanatory
variables, there may be few unobservable latent variables that reect the greater variabi-
lity in the response variable. The overall objective of the P LS regression is extract these
latent variables, collecting the greatest variation of the explanatory variables so that they
serve to model the response variable in the best way possible.
Actually there are data come from real problems such non-Euclidean space and thus must
be implemented methodologies for data with special characteristics. There are two lines in
particular to solve this problem: the rst line is dierential geometry for building a variety
that transforms and transports data to a Euclidean space where the multiple regression is
made and then again carries the date on no Euclidean space where the respective perfor-
mances with the results obtained are made. The second line is the line that allows you to
embedding the set, that is not a Euclidean space, on another Euclidean space by building
a cocient set resulting from an equivalence relation between the elements of the initial set.
In this work the regression methodology P LS is implemented and these methods are ap-
plied to a data type valued variety, including data related to images and evaluation of this
methodology is performed using appropriate evaluation criteria by comparing with other
classical Euclidean methodologies for data, which seek to implement the type Data used.
Methodology P LS regression compared to methodologies such as principal component
regression P CA, canonical correlation analysis and Regression or Ridge. P LS methodo-
logy is implemented in R to the type of data used in the work to make such comparisons
using simulated data and actual data, if possible. Furthermore, the methodology P LS
regression to the case where both the explanatory variables as the response variables
and the regression coecients are of the type interval extends. In this way a regression
methodology solves three problems encountered with actual data type is proposed: rst
multicollinearity in explanatory and response variables, second real data does not belong
to a Euclidean space and nally, problems when uncertainty in the data is represented by
intervals. Thus, this work presents two dierent approaches: the rst approach from the
line of Riemannian manifolds, in particular on the set of positive denite matrices and
xii
the second approach from the line of embedding, in particular on the sets of intervals and
multi multimatrices.
Agradecimientos vii
1. Introducción 3
2. Propuesta Inicial 7
2.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.5. Regresión P LS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
xiii
xiv CONTENIDO
Bibliografía 136
2 CONTENIDO
Capítulo 1
Introducción
La regresión por mínimos cuadrados parciales (P LS), por sus siglas en inglés, es una téc-
nica de relación de variables introducida en el año 1975 por Svante Wold, Hermand Wold y
Harald Martenes. El método de regresión P LS surgió con el n de resolver el problema de
la multicolinealidad en un modelo de regresión, entendiendo que ésta se presenta cuando
los coecientes de un modelo de regresión son estimados y hay un número relativamente
grande de variables explicativas, escritas de manera compacta mediante la matriz X, con
una relación de extrema dependencia entre ellas. El problema de multicolinealidad implica
que la estimación de coecientes puede ser insignicante a la variable explicada y esto
puede causar dicultades en la interpretación de la ecuación de regresión debido a que
los coecientes pueden tener signos inconsistentes. Cuando se presenta este problema, la
solución más directa es reducir la dimensionalidad de X, el conjunto de variables expli-
cativas. La pregunta inmediata es cómo llevar a cabo esta reducción. La respuesta por
lo general consiste en encontrar un conjunto de nuevas variables que se crean como una
combinación lineal de las originales de tal manera que el problema de multicolinealidad se
elimine. El método de los componentes principales ha sido ampliamente utilizado durante
muchos años y hasta hace poco era un punto de referencia entre las técnicas de reducción
de dimensionalidad. La aplicación del método de componentes principales se reere ge-
neralmente como regresión por componentes principales o (P CR), por sus siglas en inglés.
3
4 1 Introducción
la respuesta Y (dependiente).
Las dos técnicas, una basada en la regresión por componentes principales P CR y otra en
la regresión P LS , se comparan en la solución del problema de multicolinealidad en la esti-
mación de los parámetros de regresión. Tanto la regresión P LS como la P CR tienen como
uno de sus objetivos principales reducir la dimensionalidad y abordar así los problemas
que ocurren a menudo en grupos de variables explicativas que tienen alta multicolinea-
lidad. Sin embargo, las dos técnicas adoptan enfoques diferentes y por lo tanto obtienen
resultados diferentes. P CR establece la máxima variabilidad de las variables explicativas
y P LS X y Y. Es
propone hacer lo mismo, pero además tiene en cuenta la relación entre
decir, la regresión P LS estima los parámetros de regresión de modo que la varianza de Y
explicada por la correlación existente entre X y Y es máxima, o, lo que es equivalente,
que la varianza residual de las relaciones de predicción es mínima.
idea del potencial de este método en situaciones con muestras pequeñas. Los métodos de
regresión P LS son una poderosa herramienta de análisis debido a sus exigencias mínimas
en términos de escalas de medida, el tamaño de la muestra y la distribución residual. Una
de las grandes ventajas de la regresión P LS , es que no necesita de datos provenientes de
distribuciones normales o conocidas.
Propuesta Inicial
2.1. Objetivos
2.1.1. Objetivo general
Aplicar la metodología de regresión por mínimos cuadrados parciales (P LS ) a datos no
Euclídeos y evaluar las ganancias obtenidas desde el punto de vista estadístico al compa-
rarse con otras metodologías.
7
8 2 Propuesta Inicial
2.2. Metodología
Se inicia esta investigación con una búsqueda de información sobre todos los temas re-
lacionados que se proponen en el trabajo, además de las deniciones básicas que son
necesarias para la comprensión y contextualización de todo el contenido de éste. Basados
en los algoritmos existentes P LS1 y P LS2 con relación a datos sobre Espacios Euclídeos,
se propone la aplicación de dichos algoritmos a datos especiales que no pertenecen a un
Espacio Euclídeo. Además, basados en los algoritmos de regresión P LS y la extensión
existente de componentes principales con matrices de entradas intervalos, se extiende la
metodología de regresión P LS al caso intervalo-valuado, a manera de trabajo futuro. Por
último, se implementan los algoritmos en R y se compararan con otros ya existentes, tales
como: regresión por componentes principales, análisis y correlación canónico, regresión
Ridge y regresión Lasso.
Capítulo 3
9
10 3 Regresión Lineal Múltiple y PLS
y desventajas.
El problema de regresión lineal múltiple (M LR), por sus siglas en inglés, se puede es-
tablecer de la siguiente manera: las características se miden para m variables xj con
j = 1, 2, · · · , m y para una variable y con el objetivo de establecer una relación lineal (o
de primer orden) entre ellas. Esto se puede representar matemáticamente como:
m
X
y = β0 + β1 x1 + β2 x2 + · · · + βm xm + ε = β0 + βj xj + ε = xT β + ε.
j=1
Esta ecuación describe dependencias multilineales para una muestra con una sola obser-
vación. Si se tiene una muestra de n observaciones, los yi para i = 1, 2, · · · , n pueden
T
escribirse como un vector columna Y , β sigue siendo el mismo y los vectores, xi dados
T
por xi = (x1i , x2i , · · · , xmi ), son las las de la matriz X :
Y = Xβ + ε
1. m > n. Existen más variables que las observaciones. En este caso, hay un número
innito de soluciones para β.
ε = Y − Xβ = 0
3. m < n. Hay más observaciones que variables. Esto no permite una solución exacta para
β. Sin embargo, se puede obtener una solución, reduciendo al mínimo la longitud
del vector residual ε en la siguiente ecuación:
ε = Y − Xβ.
3.2 Componentes Principales 11
El método más popular para hacer esto, se llama el método de mínimos cuadrados. La
solución de mínimos cuadrados es:
β = (X T X)−1 X T Y.
Esta ecuación da una idea del problema más frecuente en M LR: la inversa de XT X pue-
de no existir. Colinealidad, determinante cero y singularidad son nombres para el mismo
problema.
En este punto, puede parecer que siempre tiene que haber por lo menos tantas observa-
ciones como variables, pero hay otras maneras de formular este problema. Una de ellas es
la de eliminar algunas de las variables en el caso m > n. Existen muchos métodos para
elegir qué variables eliminar.
En general, M LR es usual para una variable dependiente. Este es el caso que casi siempre
se encuentra en los libros. También, la mayoría de los paquetes de software ejecutan M LR
de esta manera. Es fácil de extender M LR para más variables dependientes. El ejemplo
dado a continuación es para dos variables, pero la extensión de más de dos variables es
análogo. Suponga que hay dos variables dependientes, Y1 y Y2 . En este caso, se puede
simplemente escribir dos M LR y encontrar dos vectores de coecientes, β1 y β2 :
Y1 = Xβ1 + ε1 ; Y2 = Xβ2 + ε2 .
Pero se puede poner Y1 y Y2 en una matriz de orden n×2 y hacer lo mismo para β1 y β2
y ε1 y ε2 . Así que se tiene:
Y = XB + E.
se crean como una combinación lineal de las originales de tal manera que el problema de
multicolinealidad se elimine.
Como se quiere maximizar la varianza, entonces una forma simple de elegir los coecientes
aijes maximizarlos. Por lo tanto, para mantener la ortogonalidad de la transformación se
T
a T
impone la restricción que la magnitud del vector i = (ai1 , ai2 , · · · , aip ) = 1; esto es, se
impone que:
p
X
aTi ai = a2ji = 1
j=1
a
La primera componente principal se calcula eligiendo 1 de modo que t1 recoja la mayor
T
a
varianza posible, sujeto a la restricción 1 a1 = 1. La segunda componente principal se
a
calcula eligiendo 2 de modo que la componente t2 recoja la mayor variabilidad posible
y esté incorrelacionada con la componente t1 . Del mismo modo se encuentran las compo-
nentes principales t3 , t4 , · · · , tp incorrelacionadas entre sí de modo que la varianza de ti
sea menor que la varianza de ti+1 .
3.2 Componentes Principales 13
∂L
= 2Σa1 − 2λI a1 = 0
∂ a1
de donde [Σ − λI]a1 = 0. Este último es un sistema de ecuaciones lineales, el cual por el
teorema de Rouché-Frobenius, tiene una solución distinta de cero siempre que la matriz
Σ.λI no sea invertible; esto es, siempre que el determinante de esta matriz sea cero. Al
considerar |Σ − λI| = 0 se concluye que λ es un valor propio de la matriz Σ. Ahora, la
matriz de covarianzas Σ es de orden p y si además se satisface que es denida positiva,
entonces se cumple que tiene p valores propios diferentes λ1 , λ2 , · · · , λp .
A partir de [Σ − λI]a1 = 0 se tiene que Σa1 = λI a1 , por lo tanto V ar[t1 ] = aT1 λI a1 ; esto
es V ar[t1 ] = λ. Se concluye que para maximizar la varianza de la componente t1 se tiene
que tomar el mayor valor propio λ y el correspondiente auto vector a1 asociado a λ.
esto es, se requiere queaT2 Σa1 = 0. Pero se sabe que Σa1 = λa1 , por lo tanto λaT2 a1 = 0,
de donde se puede concluir que a1 y a2 son ortogonales pues a1 a2 = 0. Por lo tanto, se
tiene que maximizar la varianza de t2 sujeta a las restricciones a2 a2 = 1 y a1 a2 = 0. Con
T T
el producto de una matriz formada por los vectores propios de Σ, multiplicada por el
vector x que contiene las variables originales x1 , x2 , · · · , xp . Esto es t = Ax, donde t
es un vector formado por las componentes principales y A es la matriz formada por los
vectores propios ai de Σ. Además la matriz de covarianzas de t es una matriz diagonal
donde guran en la diagonal los valores propios λ1 , λ2 , · · · , λp de Σ; denote esta última
por Λ. Se tiene entonces que:
Λ = V ar[t] = AT V ar[x]A = AT ΣA
Σ = AΛAT
A partir del teorema 3.2.1 se puede hablar del porcentaje de variabilidad total que recoge
un componente principal:
λi λi
p = p .
P P
λi V ar[xi ]
i=1 i=1
De la misma manera se puede hablar del porcentaje de variabilidad que recogen las m
primeras componentes principales, para m < p:
3.3 Análisis de Correlación Canónica 15
m
P
λi
i=1
Pp
λi
i=1
Las matrices X y Y son modeladas por variables latentes de acuerdo a los modelos de
regresión:
X = TPT + EX , Y = UQT + EY .
donde Corr denota el coeciente de correlación de Pearson. Las soluciones del proble-
ma de optimización 3.1 son los vectores de cargas pj y qj , para j = 1, 2, · · · , a, bajo el
supuesto de que los vectores scores están incorrelacionados; esto es Corr(tj , tk ) = 0 y
Corr(uj , uk ) = 0 para i 6= j . La correlación máxima resultante rj = Corr(tj , uj ), recibe
el nombre de j -ésimo coeciente de correlación canónica. En general, los vectores de car-
gas pj y qj , no son ortogonales.
para j = 1, 2, · · · , a. Los coecientes de correlación están en el intervalo [0, 1], donde 1 in-
dica una dirección en el x-espacio y una dirección en el y-espacio con una perfecta relación
lineal. Usualmente los eigenvectores son ordenados de acuerdo a eigenvalores decrecientes,
y el primer coeciente de correlación canónica mide la relación lineal máxima entre los
x-datos y los y-datos; el segundo coeciente de correlación canónica mide mide la máxima
relación lineal pero sólo entre las direcciones que conducen a scores no correlacionados, y
así sucesivamente.
n m
!2
X X
mı́n y i − β0 − xij βj
i=1 j=1 (3.2)
m
βj2 ≤ s
P
s.a :
j=1
n m
!2
X X
mı́n y i − β0 − xij βj
i=1 j=1 (3.3)
m
P
s.a : |βj | ≤ s
j=1
n m
!2 m
X X X
mı́n y i − β0 − xij βj + λR βj2 (3.4)
i=1 j=1 j=1
Por otro lado, el problema de optimización 3.3, se puede escribir de la siguiente manera:
n m
!2 m
X X X
mı́n yi − β0 − xij βj + λL |βj | (3.5)
i=1 j=1 j=1
Al resolver los problemas de optimización 3.4 y 3.5, se obtienen las estimaciones de los
coecientes de regresión βRβL , respectivamente. La única diferencia entre los problemas
y
2
de optimización 3.4 y 3.5, es que el primero usa la norma L para las penalizaciones y
1 2 1
el segundo usa la norma L . El uso de las normas L y L tiene consecuencias teóricas,
por ejemplo, en la metodología de regresión de Ridge, se tiene que la estimación de los
parámetros de regresión de Ridge βbR son una función lineal de la variable dependiente Y,
dado que el problema de optimización 3.4, puede escribirse como:
−1
βbR = X T X + λR I XT y (3.7)
3.5. Regresión P LS
El método original de regresión P LS fue introducido alrededor de 1975 por el estadístico
Herman Wold para un tratamiento de cadenas de matrices y aplicaciones en econometría.
Su hijo, Svante Wold y otros introducen la idea de regresión P LS en quimiometría; sin
embargo, la regresión P LS fue por largo tiempo desconocida por los estadísticos. Las ideas
originales de la regresión P LS fueron en principio heurísticas y sus propiedades estadísti-
cas un misterio. Posteriormente las propiedades estadísticas y matemáticas de la regresión
P LS son conocidas y dicha metodología toma fuerza en disciplinas como la quimiometría.
Como las componentes P LS son calculadas como variables latentes que tienen una al-
ta correlación con y, entonces generalmente el número óptimo de componentes P LS es
menor que el número óptimo de componentes principales. Un aspecto complicado de la
regresión P LS es el cálculo paso a paso de las componentes.
La regresión P LS con una sola variable respuesta recibe el nombre de P LS1. Cuando
hay mas de una variable respuesta, la regresión P LS recibe el nombre de regresión P LS2.
Existen algoritmos para este tipo de regresión y se ven con más detalle en posteriores
capítulos.
20 3 Regresión Lineal Múltiple y PLS
de donde λ =
a aT a a .
T
k ak kak
a xT y
w= = T
kak kx yk
3.5 Regresión P LS 21
• Forma 1
La primera forma consiste en restar para cada una de las variables su media y dividir
por la raíz cuadrada de la suma de los cuadrados de las desviaciones de su media:
1. yi[1] = s yi −ȳ
Pn
para i = 1, 2, · · · , n.
(yi −ȳ)2
i=1
xij −x¯j
2. x[1]
ij =
s
n
P
para i = 1, 2, · · · , n, j = 1, 2, · · · , p.
(xij −x¯j )2
i=1
• Forma 2
La segunda forma consiste en restar para cada una de las variables su media y dividir
por la raíz cuadrada de la suma de los cuadrados de las desviaciones de su media
dividido por n − 1:
1. yi[2] = s yi −ȳ
n
, para i = 1, 2, · · · , n.
(yi −ȳ)2
P
i=1
n−1
xij −x¯j
2. x[2]
ij =
s
n
, para i = 1, 2, · · · , n j = 1, 2, · · · , p.
(xij −x¯j )2
P
i=1
n−1
Las operaciones intermedias que hay que realizar para obtener los coecientes de regresión
dieren del tipo de normalización de los datos, pero los coecientes de regresión asociados a
[1] [1] [1]
las variables x1 , x2 , · · · , xp como resultado de la primera normalización y las variables
[2] [2] [2]
x1 , x2 , · · · , xp como resultado de la segunda normalización, son los mismos; esto es:
β̂ [1] = β̂ [2] . El resultado de esta armación puede verse en Valencia, L. (2003). Et al.
[2] [2]
t1 = w11 x1 + w12 x2 + · · · , w1p x[2]
p
p
P [2]
esto es: t1 = w1j xj donde:
j=1
n(n − A) 2
tA
i = T
A(n2 − 1) i
sigue una distribución de Fisher-Snedecor con grados de libertad para el A
2 2
numerador y n − A grados de libertad para el denominador, donde Ti es la T
de Hotelling de la observación i, calculando A componentes siendo igual a:
A
n X t2i,h
Ti2 = , i = 1, 2, · · · , n
n − 1 h=1 s2h
2
donde es el número total de individuos, kth k es la norma al cuadrado de la
n
2
componente h, sh es la varianza con división n − 1 de la componente h y ti,h
es el valor para la componente h de la observación i.
t2i,1 n2 t2i,1
n(n − 1) n
t1i = 2 =
n −1 n − 1 kt1 k2 n + 1 kt1 k2
−1
• Si tA
i,1 ≥ FF 1 (1 − α)se acepta la hipótesis que el individuo i es atípico.
n−1
−1
• Si tA
i,1 < FF 1 (1 − α) se rechaza la hipótesis que el individuo i es atípico.
n−1
[2]∗ [2]
y(1) = β̂1(1) t1
[2]
hy(1) ,t1 i √
[2] n−1
Donde, β̂1(1) se calcula a partir de
kt1 k2 que es igual a
kt1 k ry1(1)
[2]
,t1
.
[1] [2]∗
e1 = y(1) − y(1)
• Si
1∗
Fn−2 ≥ FF−11 (1 − α) entonces la componente explicativa es signicativa.
n−1
• 1∗
Si Fn−2 < FF−11 (1 − α) entonces la componente explicativa no es signi-
n−1
cativa.
[2]
1 [hy1 ,t1 i]2
−1
Donde Fn−2 = (n − 2) [2] y F 1 (1 − α) es la función inversa de
Fn−1
(n−1)kt1 k2 −[hy1 ,t1 i]2
la función de distribución de la variable aleatoria F de Fisher-Snedecor con 1
grado de libertad para el numerador y n−2 grados de libertad para el deno-
minador para un área de 1 − α.
p
[2]
X [2]∗ [2]
[2]
y = β̂1(1) t1 = β̂1(1) w1,j xj
j=1
Se busca construir una segunda componente t2 , que sea combinación lineal de las
xj , no correlacionada con la componente t1 y que explique bien el residuo. Esta
componente t2 es combinación lineal de los residuos e1,j de las regresiones de las
variables xj sobre la componente t1 .
cov(e1,j , e1 ) he1,j , e1 i
w2,j = s =s , j = 1, 2, · · · , p.
p
P p
P
cov 2 (e1,j , e1 ) (he1,j , e1 i)2
j=1 j=1
[2]∗ [2]∗
xj = α̂j t1 , j = 1, 2, · · · , p
donde las estimaciones de los coecientes de regresión han sido calculadas de
la siguiente forma:
[2] √
[2] hxj , t1 i n−1
α̂j = = r [2] , j = 1, 2, · · · , p
kt1 k2 kt1 k xj ,t1
[2]
Los residuales asociados a las rectas de regresión están dados por e1,j = xj −
[2]∗
xj para j = 1, 2 · · · , p
2.2 Detección de individuos atípicos para la segunda componente
Se hace de la misma manera que se hace con la componente t1
2.3 Regresión lineal simple de y12 sobre t2 y el test de signicación global
de la regresión.
Primero se busca la ecuación lineal de predicción estimada y luego se comprue-
ba si la regresión simple es signicativa.
[2]∗ [2]
y(1) = β̂2(1) t2 ,
[2]
hy(1) ,t2 i √
[2] n−1
donde, β̂2(1) se calcula a partir de
kt2 k2 que es igual a
kt2 k ry1(1)
[2]
,t2
.
[1] [2]∗
e2 = y(1) − y(1)
• El test de signicación global se hace igual que ocn la primera componente.
• Si tA
i(1−2) ≥ 1 entonces se acepta la hipótesis que el individuo i es atípico.
• Si tA
i(1−2) < 1 entonces se rechaza la hipótesis que el individuo i es atípico.
t2i,1 t2i,2
Donde tA
i(1−2) = 2
2(n −1)
+ 2
2(n −1)
kt k2 F −1
n2 (n−2) 1 2 (1−α) kt k2 F −1
n2 (n−2) 2 2 (1−α)
Fn−2 Fn−2
como las componentes t1 y t2 son ortogonales entonces rt1 ,t2 = 0 y por lo tanto
los dos estimadores se reducen a:
26 3 Regresión Lineal Múltiple y PLS
√ √
[2] n−1 [2] n−1
β̂1(2) = r [2] ; β̂2(2) = r [2]
kt1 k y2 t1 kt2 k y2 t2
y el residuo asociado a la línea de regresión está dado por:
• Si
2∗
Fn−3 ≥ FF−12 (1 − α) entonces las componentes t1 y t2 son signicativas.
n−3
• Si
2∗
Fn−3 < FF−12 (1 − α) entonces al menos una de las componentes t1 y t2
n−3
no es signicativa.
donde:
e∗1,j = α̂1,j
∗
t2 , j = 1, 2, · · · , p,
∗ he1,j , t2 i
α̂1,j = , j = 1, 2, · · · , p
kt2 k2
Primero se construyen las matrices X e Y donde X tiene columnas los vectores xi para
i = 1, 2, · · · , p y donde Y tiene columnas los vectores yk para k = 1, 2 · · · , q . Cada vector
xi y cada vector yk pertenece al espacio vectorial Rn y las matrices X y Y pertenecen
a los espacios vectoriales Rn×p y Rn×q respectivamente. Bajo este contexto, el algoritmo
P LS2, consiste en realizar proyecciones simultaneas de ambos espacios sobre hiperplanos
de más baja dimensión. Las coordenadas de los puntos en estos hiperplanos constituyen
los elementos de las matrices T y U.
En regresión P LS2 los datos en las las de las matrices X y Y provienen de n individuos
u objetos, y X contiene la información de p características y Y describe q propiedades.
Para utilizar una notación conveniente, se asume que las columnas de las matrices X y Y
están centradas a la media. El objetivo de la regresión P LS2 es determinar una relación
lineal
Y = XB + E
X = TPT + EX y Y = UQT + EY ,
uj = dj tj + hj
donde hj son los residuales y dj son los parámetros de regresión. Si la relación entre uj
y tj es fuerte ( si hj es pequeño) entonces los x-scores de la primera componente P LS
predicen bien y -scores y en consecuencia predicen bien y -datos. En la regresión P LS2 se
consideran varias componentes P LS , por lo tanto:
U = TD + H
donde D es una matriz diagonal en cuya diagonal principal están los elementos d1 , d2 , · · · , da
y H es la matriz residual cuyas columnas son hj . En la regresión P LS1, ésta ultima re-
lación se traduce en:
y = Td + h.
donde Cov denota la covarianza simple. Las soluciones de este problema de maximización
son los scores t1 y u1 . Los siguientes scores se calculan de manera similar utilizando la
misma función objetivo, pero deben adicionarse nuevas restricciones. Usualmente las nue-
T T
vas restricciones son la ortogonalidad de los previos scores; esto es, tj tk = 0 y uj uk = 0
para 1 ≤ j ≤ k < a. una estrategia alternativa es exigir la ortogonalidad de los vecto-
res de carga que conduce a scores no ortogonales y por lo tanto no correlacionados. Las
cargas ortogonales son obtenidas por ejemplo mediante vectores propios. Existen otros
algoritmos que permiten obtener scores no correlacionados y dado que cada vector score
adicional cubre nueva variabilidad, esto podría ser preferible para nes de predicción.
De acuerdo a 3.8 ambos vectores son tales que kXw1 k = 1 y kYc1 k = 1. Los scores de las
de las direcciones encontradas son las proyecciones t1 = Xw1 y u1 = Yc1 y ambos son
unitarios. La variable latente p1 es calculada mediante mínimos cuadrados ordinarios en
T
relación al modelo X = TP + EX por:
−1
pT1 = tT1 t1 tT1 X = tT1 X = w1T XT X
Los siguientes componentes P LS son obtenidos por el mismo algoritmo de la misma ma-
nera que se hizo con las primeras componentes, usando la matriz desinada X obtenida
después del cálculo de la componente anterior. El proceso termina cuando se calculan a
componentes.
uj = Ycj .
Las y -cargas qj son calculadas a partir del modelo de regresón Y = UQT + EY , de donde:
−1
qT1 = uTj uj uTj Y
Por último, para estimar los coecientes de regresión se puede mostrar Manne, R. (1987)
−1
B = W PT W CT
A continuación se muestra una versión del algoritmo NIPALS, con los principales pasos.
Si se quiere calcular la primera componente P LS se procede así:
3. w1 = w1
kw1 k
.
4. t1 = Xw1 .
5. c1 = Y T t1
tT
1 t1
.
6. c1 = c1
kc1 k
.
7. u∗1 = Yc1 .
8. u∆ = u∗1 − u1 .
9. ∆u = uT∆ u∆ .
10. Si ∆u < ε, entonces pare; sino u1 = u∗1 y vuelva al paso 2.
XT uj1
w1j+1 = .
(uj1 )T uj1
j
Ahora, considerando el paso 7. con u1 , reemplazando cj1 por los pasos 6 y 5, reemplazando
j j
t1 por el paso 4 y w1 por el paso 3, se obtiene:
donde la constante k depende de las normas de los diferentes vectores. Esta última ecua-
ción es un problema de eigenvalores, donde w1 es el eigenvector asociado al eigenvalor
T T
mas grande de la matriz X YY X. De manera similar puede mostrarse que:
cj+1
1 = YT XXT Ycj1 k.
32 3 Regresión Lineal Múltiple y PLS
Esto muestra que el algoritmo NIPALS está relacionado con el problema de optimización
3.8. Para las siguientes componentes P LS , el algoritmo NIPALS trabaja diferente al
algoritmo Kernel; sin embargo, los resultados coinciden. El método NIPALS requiere una
deación de las matrices X y Y y el el pseudocódigo continúa de la siguiente manera:
11. p1 = XT t1
tT
1 t1
.
12. q1 = Y T u1
uT
1 u1
.
13. d1 = uT
1 t1
tT
1 t1
.
−1
B = W PT W CT .
3. wj = wj
kwj k
.
4. tj = Xj wj .
yjT tj
5. cj = tT
j tj
.
XT
6. pj = j tj
tT
j tj
.
2.
−1 T
Si j = 1, Sj = S0 ; Si j > 1, Sj = Sj−1 − Pj−1 PTj−1 Pj−1 Pj−1 Sj−1 .
4. wj = wj
kwj k
.
5. tj = Xwj .
6. tj = tj
ktj k
.
7. pj = XTj tj .
8. Pj = [p1 , p2 , · · · , pj−1 ]
B = WTT Y.
y = Xβ + ε1 .
n
X
βbLS = argminβ (yi − xi β)2
i=1
y se sabe que es el estimador óptimo (en el sentido de tener la varianza más pequeña y
ser imparcial) si los términos de error ε1 siguen una distribución normal. Sin embargo, si
los términos de error vienen de otras distribuciones, por ejemplo, distribuciones de cola
pesada, LS pierde su optimalidad y otros tipos de estimadores se desempeñan mejor. Los
estimadores robustos más conocidos son los M-estimadores, que se obtienen mediante la
sustitución delos cuadrados mediante una función de pérdida ρ más general:
n
X
βbM = argminβ ρ (yi − xi β)
i=1
ρ(ri )
wir =
ri2
de donde se obtiene:
n
X
βbM = argminβ wir (yi − xi β)2
i=1
Y = TPT β + ε2 .
3.5 Regresión P LS 35
T
La idea es estimar de manera robusta los nuevos coecientes de regresión g = P β . Como
P r 2
se mencionó antes, la idea es minimizar wi yi − tTi gi con apropiados pesos residuales
wir = ρ(r
ri2
i)
. No sólo grandes residuos, sino también puntos de inuencia pueden echar a
perder la estimación de los coecientes de regresión, y por lo tanto se tienen que introducir
pesos adicionales para puntos de inuencia de bajo peso. Estos son objetos periféricos en
el espacio de las variables regresoras T, y los pesos resultantes asignados a cada objeto
t r t
ti se denotan por wi . Ambos tipos de pesos se pueden combinar mediante wi = wi wi , y
los coecientes de regresión g resultan maximizando la función objetivo:
n n
X 2 X √ √ 2
wi yi − tTi g = wi yi − ( wi ti )T g
i=1 i=1
Esto, sin embargo, signica que tanto los y-datos y los scores tienen que ser multiplicados
√
por pesos apropiados wi y entonces el procedimiento de mínimos cuadrados clásico se
pueden aplicar. En la práctica, los valores iniciales de los pesos se actualizan mediante un
algoritmo iterativo. La tarea pendiente es estimar robustamente los vectores score T que
T
se necesitan en la regresión anterior. Según el modelo de variable latente X = TP + EX ,
el vector score j -ésimo está dado por tj = Xpj , para j = 1, 2, · · · , a. Según la ecuación
3.8, los vectores de carga pj se obtienen de forma secuencial a través del problema de
maximización:
M axCovw (Xp, y)
sujeto a las restricciones kpk = 1 y Covw (Xp, Xpl ) = 0 para 1 ≤ l < j . Se tiene además
1
P
que Covw (u, y) = wi yi ui . Por lo tanto, las lrestricciones aseguran vectores de cargas
n
de longitud 1 que no están correlacionados con todos los vectores de carga previamente
determindados. Una vez que todos los vectores de carga han sido determinados, los scores
se calculan mediante la relación T = XP. Resolver el problema de regresión robusta,
T
implica los coecientes de regresión g = P β y los parámetros de regresión nales se
calculan mediante la relación β = Pg.
1 Se construyen las matrices X0 y Y0 que están conformadas por las variables centradas
y reducidas de las variables predictoras y respuesta respectivamente.
3. Se construye la regresión lineal simple tanto del conjunto de variables explicativas co-
mo del conjunto de variables a explicar sobre la componente t1 :
X0 = t1 pT1 + X1
Y0 = t1 qT1 + Y1 ,
X1 = t2 pT2 + X2
Y1 = t2 qT2 + Y2
X0 = t1 pT1 + t2 pT2 + X2
Y0 = t1 qT1 + t2 qT2 + Y2 ,
yk∗ = β̂k,0
∗ ∗
+ β̂k,1 ∗
x1 + β̂k,2 ∗
x2 + · · · + β̂k,p xp , para k = 1, 2, · · · , q
Se busca una componente que sea combinación lineal de las columnas de X0 de-
nominada t1 y otra componente que sea combinación lineal de las columnas de Y0
denominada u1 ; es decir, para t1 y u1 se tiene que:
t1 = X0 w1 , u1 = Y0 c1
Estas dos combinaciones lineales deben obtenerse de modo que Cov(t1 , u1 ) sea má-
xima.
X0 = t1 pT1 + X1
Y0 = t1 qT1 + Y1 ,
XT
0 t1
donde p1 = tT
es el vector de los coecientes de regresión sobre t1 para cada
1 t1
Y T t1
variable original independiente xi y q1 = T0 es el vector de coecientes de regresión
t1 t1
de t1 para cada variable original dependiente yk .
2.1. pT1 w1 = 1
2.2. q1 = b1 c1
2.3. tT1 X1 = 0
3. Determinación de las segundas componentes:
Se busca una componente que sea combinación lineal de las columnas X1 deno-
minada t2 y otra componente que sea combinación lineal de las columnas de Y1
denominada u2 ; es decir, para t2 y u2 se tiene que:
t2 = X1 w2 , u2 = Y1 c2
38 3 Regresión Lineal Múltiple y PLS
Estas dos combinaciones lineales deben obtenerse de modo que Cov(t2 , u2 ) sea má-
xima.
X1 = t2 pT2 + X2
Y1 = t2 qT2 + Y2
XT
1 t2
donde p2 = tT
es el vector de los coecientes de regresión sobre t2 para cada
2 t2
Y T t2
variable original independiente xi y q2 = T1 es el vector de coecientes de regresión
t2 t2
de t2 para cada variable original dependiente yk .
Se busca una componente que sea combinación lineal de las columnas de Xh−1
denominada th y otra componente que sea combinación lineal de las columnas de
Yh−1 denominada uh ; es decir, para th y uh se tiene que:
th = Xh−1 wh , uh = Yh−1 ch
Estas dos combinaciones lineales deben obtenerse de modo que Cov(th , uh ) sea má-
xima.
En Helland, I. (2001) se demuestra quewh es el vector propio de la matriz XTh−1 Yh−1 Yh−1
T
Xh−1
2
correspondiente al mayor vector propio θ1 de dicha matriz y que ch es el vector pro-
T T 2
pio de la matriz Yh−1 Xh−1 Xh−1 Yh−1 correspondiente al mayor vector propio θ1 de
3.5 Regresión P LS 39
dicha matriz.
Xh−1 = th pTh + Xh
Yh−1 = th qTh + Yh ,
XTh−1 th
donde ph = tTh th
es el vector de los coecientes de regresión sobre th para cada
T
Yh−1 th
variable original independiente xi y qh = tTh th
es el vector de coecientes de
En esta descomposición se deduce la regresión P LS2 de cada variable yk sobre las varia-
bles x1 , x2 , · · · , xp , por tanto:
A A
yk − y k X X
Y0,k = = qh,k th + FA,k = qh,k X0 + YA,k
Syk h=1 h=1
p A
X X xj − x
Y0,k = qh,k w
eh,j + YA,k
j=1 h=1
Sxj
40 3 Regresión Lineal Múltiple y PLS
Capítulo 4
Denición 4.1.1.
1. El conjunto formado por todas las matrices de orden p × p invertibles se denota por
GL(p).
41
42 4 Regresión PLS. Implementación
2. El conjunto formado por todas las matrices de orden p × p invertibles y simétricas con
entradas reales, que se denota por Sym(p) es el conjunto:
Sym(p) = {Y ∈ Rp×p : Y −1 Y = Ip , Y T = Y }.
3. El conjunto formado por todas las matrices de orden p × p denidas positivas, que se
denota por Sym+ (p) es el conjunto:
4. El conjunto formado por todas las matrices de orden p × p diagonales con entradas
reales, que se denota por Diag(p), es el conjunto:
5. El conjunto formado por todas las matrices de orden p × p diagonales con entradas
reales positivas, se denota por Diag + (p).
6. Sea X ∈ Rp×p . diag(X) es el vector columna de orden p × 1 formado por los elementos
de la diagonal de X y odiag(X) es el vector columna de orden p(p−1)
2
× 1 formado
por los elementos que están encima de la diagonal de X .
7. vecd(X) es el vector columna de orden p(p+1)
2
×1 que es la concatenación de los vectores
diag(X) y odiag(X).
En los siguientes teoremas se describen algunas de las propiedades que satisfacen las
matrices exponencial y logarítmica.
Teorema 4.1.1.
Sea Y una matriz de orden p × p.
1. Los conjuntos Sym(p) y Sym+ (p) son variedades diferenciables de dimensión p(p+1)
2
.
44 4 Regresión PLS. Implementación
2. Los espacios Sym(p) y Sym+ (p) están difehomorcamente relacionados por medio de
la matriz exponencial exp(.) y su inversa, la matriz logarítmica log(.).
3. El espacio tangente TI Sym+ (p) del espacio Sym+ (p) sobre la identidad Ip×p puede ser
identicado como una copia de Sym(p).
La acción de grupo en Sym+ (p) determina una acción de grupo similar entre el espacio
+
tangente en X y φG (X). Dado un vector tangente Y ∈ T anX Sym (p) en X y G ja, el
T +
mapa diferencial de φ está dado por dφG (Y ) = GY G ∈ TφG Sym (p). Si Y es simétrica
T
entonces GY G también es simétrica y el mapeo es uno a uno. Se puede concluir el
siguiente resultado.
Teorema 4.1.5. El espacio tangente TX Sym+ (p) en cada punto X puede ser identicado
con una copia de Sym+ (p).
p
La acción de grupo de puede verse como un cambio de coordenadas. Sea v ∈ R
GL(p)
T +
un vector aleatorio con media cero y covarianza X = E(vv ) ∈ Sym (p). Si las entradas
de v se consideran como coordenadas en un marco p-dimensional G ∈ GL(p), donde las
columnas gi de G son vectores referencia con coordenadas en una referencia Rp , entonces
las coordenadas de v en la referencia están dadas por:
ṽ = g1 v1 + g2 v2 + · · · + gp vp = Gv.
+
Se gira la variedad Sym (p) en una variedad Riemanniana deniendo en cada punto
+
en Sim (p) un producto interno que varía diferenciable a lo largo de la variedad. Se
consideran dos opciones. La primera es el producto interno de Frobenius para matrices
+
simétricas, obtenido con respecto a Sym (p) como un subconjunto del espacio euclidiano
Sym(p). Este producto interno da como resultado una variedad Riemanniana que es plana,
+
pero cuyas geodésicas, que son líneas rectas, son restringidas por las cotas de Sym (p)
como un subconjunto de Sym(p). La segunda es una versión a escala de la primera que es
invariante bajo la acción de grupo GL(p) y los resultados en una variedad Reimanniana
que es curva, pero cuyas geodésicas son enteramente contenida en la variedad.
hYM , ZM iM = tr(YM ZM )
Denición 4.1.5. Producto interno escalado de Frobenius.
donde los productos internos en la última línea son los productos internos estándar para
p(p+1)
los vectores en Rp y R 2 , respectivamente. El producto interno regular de Frobenius
también es constante, no depende del punto de aplicación particular, M. El producto
interno escalado de Frobenius, por otro lado, es constante en el sentido de que es invariante
bajo transformaciones lineales por la acción de grupo de GL(p).
Teorema 4.1.6. El producto interno escalado de Frobenius es una isometría bajo GL(p),
esto es, este es invariante bajo la acción de grupo de GL(p).
Los productos internos regulares y escalados Frobenius se relacionan entre sí por medio
de la acción de grupo determinado por el punto de aplicación M.
Teorema 4.1.7. Sean YM y ZM ∈ TM Sym+ (p) dos vectores tangentes en M y sea G ∈
GL(p) cualquier raíz cuadrada de M ; esto es M = GGT . Sean YI = φG−1 (YM ) y ZI =
φG−1 (ZM ) las traslaciones de la identidad de YM y ZM , respectivamente. Entonces:
+
Conceptualmente el punto M ∈ Sym (p) es una traslación de la identidad I por el grupo
T
de acción M = GIG . Por lo tanto, el producto interno escalado de Frobenius puede
ser calculado primero trasladando los vectores YM y ZM sobre el plano tangente de la
identidad y luego calcular allí el producto interno regular de Frobenius. Este resultado no
depende de la raíz cuadrada.
Las geodésicas son la analogía Riemanniana de líneas rectas sobre espacios Euclídeos en el
sentido que estas minimizan distancias en la variedad. Esto depende de la distancia en que
se mide; esto es, depende del producto interno Riemanniano. Equipado con el producto
+
interno regular de Frobenius, el conjunto Sym (p) visto como un subconjunto de Sym(p)
es un espacio Euclídeo, luego sus geodésicas son líneas rectas.
Teorema 4.1.8. Sea YM ∈ TM Sym+ (p) un vector tangente en el punto M ∈ Sym+ (p).
La geodésica que pasa por el punto M en la dirección del vector YM con respecto al producto
interno regular de Frobenius está dado por:
γM (t, YM ) = M + YM t; 0≤t≤δ
La restricción de que t no sea muy grande es para garantizar que la línea esté dentro de
Sym+ (p). El presente cálculo es difícil desde que se dependa de M y YM especícamente.
Es por ésta razón que toma sentido pensar las geodésicas como locales; esto es, son válidas
sólo en vecindades de M.
El producto interno escalado de Frobenius conduce a geodésicas que no exigen la restric-
ción anterior. Se comienza con las geodésicas sobre la identidad.
Teorema 4.1.9. Tome un vector tangente YI ∈ TI Sym+ (p) sobre la identidad. La curva:
es una geodésica en Sym+ (p) con respecto al producto interno escalado de Frobenius.
Este resultado indica que las geodésicas de Sym+ (p) sobre la identidad I son las imágenes
bajo la matriz exponencial de las geodésicas de Sym(p) sobre el origen 0, que son líneas
rectas.
Si un mapeo es isométrico; esto es, si si conserva el producto interno entre los vectores
tangentes mapeados, entonces las geodésicas mapearan geodésicas. Como el producto
interno escalado de Frobenius es una isometría con respecto a la acción de grupo, entonces
+
se usa este hecho para encontrar geodésicas sobre puntos en general de Sym (p).
Teorema 4.1.10. Sea YM ∈ TM Sym+ (p) un vector tangente en un punto M ∈ Sym+ (p).
La geodésica que pasa por M en la dirección de YM con respecto al producto interno
escalado de Frobenius está univocamente dado por:
4.1 Matrices Denidas Positivas. Geometría 47
donde G es alguna raíz cuadrada de M ; esto es, alguna G ∈ GL(p) tal que M = GGT .
Note que cuando M = I, se tiene que ExpM (YM ) = exp(YI ). Dado que la matriz ex-
ponencial es una función uno a uno entre los conjuntos Sym+ (p) y Sym(p), entonces
existe ExpM (p) para todo M. Este mapa tiene una inversa, llamado mapa Riemanniano
logarítmico. A continuación se dene dicho mapa.
Denición 4.1.7. Dadas dos matrices denidas positivas X, M ∈ Sym+ (p), el mapa
Riemanniano logarítmico LogM : Sym+ (p) → TM Sym+ (p) de X en relación con M con
respecto al producto interno escalado de Frobenius está dado por:
Las geodésicas tienen la propiedad de minimizar la longitud de la trayectoria que une dos
puntos en la variedad. En general, esta armación es cierta siempre y cuando los puntos
48 4 Regresión PLS. Implementación
no sean muy lejanos, ya que las geodésicas de diferentes longitudes pueden cruzarse. Sin
embargo, el mapa exponencial Riemanniano con respecto al producto interno regular o
escalado de Frobenius, es uno a uno, lo que implica que existe una única geodésica que
une los puntos de la variedad independiente de lo lejos que estén. De esta manera, tiene
sentido denir la distancia geodésica como la longitud del arco geodésico mas corto que
une los puntos sobre la variedad.
En el caso del producto interno regular de Frobenius, las geodésicas son lineas rectas y
+
por tanto la distancia geodésica entre dos puntos X, M ∈ Sym (p) se reduce a la distan-
2 2
cia Euclídea; esto es, kX − M k = tr(X − M ) . La distancia geodésica con respecto al
producto interno escalado de Frobenius, se obtiene como sigue.
Según el lemma de Gauss Docarmo, M. (1992) el diferencial del mapa exponencial de Rie-
mann es una isometría. Como una consecuencia se tiene que la longitud de la trayectoria
geodésica con respecto al producto interno escalado de Frobenius entre dos puntos X y
M puede ser medida en el espacio tangente de M como la longitud del vector tangente
Y = LogM (X) en TM Sym(p); esto es, d(M, X) = kY k.
La distancia geodésica d(., .) satisface las propiedades dadas en el siguiente teorema. Dicho
teorema garantiza que la distancia geodésica es una métrica.
1. d(A, B) ≥ 0.
2. d(A, B) = 0 si y sólo si A = B .
3. d(A, B) = d(B, A).
4. d(A, B) ≤ d(A, C) + d(C, B).
1. Sean λi (A, B) para i = 1, 2 · · · , p los valores propios conjuntos de A y B ; esto es, las
soluciones de det(λA − B) = 0 y sea Λ la matriz diagonal formada por esos valores
propios. Entonces:
v
u p
uX p
d(A, B) = t log 2 λi (A, B) = tr(log 2 Λ).
i=1
Denición 4.1.8. Sea Y ∈ Sym(p). Se dice que la matriz Y tiene una distribución
normal matriz variada vectorizada simetricamente con media M ∈ Sym(p) y covarianza
Σq×q ∈ Sym+ (q), donde q = p(p+1)
2
, si :
Σdiag Σdiag,odiag
Σ=
Σodiag,diag Σodiag
Denición 4.1.9. Sea Z ∈ Sym(p). Se dice que Z es una matriz simétrica normal
estándar Npp (0, Ip ) si su densidad es:
1 1 2
ϕpp (Z) = q exp − tr(Z )
(2π) w 2
p p p p
2
X X X X √
tr(Z ) = hZ, Zi = zii2 + zij2 = zii2 + ( 2zij )2
i,j=1 i<j i,j=1 i<j
1. E(Z) = 0.
4.1 Matrices Denidas Positivas. Geometría 51
2. 1q E(t(Z 2 )) = 1.
3. tr(Z 2 ) ∼ χ2q .
4. E(exp(tr(T Z))) = exp − 21 tr(T 2 ) , donde T ∈ Sym(p).
Y = GZGT + M
p+1
Usando el Jacobiano de la transformación se tiene que J(Z → Y ) = |G|−(p+1) = |GT G|− 2
Fang, K.T. and Zhang, Y.T (1990), de donde el Jacobiano y el exponente de la densidad
T +
de probabilidad dependen de G, a través de la matriz única G G = Σ ∈ Sym (p). Esto
conduce a la siguiente denición general.
Denición 4.1.10. Sea Y ∈ Sym(p). Se dice que Y tiene una distribución matriz simé-
trica normal variada Npp (M, Σ), donde M ∈ Sym(p) y Σ ∈ Sym+ (p), si tiene densidad:
1 1
exp − tr ((Y − M )Σ−1 )2
f (Y ; M, Σ) = q p+1
(2π) 2 |Σ| 2 2
Y = σZ + M
donde σ2 puede ser pensado como la varianza común de la matriz Y. Esto da lugar a la
siguiente denición.
Denición 4.1.11. Sea Y ∈ Sym(p). Se dice que Y tiene una distribución matriz simé-
trica normal variada Npp (M, σ2 ), donde M ∈ Sym(p) y σ > 0, si tiene densidad:
2 1 1 2
f (Y ; M, σ ) = q exp − 2 tr ((Y − M ))
(2π) 2 σ q 2σ
52 4 Regresión PLS. Implementación
Este es un caso especial de la denición 4.1.10 con Σ = σI . Para una matriz simétrica
que sigue una distribución normal variada se satisfacen las siguientes propiedades.
1. E(Y ) = M .
2. 1q E(tr((Y − M )2 )) = σ2 .
3. 1
σ2
tr((Y − M )2 ) ∼ χ2q .
Denición 4.1.12. Sea X ∈ Sym+ . Se dice que la matriz X tiene una distribución
matriz simétrica positiva vectorizada log normal variada con parámetros M ∈ Sym(p) y
Σq×q ∈ Sym+ (p), con q = p(p+1)2
, si Y = log(X) ∈ Sym(p) tiene una matriz simétrica
vectorizada distribución normal; esto es, si vecd(T ) ∼ N (vecd(M ), Σq×q ).
Denición 4.1.13. Sea X ∈ Sym(p). se dice que X tiene una matriz denida positi-
va distribución log normal con parámetros M ∈ Sym(p) y σ2 > 0, si Y = log(X) ∈
Sym(p) ∼ Npp (M, σ 2 ).
2 J(X) 1 2
f (X; M, σ ) = exp − 2 tr (Y − M ) (4.1)
(2π)q/2 σ q 2σ
Teorema 4.1.16. Sean λ1 > λ2 > · · · > λp los valores propios de la matriz X . El
Jacobiano de la transformación Y = log(X) está dado por:
1 Y log(λj ) − log(λi )
J(X) = J (Y → X) = . (4.2)
λ1 λ2 · · · λp i<j λj − λi
Lognormal Riemanniana.
A continuación s denen las dos versiones para la distribución log normal Riemanniana.
Denición 4.1.14. Sea X ∈ Sym+ (p). Se dice que X tiene una matriz denida positiva
distribución log normal Riemanniana variada con parámetros M ∈ Sym+ (p) y covarianza
Σ ∈ Sym+ (q) si el mapeo log Riemanniano Y = Log(X) tiene una matriz simétrica
positiva vectorizada distribución normal; esto es,
J(W ) 1 2
f (W ) = exp − tr (logW )
(2π)q/2 2
donde J(.) está dado por 4.2. Sea M ∈ Sym+ (p) y sea G alguna raíz cuadrada de M . Se
+ T
dene X ∈ Sym (p) por el grupo de acción de G como X = GW G donde G ∈ GL(p),
−(p+1)
−(p+1)
con Jacobiano J (W → X) = |G| = |GGT | 2 . Por lo tanto X tiene densidad:
Denición 4.1.15. Sea X ∈ Sym+ (p). Se dice que X tiene una matriz denida positiva
distribución log normal Riemanniana variada con parámetros M ∈ Sym+ (p), si el mapeo
Riemanniano Y = LogM (X) ∈ Sym(p) tiene una matriz simétrica variada distribución
normal; esto es,
En la densidad 4.3 se tiene que M = GGT hace el papel de parámetro de localización, peor
también afecta la escala. Si en la denición 4.1.15 se cambia por Npp (0, σ 2 ) ó Npp (0, Σ),
entonces el factor de escala lo absorbe G. Por 4.2 se tiene que el Jacobiano J(.) solo de-
−1 T −1
pende de los valores propios de estos argumentos. Por lo tanto J(G X(G ) ) es función
−1 T −1
de los valores propios de G X(G ) , que son los mismos valores propios conjuntos de
X y M. Ahora, puede notarse que:
esto es; es raíz de la distancia geodésica entre M y X. Esto conduce a una generalización
de la densidad 4.3, escrita en términos de la distancia geodésica.
Denición 4.1.16. Sea X ∈ Sym+ (p). Se dice que X tiene una matriz denida positiva
distribución normal geodésica variada con parámetro M ∈ Sym+ (p) si tiene densidad
1
f (X, M ) ∝ exp − d2 (M, X)
2
con , q = k + 1.
4.2 Datos respuesta en Sym+ (p). Modelo de Regresión. 55
Grácamente se tiene:
llamada función enlace. Para dos puntos Si y µi (β) sobre la variedad S, el modelo
también dene un residual o diferencia entre Si y µi (β). Grácamente se tiene:
La idea general, es transportar los objetos que pertenecen a el espacio no Euclídeo sobre el
espacio tangente común, llevar a cabo en dicho espacio tangente los respectivos modelos de
regresión y posteriormente mapear los resultados nuevamente sobre el espacio no Euclídeo.
Gracamente se tiene:
Figura 4.3: Modelo de Regresión Lineal sobre Espacios no Euclídeos. Idea General.
Dado que las matrices denidas positivas no están sobre un espacio euclídeo, entonces es
teórica y computacionalmente complicado desarrollar un marco estadístico formal donde
se tenga la forma de hacer estimación y pruebas de hipótesis, de modo que se usen co-
variables para predecir directamente las matrices denidas positivas como respuesta. Es
por ésta razón que se piensa en desarrollos teóricos que transformen las matrices denidas
positivas sobre espacios Euclídeos. En Zhu, H., Chen, Y., Ibrahim, J., Li, Y., Hall, C.,
Lin, W. (2009) se muestra el desarrollo de una metodología de regresión donde la respues-
ta son matrices denidas positivas log transformadas. El modelo se basa en un método
semiparamétrico que evita especicar distribuciones paramétricas para las matrices de-
nidas positivas aleatorias log transformadas. Se han planteado procesos de inferencia para
estimar los coecientes de regresión de dicho modelo, al igual de estadísticos de prueba
que permiten contrastar hipótesis de los parámetros desconocidos y procesos de prueba
basados en métodos de remuestreo para evaluar simultáneamente la signicancia estadís-
tica de hipótesis lineales. En este trabajo se considera el modelo de regresión polinomial
local intrínseco para matrices denidas positivas como respuesta.
Suponga que se tiene un conjunto de datos {(xi , Si ) : i = 1, 2, . . . , n}, donde los datos de
+
la variable respuesta Si son datos sobre Sym (p) y xi es un vector de covariables de interés
sobre un espacio euclídeo. Un modelo de regresión para este tipo de datos , involucra
4.2 Datos respuesta en Sym+ (p). Modelo de Regresión. 57
modelar la media condicional de Si dado xi , denotada por: µi (β) = E[Si |xi ] = g(xi , β)
con g(. , .) : R × R → S ; (xi , β) → g(xi , β) llamada función enlace. Para estimar
k q
n
X
Gn (µ(x0 )) = Kh (xi − x0 )d2g (µ(x0 ), Si ) (4.4)
i=1
u
h−1 ,
donde kh (u) = K h
con h escalar positivo y K(·) es una función Kernel.
+
Se considera el mapa logaritmo Riemanniano de µ(x) en µ0 (x) sobre el espacio Tµ(x) Sym (p);
+
esto es, se considera Logµ0 µx ∈ Tµ(x) Sym (p). Ahora, como Logµ0 µx está sobre un espacio
tangente diferente para cada valor de X , entonces se transportan los elementos desde el
+ +
espacio Tµ(x) Sym (p) hasta el espacio común TIp Sym (p), a través del transporte paralelo
dado por:
Se tiene que Φµ(x0 ) (0p ) = Y (x0 ) = 0p , por lo tanto Logµ(x0 ) µ(x0 ) = 0p y como Y (x) y
Y (x0 ) están sobre el mismo espacio tangente TIp Sym+ (p), entonces se expande Y (x) en
x0 usando series de Taylor. Se obtiene entonces:
k0
X
Y (x) = Y (k) (x0 )(x − x0 )k
k=1
1
con k0 ∈ N y Y (k)
la derivada de orden k de Y (x) con respecto a x multiplicada por
k!
.
−1
Ahora, utilizando Φµ(x ) se tiene que:
0
k0
!
X
Logµ(x0 ) µ(x) = Φ−1 −1
µ(x0 ) (Y (x)) ≈ Φµ(x0 ) Y (k) (x0 )(x − x0 )k .
k=1
k0
!!
X
µ(x) = Expµ(x0 ) Φ−1
µ(x0 ) (Y
−1
(x)) = Expµ(x0 ) Φµ(x0 ) Y (k) (x0 )(x − x0 )k .
k=1
k
0
Φ−1 (k) k
P
Se puede ver que Expµ(x0 ) µ(x0 ) Y (x0 )(x − x0 ) = µ(x, α(x0 ), k0 ), donde
k=1
α(x0 ) contiene todos los parámetros de {µ(x0 ), Y (1) (x0 ), · · · , Y (k) (x0 )}. Para estimar α(x0 ),
se minimiza el problema:
58 4 Regresión PLS. Implementación
n k0
!! !
X X
Gn (α(x0 )) = Kh (xi − x0 )d2g Expµ(x0 ) Φ−1
µ(x0 ) Y (k) (x0 )(x − x0 )k , Si (4.5)
i=1 k=1
Claramente, la función objetivo 4.4 adopta una forma según la métrica Riemanniana
d2g (·, ·), cuya forma estructural depende del producto interno que se dene sobre el conjunto
Tµ(x) Sym+ (p). Por tal razón a continuación se exponen dos formas de resolver el problema;
una utilizando la métrica log-euclídea y otra utilizando el producto interno regular de
Frobenius, el producto interno escalado de Frobenius (denidos en la sección 4.1):
hT1 , T2 i = tr Dµ(x) log(T1 )Dµ(x) log(T2 ) ,
donde Dµ(x) log(T ) denota la derivada direccional de la matriz logaritmo en µ(x) a lo largo
de T .
Ahora, la geodésica asociada a la métrica log-euclídea dada en 4.2.1, está dada por:
γ(t, T1 ) = exp log(µ(x)) + tDµ(x) log(T2 ) .
Por otro lado, los mapeos exponencial y logarítmico Riemanniano están dados por:
Ahora, para µ(x), S ∈ Sym+ (p), se tiene que la distancia geodésica está dada por:
donde v ⊗2 = vv T , con v un vector. De ésta manera, la función objetivo dada en 4.4, queda
escrita como:
n
X
Kh (xi − x0 )tr (log(µ(x)) − log(Si ))⊗2
Gn (µ(x0 )) = (4.6)
i=1
4.2 Datos respuesta en Sym+ (p). Modelo de Regresión. 59
Ahora, considere µ(x), µ(x0 ) ∈ Sym+ (p) y Uµ(x0 ) ∈ Tµ(x0 ) Sym+ (p), se tiene que el trans-
porte paralelo Φµ(x0 ) está dado por:
donde Φµ(x0 ) = Dµ(x0 ) log(Uµ(x0 ) ). Luego, tomando Uµ(x0 ) = Logµ(x0 ) µ(x) ∈ Tµ(x0 ) Sym+ (p),
se tiene que:
de donde µ(x) = exp (log(µ(x0 ) + Y (x))). Por último, el residual de S respecto a µ(x), se
dene como εµ(x) = log(µ(x)) − log(µx0 ) y E[log(S)|X = x] = log(µ(x)) y el modelo de
regresión está dado por:
con E[εµ(x) ] = 0.
Según la denición 4.1.5, se tiene que dados T1 , T2 ∈ Tµ(x) Sym+ (p), el producto interno
+
sobre el conjunto Tµ(x) Sym (p) está dado por:
donde µ(x) = G(x)G(x)T . Por otro lado, los mapeos exponencial y logarítmico Rieman-
niano están dados por:
1. Expµ(x) (T1 ) = γµ(x) (1, T1 ) = G(x) exp G(x)−1 T1 (G(x)T )−1 G(x)T .
q q
2
d(µ(x), S) = kLogµ(x) (S)k = tr(log (G(x)−1 SG(x)−T )) = tr(log2 (S −1/2 µ(x)S −T /2 )),
donde S 1/2 es alguna raíz de S . Ahora, considere µ(x), µ(x0 ) ∈ Sym+ (p), con µ(x0 ) =
G(x0 )G(x0 )T . Para alguna Uµ(x0 ) ∈ Tµ(x0 ) Sym+ (p), se tiene que el transporte paralelo
Φµ(x0 ) está dado por:
Φµ(x0 ) (Uµ(x0 ) ) = G(x0 )−1 Uµ(x0 ) G(x0 )−T ∈ TIP Sym+ (p)
k0
!
X
µ(x) ≈ G(x0 ) exp Y (k) (x0 )(x − x0 )k G(x0 )T = µ(x, α(x0 ), k0 )
i=1
T
LiM = LiM(1,1) , LiM(1,2) , LiM(1,3) , LiM(2,2) , LiM(2,3) , LiM(3,3) ,
Suponga además que para cada individuo se observa un conjunto de covariables de inte-
rés. Dichas covariables de interés dependen del estudio que se está llevando a cabo; por
ejemplo, en estudios de imágenes medicas se consideran medidas demográcas o clínicas.
Comúnmente la información disponible en relación a las covariables es muy grande, por lo
que generalmente se presentan problemas de multicolinealidad y por otro lado se cuenta
4.3 P LS para Datos Respuesta en el Conjunto Sym+ (p) 61
A continuación se muestra un modelo de regresión lineal para las matrices denidas po-
sitivas log transformadas:
(k)
LM = Xβ + ε, k = 1, 2, · · · , 6.
(k)
donde LM es un vector columna de orden n × 1, X es una matriz de orden n × p formado
por las covariables observadas; β es un vector de orden p × 1 formada por los parámetros
a estimar y ε es un vector de errores de orden n × 1.
LM = X B + E
n×6 n×p p×6 n×6
Sea Θ(6p+ n(n+1) )×1 el vector de parámetros desconocidos contenidos en B y Σ. Para estimar
2
Θ(6p+ n(n+1) )×1 se maximiza la función objetivo:
2
n
1 X (k),i (k),i
ln (Θ) = − log|Σ|(LM − xi β)T Σ−1 (LM − xi β) , k = 1, 2 · · · , 6,
2 i=1
Para llevar a cabo las simulaciones se tienen en cuenta las siguientes características:
3. Entorno donde n = p.
4. Entorno donde n>p y diferentes estructuras de covarianza.
De esta manera se consideran posibles entornos de simulación tales que las metodologías
más usuales que permiten resolver el problema de multicolinealidad pueden ser compara-
dos en términos predictivos. Los entornos que se tienen en cuenta en las simulaciones son
los siguientes:
Se tiene entonces que en cada uno de los cinco entornos se simulan n observaciones co-
rrespondientes a n individuos, a cada uno de los cuales se le asocia una matriz denida
positiva de orden 3 × 3 y la medida de p covariables. Como se explicó en la sección 4.3,
dadas n matrices denidas positivas de orden 3 × 3 denotadas por Mi para i = 1, 2, · · · , n,
se procede de la siguiente manera.
T
LiM = LiM(1,1) , LiM(1,2) , LiM(1,3) , LiM(2,2) , LiM(2,3) , LiM(3,3) ,
3. Se construye la matriz Y de orden n × 6 cuyas las están conformadas por las LiM .Por
facilidad con la notación, se nombra cada columna de la matriz Y por Yi para
i = 1, 2, 3, 4, 5, 6.
5. Se resuelve el modelo Y = X B + E
n×6 n×p p×6 n×6
usando las metodologías de regresión por
Por otro lado, en la tabla 4.2 se muestran los porcentajes de variabilidad de X explicada
por cada una de las metodologías P CR y P LS . Como se observa, la metodología P CR
explica más de la variabilidad de X que la metodología P LS , lo cuál siempre sucede.
La gura 4.4 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ).
En dicha gura se puede observar que P CR necesita al rededor de 7 componentes para
explicar la mayor parte de la variabilidad de los datos.
La gráca 4.5 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ). En dicha gráca se observa que P LS
4.4 Implementación con Datos Simulados. 65
En la gura 4.6 se muestran las grácas de los datos predichos junto con los valores
observados de las respuestas las cinco metodologías.
Figura 4.6: Datos Predichos junto con Datos Observados para las cinco Metodologías.
66 4 Regresión PLS. Implementación
Se puede apreciar en ésta gráca que los datos predichos por las cinco metodologías
siguen la tendencia de los datos observados, sin embargo, es complicado sacar una con-
clusión fuerte solo a partir de la observación. Para reforzar esta apreciación, se muestra a
continuación una tabla con lo cálculos de la raíz del error cuadrático medio de predicción
RM SEP , dado por
v
uPm 2
u
t Y i − Y
b i
i=1
RM SEP =
m
con m número de datos analizados; para cada Yi contrastado por medio de cada modelo.
Tabla 4.3: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.
En la tabla 4.4, se muestra que al igual que en el entorno 1, las componentes P LS expli-
can un mayor porcentaje de variabilidad de Y que las componentes P CR. Se tiene que
tres componentes P LS explican mas del 95 % de la variabilidad de Y y más de 20 % de
la variabilidad de X. En la tabla 4.5 se muestran los porcentajes de variabilidad de X
explicada por cada una de las metodologías P CR y P LS .
Las guras 4.7 y 4.8 muestran la gráca de el número de componentes contra la raíz
cuadrada del error cuadrático medio de predicción (RM SEP ) usando validación cruzada
(CV ). En dichas guras se puede observar que P CR necesita al rededor de 7 componentes
para explicar la mayor parte de la variabilidad de los datos, mientras que P LS necesita 5
Por otro lado, en la guras 4.9 se muestran grácas de los datos predichos junto con los
valores observados de las respuestas para las cinco metodologías, donde se observa que los
datos predichos por las cinco metodologías siguen la tendencia de los datos observados.
Figura 4.9: Datos Predichos junto con Datos Observados para las cinco Metodologías.
4.4 Implementación con Datos Simulados. 69
Sin embargo, como sucedió en el entorno de simulación 1, la gráca 4.9 se puede prestar
para mal interpretaciones pues el análisis depende solo de la observación subjetiva. A
continuación se muestra la tabla con lo cálculos de la raíz del error cuadrático medio de
predicción para cada Yi contrastado por medio de cada modelo, de manera que podamos
hacer conclusiones más fuertes a partir de medidas numéricas.
Tabla 4.6: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.
A partir de la gura 4.9 y la tabla 4.6, se concluye que el mejor modelo en términos
predictivos, es el modelo de regresión P LS .
3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raíz
del error cuadrático medio de predicción y nalmente en cada modelo se promedian
dichos estos 1000 errores.
4. Se elabora una gura compuesta por seis grácos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,
donde cada gráco ilustra el número de individuos versus el promedio de la raíz del
error cuadrático medio de predicción.
70 4 Regresión PLS. Implementación
A continuación se muestra la gura descrita en los anteriores pasos, para diferentes ta-
maños de individuos n. En esta gura se puede observar que la metodología de regresión
P LS es la mejor en términos predictivos, puesto que siempre la raíz del error cuadrático
medio de predicción está por debajo en este modelo.
Como puede observarse en la gura 4.10, entre las cinco metodologías de regresión, la
peor en términos predictivos es la metodología de regresión P CR, siendo la conocida y
usada de todas las metodologías que resuelven el problema de la multicolinealidad. Las
otras metodologías, si bien no se comportan como la metodología de regresión P LS , se
observan estables en términos predictivos.
En la tabla 4.7, se muestra que al igual que en los entornos anteriores, las componentes
P LS explican un mayor porcentaje de variabilidad de Y que las componentes P CR. Se
tiene que tres componentes P LS explican mas del 95 % de la variabilidad de Y y más de
20 % de la variabilidad de X.
◦
N Comps 1 2 3 4 5 6 7 8 9 10
XP CR 7.67 15.15 21.42 27.01 32.41 37.44 42.29 46.84 51.32 55.33
XP LS 5.03 8.78 13.04 17.61 22.10 25.35 29.15 33.87 37.78 40.53
Y1 0.29 0.54 11.92 14.82 24.83 27.37 32.83 39.79 39.83 40.05
Y1 76.99 92.53 96.66 97.90 98.64 98.97 99.28 99.39 99.50 99.56
Y2 0.06 0.26 11.37 14.25 24.31 26.11 31.28 38.39 38.44 38.73
Y2 75.99 92.42 95.89 97.21 97.71 98.50 98.80 99.00 99.11 99.44
Y3 0.25 0.49 12.64 16.02 25.42 27.95 32.60 40.03 40.11 40.21
Y3 77.30 92.28 96.58 97.90 98.54 98.97 99.16 99.20 99.38 99.56
Y4 0.13 0.35 11.86 14.59 24.05 26.34 31.74 38.64 38.71 39.00
Y4 75.92 92.26 96.64 98.13 98.62 98.96 99.13 99.35 99.58 99.70
Y5 0.22 0.49 12.03 14.75 24.38 27.10 31.99 38.94 38.99 39.35
Y5 76.18 92.07 96.60 97.95 98.58 98.93 99.21 99.39 99.55 99.65
Y6 0.14 0.42 11.89 14.90 24.78 27.18 32.70 39.45 39.51 39.87
Y6 77.15 92.88 96.71 97.94 98.52 98.99 99.22 99.39 99.51 99.72
En la tabla 4.8 se muestran los porcentajes de variabilidad de X explicada por cada una
de las metodologías P CR y P LS . Como sucedió en el entorno 1, la metodología P CR
explica más de la variabilidad de X que la metodología P LS .
Componente 1 2 3 4 5 6 7 8 9 10
P CR 7.67 7.48 6.27 5.59 5.40 5.03 4.85 4.55 4.48 4.00
P LS 5.03 3.75 4.26 4.57 4.49 3.25 3.80 4.72 3.91 2.75
La gura 4.11 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ).
En dicha gura se puede observar que P CR necesita al rededor de 8 componentes para
explicar la mayor parte de la variabilidad de los datos.
72 4 Regresión PLS. Implementación
La gura 4.12 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ). En
dicha gura se puede observar que P LS necesita 2 componentes para explicar la mayor
parte de la variabilidad de los datos.
En la gura 4.13 se muestran grácas de los datos predichos junto con los valores ob-
servados de las respuestas para las cinco metodologías, donde se observa que los datos
predichos por las cinco metodologías siguen la tendencia de los datos observados.
Figura 4.13: Datos Predichos junto con Datos Observados para las cinco Metodologías.
Para terminar, a continuación se muestra la tabla con lo cálculos de la raíz del error cua-
drático medio de predicción para cada Yi contrastado por medio de cada modelo.
Tabla 4.9: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.
A partir de las guras 4.13 y la tabla 4.9, se concluye que el mejor modelo en términos
predictivos, es el modelo de regresión P LS .
Como en el caso n < p, se llevan a cabo entornos de simulación donde n = p con la misma
estructura de covarianzas y diferentes números de individuos n. a continuación se describe
el procedimiento.
74 4 Regresión PLS. Implementación
4. Se elabora una gura compuesta por seis grácos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,
donde cada gráco ilustra el número de individuos versus el promedio de la raíz del
error cuadrático medio de predicción.
A continuación se muestra la gura descrita en los anteriores pasos, para diferentes ta-
maños de individuos n. En esta gura se puede observar que la metodología de regresión
P LS es la mejor en términos predictivos, puesto que siempre la raíz del error cuadrático
medio de predicción está por debajo en este modelo.
modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónica
por el color violeta y el modelo de regresión por mínimos cuadrados parciales P LS por el
color negro.
Se puede observar en la gura 4.14 que entre las cinco metodologías implementadas, la
mejor metodología de regresión en términos predictivos es la metodología de regresión
P LS , mientras que la peor metodología de regresión en términos predictivos es la meto-
dología de regresión P CR.
◦
N Comps 1 2 3 4 5 6 7 8 9 10
XP CR 13.53 24.28 33.28 41.11 48.44 54.86 61.08 66.33 71.29 75.94
XP LS 11.15 20.23 27.67 33.68 39.54 44.07 49.12 53.60 58.25 61.90
Y1 20.42 47.24 69.53 70.98 71.81 71.82 73.48 77.78 85.31 85.57
Y1 85.07 93.38 96.31 97.86 99.12 99.25 99.49 99.50 99.62 99.63
Y2 20.06 46.65 67.97 69.56 71.18 71.26 73.92 78.77 87.45 87.54
Y2 85.20 94.32 97.34 98.12 98.89 99.52 99.57 99.60 99.68 99.69
Y3 18.80 47.51 67.72 68.81 70.28 70.34 72.61 76.63 85.78 85.90
Y3 84.40 93.94 96.97 98.65 99.22 99.58 99.63 99.83 99.90 99.92
Y4 19.87 48.55 69.24 70.58 71.78 71.83 73.94 78.76 87.55 87.60
Y4 85.99 94.90 97.72 98.96 99.40 99.61 99.64 99.64 99.70 99.84
Y5 19.62 47.56 68.89 70.13 71.36 71.41 73.03 78.16 86.60 86.79
Y5 85.22 94.27 97.16 98.52 99.20 99.43 99.62 99.64 99.76 99.78
Y6 19.74 47.61 69.04 70.04 71.28 71.30 73.72 78.14 87.15 87.27
Y6 85.58 94.73 97.66 98.80 99.33 99.53 99.63 99.78 99.81 99.88
Componente 1 2 3 4 5 6 7 8 9 10
P CR 13.53 10.75 9.00 7.83 7.33 6.41 6.22 5.25 4.96 4.66
P LS 11.15 9.08 7.44 6.01 5.86 4.53 5.05 4.48 4.65 3.65
Las guras 4.15 y 4.16 muestras las grácas de el número de componentes contra la raíz
cuadrada del error cuadrático medio de predicción (RM SEP ). Se puede observar que
P CR necesita al rededor de 9 componentes para explicar la mayor parte de la variabilidad
de los datos, mientras que P LS necesita al rededor de 5 componentes para explicar la
mayor parte de la variabilidad de los datos.
En la gura 4.17 se muestran grácas de los datos predichos junto con los valores obser-
vados de las respuestas, para las cinco metodologías.
Figura 4.17: Datos Predichos junto con Datos Observados para las cinco Metodologías.
Se puede observar que todas las metodologías siguen la tendencia de los datos observa-
dos. Para terminar, a continuación se muestra la tabla con lo cálculos de la raíz del error
cuadrático medio de predicción para cada Yi contrastado por medio de cada modelo.
Tabla 4.12: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.
En la tabla 4.14, se muestran los porcentajes de variabilidad de X explicada por cada una
de las metodologías P CR y P LS . Como sucedió en los entornos 1 y 2, la metodología
P CR explica más de la variabilidad de X que la metodología P LS .
Las gura 4.18 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ) usando validación cruzada (CV ).
En dicha gura se puede observar que P CR necesita al rededor de 5 componentes para
explicar la mayor parte de la variabilidad de los datos.
4.4 Implementación con Datos Simulados. 79
Las gura 4.19 muestra las grácas de el número de componentes contra la raíz cuadrada
del error cuadrático medio de predicción (RM SEP ). En dicha gura se puede observar que
P LS necesita al rededor de 4 componentes para explicar la mayor parte de la variabilidad
de los datos.
En las gura 4.20 se muestran grácas de los datos predichos junto con los valores obser-
vados de las respuestas, para las cinco metodologías.
Figura 4.20: Datos Predichos junto con Datos Observados para las cinco Metodologías.
Se puede observar que los datos predichos con las cinco metodologías tienen la tenden-
cia de los datos observados. Para terminar con el estudio del entorno de simulación 5, a
continuación se muestra la tabla con lo cálculos de la raíz del error cuadrático medio de
predicción para cada Yi contrastado por medio de cada modelo.
Tabla 4.15: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.
Como se puede observar en las grácas 4.20 y en la tabla 4.15, la metodología de regre-
sión P LS es la mejor en términos predictivos, teniendo en cuenta que en algunos casos la
metodología de regresión correlación canónica le compite en algunos casos.
4.4 Implementación con Datos Simulados. 81
Como en los casos n < p y n = p, se llevan a cabo entornos de simulación donde n > p con
la misma estructura de covarianzas y diferentes números de individuos n. A continuación
mostramos el procedimiento.
4. Se elabora una gura compuesta por seis grácos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,
donde cada gráco ilustra el número de individuos versus el promedio de la raíz del
error cuadrático medio de predicción.
modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónica
por el color violeta y el modelo de regresión por mínimos cuadrados parciales P LS por el
color negro.
83
84 5 Conclusiones y Trabajos Futuros.
todología de regresión P LS sobre Espacios Euclídeos para el caso no lineal, queda como
problema abierto proponer la metodología de regresión P LS intervalo-valuada para el
caso no lineal. Por otro lado, queda abierto el problema de desarrollar las metodologías de
regresión análisis de correlación canónico, Ridge y Lasso, para el caso intervalo-valuado.
Apéndice A
A continuación se hace una revisión sobre las propiedades matemáticas de los objetos
geométricos que se consideran en el trabajo. Dicha revisión se hace necesaria dado que
para estudiar modelos de regresión sobre espacios que no son Euclídeos, se hace necesario
conocer los elementos teóricos necesarios para llevar a cabo mínimas construcciones. Para
profundizar más alrededor de conceptos de topología algebraica y geometría diferencial
se puede consultar por ejemplo Munkres, J.R (1975).
Existen conjuntos abiertos y cerrados al mismo tiempo y también existen conjuntos que
no son abiertos ni cerrados.
1. d(x, y) ≥ 0.
2. d(x, y) = 0 si y sólo si x = y.
3. d(x, z) ≤ d(x, y) + d(y, z).
Mediante la denición de distancia en un espacio métrico, se tiene que una base para
una topología sobre X puede ser denida como la colección de bolas abiertas de la forma
B(x, r) = {y ∈ X : d(x, y) < r} para todo x ∈ X , r ∈ R.
Denición A.2.2. Un atlas A sobre una variedad M se dice que es maximal si para
cualquier otro atlas A0 sobre M , cualquier entorno de coordenadas locales (x, U ) ∈ A0
también está en A, esto es, A contiene A0 .
Denición A.2.3. Una estructura suave sobre una variedad M es un atlas maximal
A sobre M
d
(f ◦ γ)(0),
dt
esto conduce a una relación de equivalencia ∼ entre las curvas suaves que pasan por p
en t = 0; Cp = {γ : (−, ) → M : γ > 0, γ(0) = p, γ es diferenciable}. Si γ1 y γ2
esto es,
son curvas suaves que pasan a través del punto p en t = 0, entonces γ1 ∼ γ2 , si para algún
entorno de coordenadas (x, U ) de p se cumple que:
A.2 Variedades Diferenciales 89
d d
(f ◦ γ1 )(0) = (f ◦ γ2 )(0),
dt dt
es decir, las curvas son equivalentes si los vectores tangentes en Rn de ambas curvas vis-
tas en coordenadas locales coinciden para cualquier función suave f : M → R. Note que
f ◦ γ1 (0) = f (γ1 (0)) = f (γ2 (0)) = f ◦ γ2 (0) = p. Ahora, un vector tangente se dene como
una de estas clases de equivalencia de curvas.
Se puede mostrar, Auslander, L. & MacKenzie, R.E. (1963), que estas clases de equiva-
lencia forman un espacio vectorial que es el espacio tangente Tp M , el cual tiene la misma
dimensión de M. Dado un sistema de coordenadas locales (x, U ) que contiene a p, una
∂
base para el espacio tangente Tp M está dada por los operadores derivadas parciales
∂xi
,
las cuales son los vectores tangentes asociados con las curvas coordenadas de x.
Un campo vectorial sobre una variedad M es una función que asigna de manera
suave a cada punto p ∈ M un vector tangente Xp ∈ Tp M . Este mapeo es suave en el
sentido que las componentes de los vectores pueden ser escritas como funciones suaves en
cualquier sistema de coordenadas locales. Esto es, un campo vectorial es una aplicación
X : M → T M, tal que π ◦ X =SIdM , donde π : T M → M , Xp 7→ π(Xp ) = p es la
proyección canónica y TM = Tp M es la variedad tangente de M .
p∈M
Para dos variedades M y N, un mapeo suave φ:M →N induce un mapeo lineal de los
espacios tangentes:
φ∗ : Tp M → Tφ(p) N,
Recuerde la denición de longitud de una curva suave sobre un espacio euclidiano: sea
γ : [a, b] → Rd un segmento de curva suave. En cualquier punto t0 ∈ [a, b], la derivada
0
de la curva γ (t0 ) da la velocidad de la curva al tiempo t0 . La longitud del segmento de
curva γ está dada por la integral de velocidad de la curva, esto es:
Z b
L(γ) = kγ 0 (t)kdt.
a
Denición A.3.1. Una métrica Riemanniana sobre una variedad M es una función
que asigna suavemente a cada punto p ∈ M un producto interno h., .i sobre el espacio tan-
gente Tp M . Una variedad Riemanniana es una variedad suave dotada de una métrica
Riemanniana.
1
La norma de un vector tangente v ∈ Tp M se dene como kvk = hv, vi 2 .
Dadas las coor-
∂
denadas locales x1 , x2 , · · · , xn sobre una vecindad de p, los vectores coordenados vi =
∂xi
en p, forman una base para el espacio tangente Tp M . La métrica Riemanniana se puede
expresar en esta base como una matriz n×n denotada por g , llamada el tensor métrico ,
cuyas entradas están dadas por:
gij = hvi , vj i
donde el vector tangente γ 0 (t) es un vector sobre Tγ(t) M y la norma está dada por la
métrica Riemanniana en γ(t).
Dada una variedad M y una variedad N con métrica Riemanniana h., .i, un mapeo
φ:M →N induce una métrica φ∗ h., .i sobre M denida por:
A.3 Geometría Riemanniana 91
Esta métrica se llama pull-back inducida por φ, ya que ésta mapea la métrica en la
dirección opuesta del mapeo φ.
Sobre espacios euclídeos la trayectoria más corta entre dos puntos es una línea recta y
la distancia entre los puntos es medida como la longitud de ese segmento de línea recta.
Esta noción de trayectoria más corta puede ser extendida a variedades Riemannianas
considerando el problema de hallar el segmento de curva suave más corto entre dos puntos
sobre la variedad. Si γ : [a, b] → M es una curva suave sobre la variedad Riemmaniana
M con puntos nales γ(a) = x y γ(b) = y , una variación de γ que mantiene los puntos
nales jos es una familia α de curvas suaves:
α : (−, ) × [a, b] → M
tal que:
1. α(0, t) = γ(t),
2. αe(s0 ) : t 7→ α(s0 , t), es un segmento de curva suave para s0 ∈ (−, ),
3. α(s, a) = x y α(s, b) = y para todo s ∈ (−, ).
La trayectoria suave más corta entre los puntos x, y ∈ M puede ser vista como hallar
un punto crítico para la función longitud, donde la longitud de α
e se considera como una
función de s. La trayectoria γ=α
e(0) es una trayectoria crítica para L si:
dL(e
α(s))
= 0.
ds
Resulta más fácil trabajar la trayectoria crítica del funcional energía, el cual está dado
por:
Z b
E(γ) = kγ 0 k2 dt
a
Se puede probar, Spivak, M. (1999) que una trayectoria crítica para E también es crítica
para L. De manera recíproca, una trayectoria crítica para L, una vez parametrizada de
forma proporcional a la longitud de arco, es una trayectoria crítica para E. Por tanto, al
asumir curvas que están parametrizadas proporcionalmente a la longitud de arco, no hay
diferencia entre curvas con longitud mínima y aquellas con mínima energía. Una trayec-
toria crítica del funcional E se llama una geodésica.
Dado un gráco (x, U ) una curva geodésica γ ⊂ U se puede escribir en coordenadas locales
como γ(t) = (γ 1 (t), γ 2 (t), · · · , γ n (t)). Usando algún sistema de coordenadas locales, γ
cumple la siguiente ecuación diferencial, Spivak, M. (1999):
92 A Anexo: Elementos de Topología y Geometría Diferencial
n
d2 γk X
k dγ i dγ j
= − Γi,j (γ(t))
dt2 i,j=1
dt dt
n
1 X kl ∂gjl ∂gil ∂gij
Γkij = g + j − ,
2 l=1 ∂xi ∂x ∂xl
Dados dos puntos sobre una variedad Riemanniana no hay garantía que exista una geo-
désica entre ellos. También pueden existir varias geodésicas uniendo los puntos, es decir,
no hay garantía de que la geodésica sea única. Además, una geodésica no tiene que ser
un mínimo global de la longitud funcional, esto es, pueden existir geodésicas de diferentes
longitudes entre los mismos puntos.
Si existe una geodésica entre los puntos p y q que cumple esta distancia, esto es, si
L(γ) = d(p, q) entonces a γ se le llama geodésica minimal . Las geodésicas minimales
existen bajo ciertas condiciones.
Expp : Tp M → M
v → Expp (v) = γ(1)
A.4 Grupos de Lie 93
Logp : Expp (U ) ⊆ M → Tp M
X → Logp (X) = v
Denición A.3.3. Una Isometría es un difeomorsmo φ : M → N de variedades
Riemannianas que preserva la métrica Riemanniana. Es decir, si h., .iM y h., .iN son las
métricas para M y N respectivamente, entonces φ∗ h., .iM = φ∗ h., .iN
De la denición anterior concluimos que una isometría preserva longitudes de curvas; esto
es, si c es una curva suave sobre M , entonces la curva φ ◦ c es una curva de la misma
longitud sobre N . Además, la imagen de una geodésica bajo una isometría es nuevamente
una geodésica.
Denición A.4.2. Un grupo de Lie G es una variedad suave que también forma un
grupo, donde las dos operaciones de grupo multiplicación e inversa son mapeos suaves de
variedades. Esto es:
Multiplicación : G × G → G
(x, y) 7→ x ⊗ y
Inversa : G → G
x 7→ x−1
Recuerde que los campos vectoriales sobre G pueden ser vistos como operadores sobre
∞
el espacio de funciones suaves, C (G) = {f : G → R : f es suave o diferenciable}. Por lo
tanto dos campos vectoriales X e Y pueden ser compuestos para formar otro operador
XY sobre C ∞ (G). Sin embargo el operador XY no necesariamente es un campo vectorial.
Pero el operador XY − Y X si es un campo vectorial sobre G. Esto da lugar a la denición
del corchete de Lie.
[X, Y ] = XY − Y X
El corchete de Lie proporciona una prueba para saber si el grupo de Lie G es conmutativo.
Un grupo de Lie es conmutativo si y sólo si el corchete de Lie sobre las correspondiente
álgebra de Lie g es cero, esto es, si [X, Y ] = 0 para todo X e Y en g.
Teorema A.4.1. Sea g el álgebra de Lie de un grupo de Lie G. Dado cualquier vector
X ∈ g, existe un único homeomorsmo de grupos de Lie hX : R → G, tal que hX (0) = X .
0
exp(X) = hX (1)
γ(t) = g exp(tX)
El término aislado signica que existe una vecindad U de p tal que p es el único punto en
U que es un punto jo de φp . Esta denición es difícil de intuir, aunque es suciente para
implicar algunas propiedades importantes de espacios simétricos.
1. e.p = p.
A.4 Grupos de Lie 97
2. (g.h).p = (g.(h.p)).
Denición A.4.9. Dada una acción de grupo de Lie G sobre una variedad M , una
métrica Riemanniana G-invariante h., .i sobre M es una métrica tal que el mapeo
φg es una isometría para toda g ∈ G.
Teorema A.4.5. Tome un grupo de Lie G que actúa transitivamente sobre una variedad
M . Si para algún punto p ∈ M el subgrupo de isotropía Gp es un subgrupo de Lie compacto
conectado de G, entonces M tiene una métrica G-invariante.
Los espacios simétricos aparecen naturalmente a partir de espacios homogéneos con mé-
tricas G-invariantes, como lo muestra el siguiente teorema.
Teorema A.4.6. Suponga que G, M y p cumplen las condiciones del teorema A.4.5. Si
α : G → G es un automorsmo involutivo, esto es un isomorsmo de G en si mismo, con
un conjunto jo Gp , entonces M es un espacio simétrico.
Las geodésicas sobre un espacio simétrico M = G/Gp , son calculadas a través de la acción
de grupo. Debido a que G es un grupo de isometrías que actúa transitivamente sobre M ,
es suciente considerar únicamente geodésicas iniciando en el punto base p. Para un punto
arbitrario q ∈ M , las geodésicas que inician en q son de la forma g.γ , donde g = g.q y γ
es una geodésica con γ(0) = p. Las geodésicas son la imagen de la acción de un subgrupo
uniparamétrico de G que actúa sobre el punto base p, como se enuncia en el siguiente
teorema.
γ(t) = exp(tX).p
Los teoremas de embebimiento son una herramienta muy útil en el estudio del álgebra y
la topología algebráica, el sentido práctico nació con el álgebra, pero su uso se extendió
por todas las áreas de la matemática. Existen resultados de suma importancia que son
desarrollados en Fernandez (2008) y que están basados en Rådström (1953). El tema de
éste artículo fue planteado para otras aplicaciones, pero Banks y Jacobs Banks, H. T. &
Jacobs, M. Q. (1970) usaron este resultado para crear un cálculo diferencial para lo que
denominaron multifunciones, además de otras dos formas de generar la diferencial.
Desde la teoría del análisis convexo se tiene que para un espacio topológico lineal real
M , si S y R son subconjuntos convexos en M y si λ es un número real, los subconjuntos
S + R y λS están bien denidos y son convexos en M . Se entiende por S + R y λS ,
los conjuntos S + R = {z|z = x + y, x ∈ S, y ∈ R} y λS = {z|z = λx, x ∈ S}. Estas
operaciones satisfacen para S, R, Z ∈ M y λ, µ ∈ R las siguientes propiedades:
1. (S + R) + Z = S + (R + Z).
2. S + R = R + S .
3. λ (S + R) = λS + λR.
4. λ (µS) = (λµS).
5. 1S = S .
99
100 B Anexo: Teorema de Rådström
método clásico para extender semigrupos conmutativos, el cual por ejemplo, es usado en
la construcción de los números enteros.
A continuación se enuncia el teorema que muestra las condiciones bajo las cuales se realiza
la extensión antes mencionada.
1. Sea M un semigrupo conmutativo en el cual la ley cancelativa se cumple; esto es, para
S , R, Z ∈ M , se tiene que:
1. (S + R) + Z = S + (R + Z),
2. S + R = R + S ,
3. si S + Z = R + Z entonces S = R.
Entonces M puede ser embebido en un grupo N . Además N puede ser elegido mi-
nimal en el siguiente sentido: Si G es cualquier grupo en el cual M es embebido,
entonces N es isomorco a un subgrupo de G que contiene a M .
2. Si existe una multiplicación por escalar real no negativo en M y satisface:
4. λ (S + R) = λS + λR,
5. (λ + µ) S = λS + µS ,
6. λ (µS) = λµS ,
7. 1S = S ,
entonces una multiplicación por escalar real puede ser denida en N tal que convierte
a N en un espacio vectorial y así para λ ≥ 0 y S ∈ M el producto λS coincide con
el dado en M .
3. Si además una métrica d (S, R) esta dada en M y satisface que:
8. d (S + Z, R + Z) = d (S, R),
9. d (λS, λR) = λd (S, R),
10. S + R y λS son operaciones continuas en la topología inducida por d en M ,
entonces una métrica puede ser denida en N y así convierte a N en un espacio
vectorial normado y es tal que si S , R ∈ M , la distancia entre S y R es igual a
d (S, R).
Lema B.0.1. Sean S, Z y R conjuntos dados en un espacio lineal normado real. Suponga
que Z es cerrado y convexo, R es acotado, y que S + R ⊂ Z + R, entonces S ⊂ Z .
101
Combinando los resultados anteriores, Rådström probó en Rådström (1953), lo que ahora
se denomina el teorema de embebimiento de Rådström y que se enuncia a continuación.
Sea M un espacio lineal normado real, si L cualquier espacio de puntos los cuales son
conjuntos cerrados,acotados y convexos en M , el cual tiene las siguientes propiedades:
entonces, L puede ser embebido como un cono convexo en un espacio normado real N de
tal manera que:
1. El embebimiento es isométrico.
2. La adición en L induce la adición en N .
3. La multiplicación por escalar no negativo en L induce la correspondiente multiplicación
por escalar no negativo en N .
Son conjuntos que satisfacen las condiciones impuestas sobre L: El conjunto de todos los
conjuntos convexos compactos de dimensión nita y El conjunto de todos los conjuntos
convexos y compactos.
102 B Anexo: Teorema de Rådström
Apéndice C
Anexo: Multi-Intervalos y
Multi-Matrices
C.1. El conjunto I
El conjunto I y su estructura algebraica y analítica es presentada en Wu, H.C. (2007)
y Moore Et al. (2009) para el estudio del problema de optimización mono-objetivo bajo
incertidumbre.
Si A∈I entonces A = aL ; aU , donde aL ≤ aU y los superíndices LyU provienen de sus
correspondientes palabras en inglés Lower y Upper, para simbolizar el extremo inferior y
el extremo superior del intervalo, ambos extremos deben ser nitos.
Si A, B ∈ I , con A = aL ; aU y B = bL ; bU , entonces se dene la igualdad entre estos
objetos de la siguiente manera:
A=B si y sólo si aL = b L y aU = b U
Sean A, B ∈ I y α ∈ R, con A = aL ; aU y B = bL ; bU ,
103
104 C Anexo: Multi-Intervalos y Multi-Matrices
1. Adición en I:
A + B = aL + b L ; aU + b U
Por otra parte, al conjunto I también se le dota de una métrica, llamada la métrica de
Hausdor (1914) que lo hace un espacio métrico completo. Para X e Y, subconjuntos de
un espacio métrico E, se tiene que:
dH (X, Y ) = máx sup ı́nf kx − yk , sup ı́nf kx − yk
x∈X y∈Y y∈Y x∈X
donde k·k es la distancia denida en el espacio métrico (E, k · k). Las pruebas sobre
estas armaciones se pueden encontrar en Wu, H.C. (2007), Alefeld, G. & Hersberger, J.
(1983), Banks, H. T. & Jacobs, M. Q. (1970), Moore Et al. (2009).
C.1 El conjunto I 105
m
En particular, la norma Housdor induce una métrica para el conjunto I que puede ser
L U L U
expresada de la siguiente manera: Sean A = a ; a y B = b ;b , la métrica Housdor
dH (·, ·) en I, está dada por:
Dado es espacio métrico (I, dH (·, ·)), tiene sentido hablar de los conceptos de límite y de
convergencia.
1. Si f L (x0 +h)−f L (x0 ) ≤ f U (x0 +h)−f U (x0 ) y f L (x0 )−f L (x0 −h) ≤ f U (x0 )−f U (x0 −h)
para todo h > 0, entonces f es H -diferenciable en x0 con H -derivada A(x0 ) =
[aL (x0 ), aU (x0 )].
C.2. El Conjunto I m
Se Dene I m = {I1 × · · · × Im : Ij ∈ I} para todo j = 1, · · · , m y por abuso de lenguaje,
se representa como un arreglo m × 1 de intervalos, esto es,
I1
m .. m
I = . ⊆ R : Ij ∈ I , para todo j = 1, · · · , m
I
m
sobre este conjunto, cada elemento se llama un multi-intervalo como en Fernandez (2008).
aL1 ; aU1 bL1 ; bU1
m . .
Se dice también que si A, B ∈ I con A = . yB= .
. .
L U L U
am ; am bm ; bm
Sean A, B ∈ I m y α∈R
C.2 El Conjunto I m 107
A1 + B1
1. A + B = .
. donde Aj = aLj ; aUj y Bj = bLj ; bUj ,
.
Am + Bm
dado que cada Aj + Bj ∈ I , para todo j , j = 1, · · · , m entonces A + B ∈ I m.
αA1
2. αA =
.
.
.
nuevamente, αAj ∈ I , para todo j , j = 1, · · · , m luego, αA ∈ I m .
αAm
Con lo anterior, las operaciones adición y multiplicación por escalar son clausurativas
m m
sobre I . Adicionalmente se tiene que para A, B y C ∈ I y α, λ ∈ R no negativos.
La operación + satisface las propiedades:
P.-1 Asociatividad. (A + B) + C = A + (B + C)
P.-2 Conmutatividad. A+B =B+A
[0; 0]
P.-3 Elemento
..
neutro. 0 = . tal que A+0=0+A=A
[0; 0]
convexos de Rm , con lo cual se está frente a un conjunto con una estructura muy cercana
a la de los espacios vectoriales.
En Wu, H.C. (2007), Wu, H.C. (2007), Wu, H.C. (2007) y Fernandez (2008) se presentan
m
los órdenes parciales LU , U C y CW para I y I ; además se presentan relaciones de
m
implicación de gran importancia entre estos. Para esta tesis se usa el orden LU en I .
Dicho orden parcial se dene como sigue:
A LU B si y sólo si aL ≤ bL y aU ≤ bU
A1 B1
. .
.. y B = .. ∈ I m . La relacion binaria denida
Teorema C.3.1. Sean A =
Am Bm
como:
Sea funa función real valuada diferenciable en un subconjunto no vacío, abierto y convexo
n ∗
X de R entonces f es convexa en x si y sólo si:
La intención es generalizar los conceptos de función convexa para una función real valuada
y vector-valuada a una función multi-intervalo valuada; dicho propósito se lleva a cabo
por medio de la siguiente denición y de la posterior proposición.
110 C Anexo: Multi-Intervalos y Multi-Matrices
X I = X, X = X : X ≤ X ≤ X
Denición C.4.2. Sea X I una multi-matriz de orden n × n. Las matrices centro y radio,
que se denotan por XC y ∆X , se denen por:
1. XC = 1
X +X .
2
2. ∆X = 1
2
X −X
X I = XSI
h i
donde XSI =
T
1
2
X + X T , 12 X + X
C.4 El conjunto In×p (R) 111
Se dene In×p (R) como el conjunto de todas las multi-matrices de orden n×p. En analogía
al caso escalar, una multi-matriz X I ∈ In×p (R) puede ser expresada como X I = (Xij )
donde Xij ∈ I . A continuación se denen operaciones sobre el conjunto In×p (R).
Denición C.4.4. Sobre el conjunto In×p (R) se denen las siguientes operaciones:
X I ± Y I = (Xij ± Yij )
KX I = X I K = (KXij )
X I uI = λuI (C.2)
El problema C.2 tiene importantes propiedades Deif, A.S. & Rohn, J. (1994), Rohn, J.
(1993) y es útil para una amplia gamma de aplicaciones en física e ingeniería. El problema
I I
C.2 se resuelve determinando dos conjuntos λα y uα dados por:
I I I
donde (λα , uα ) es un eigenpar de X ∈ X . El par (λα , uα ) es el α-ésimo eigenpar de
X I y representa el conjunto de los α-ésimos eigenvalores y el conjunto de los α-ésimos
I
eigenvectores de todas las matrices dentro de X .
S = diag(sign(x)) es la matriz diagonal cuya diagonal está conformada por los elementos
de sign(x).
La denición C.4.5 es fundamental para formular el siguiente teorema que entrega una
importante herramienta para calcular los eigenvalores de una multi-matriz.
Teorema C.4.1. Sean X I ∈ In×n (R), XC y ∆X las matrices centro y radio respecti-
vamente y uα (XC ) para α = 1, 2, · · · , n los eigenvectores de XC . Si X I es simétrica y
S α = diag(sign(uα(XC ) )) para α = 1, 2, · · · , n calculada para XC es constante en X I ,
entonces el eigenvalor λα de X ∈ X I oscila en el intervalo:
El teorema C.4.1 da una forma exacta de calcular el intervalo-eigenvalor λIα . Los intervalo-
eigenvectores se pueden calcular resolviendo un problema de programación lineal ?.
Teorema C.4.2. Una condición necesaria y suciente para que uα (X) sea una eigenvec-
tor de X asociado al eigenvalor λα (X) es:
λα (X)I − S α XC S α − ∆X
|uα (X)| ≤ 0
S α XC S α − ∆X − λα (X)
Para calcular cotas superiores e inferiores para uα (X) se minimiza y maximiza |uiα | sujeto
a C.3 para i = 1, 2 · · · , n−1 mientras se mantiene |uin | igual a uno. Este tipo de problema
de optimización es un problema de programación lineal y se resuelve de manera numé-
α
rica. Las cotas para uα (X) se obtienen multiplicando las cotas de |uα (X)| por la matriz S .
C.4 El conjunto In×p (R) 113
Σ = σ : X T Xu = σ 2 u, u 6= 0, X ∈ X I
δX = ±S2α ∆XS1α .
donde:
2. λα = λα
XCT XC + 2 S1α ∆X T S2α XC S + S1α ∆X T ∆XS1α .
El multi intervalo SC(X) formado por todas las desviaciones está dado por:
SC(X) = (SC(Xi )) , i = 1, 2, · · · , n
Teorema D.0.1. Considere un conjunto de variables de intervalo [x1 , x1 ], [x2 , x2 ], · · · ,
[xn , xn ] con media M . se verica que:
n
X
SC(Xi ) = 0.
i=1
115
116 D Anexo: Algunos Elementos de Estadística Intervalo Valuada
n n
!2
1X 1X
V ar(X) = f (x1 , x2 , · · · , xn ) = xh − xk .
n h=1 n k=1
En Gioia & Lauro (2005) se dan importantes resultados de f y V ar(X); por ejemplo:
n
" n
! n
!#
1X 1X 1X
Cov(X, Y ) = g(x1 , · · · , xn , y1 , · · · , yn ) = xi − xk yi − yk .
n i=1 n k=1 n k=1
La covarianza entre X y Y , que se denota por Cov(X, Y), está dada por:
Cov(X, Y) = mı́n g(x1 , · · · , xn , y1 , · · · , yn ), máx g(x1 , · · · , xn , y1 , · · · , yn )
xi ∈Xi ,yi ∈Yi xi ∈Xi ,yi ∈Yi
Cov(X, Y )
Corr(X, Y ) = h(x1 , · · · , xn , y1 , · · · , yn ) = p p .
V ar(X) V ar(Y )
La correlación entre X y Y , que se denota por Corr(X, Y), está dada por:
117
Corr(X, Y) = mı́n h(x1 , · · · , xn , y1 , · · · , yn ), máx h(x1 , · · · , xn , y1 , · · · , yn )
xi ∈Xi ,yi ∈Yi xi ∈Xi ,yi ∈Yi
1. Corr(X, Y) es el intervalo formado por todas las correlaciones que pueden ser calcu-
ladas cuando las variables varían en sus respectivos rangos de variación.
3. En particular, Corr(X, Y) = 1.
xi − x
f (x1 , x2 , · · · , xn ) = √ 2
nσ
xij − xj
sij = √ 2 .
nσj
A partir de S , se construye la matriz SS T . Dada una multi matriz X I ∈ In×p (R), los mas
I I I T
natural es pensar en construir la matriz estandarizada S y calcular S (S ) ; sin embargo
se sigue un camino diferente con la intención de garantizar que cada componente de la
nueva matriz sea un intervalo. Dicho propósito se alcanza por medio de la maximización
T
y la minimización de cada componente de la matriz SS cuando cada xij de cada varía
en su rango de valores. A continuación se formalizan estas apreciaciones.
118 D Anexo: Algunos Elementos de Estadística Intervalo Valuada
Denición D.0.7. Considere una multi matriz X I ∈ In×p (R). Considere la función:
La multimatriz (SS T )I ∈ In×n (R), es tal que su ij -ésima componente está dada por:
T I
((ss )ij ) = mı́n Fi (x1j , x2j , · · · , xnj ), máx Fi (x1j , x2j , · · · , xnj )
xij ∈Xij xij ∈Xij
Apéndice E
119
120 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.
lineal múltiple donde las variables explicativas, las variables respuesta y los coecientes
de regresión son del tipo intervalo. En al sección E.2 se muestra la extensión del análisis
de componentes principales al caso intervalo-valuado. Por último, en la sección E.3 se
presenta la metodología de regresión P LS con datos de intervalo.
Y C = X C βC + εC
−1
βbC = XC XCT XCT YC
Para una nueva observación X new = (X1new , X2new , · · · , Xpnew )T donde Xjnew = [Xjnew,L , Xjnew,U ]
para j = 1, 2, · · · , p, el b = [Yb L , Yb U ], está dado por:
valor predicho Y
Y C = X C βC + εC
Yr = Xr βr + εr
−1
βbr = Xr XrT XrT Yr
Para una nueva observación X new = (X1new , X2new , · · · , Xpnew )T donde Xjnew = [Xjnew,L , Xjnew,U ]
para j = 1, 2, · · · , p, el b = [Yb L , Yb U ], está dado por:
valor predicho Y
Y = Xβ + ε
βb = (X T X)−1 X T Y
122 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.
YC = XC βC + εC , Yr = Xr βr + εr
n
X n
X
i
p(x) = ci x = [cLi , cUi ]xi .
i=0 i=1
y1 1 x1 x21 x31 · · · xn1 c0 ε1
y 2 1 x 2 x 2 x 3 · · · x n c1 ε 2
2 2 2
.. = .. .. . . + .
. . ..
. . . . . . . . ..
. . . .
ym 1 xm x2m x3m · · · xnm cm εm
La primer técnica que se utiliza para estimar los coecientes, es la metodología de mínimos
cuadrados ordinarios, donde la estimación de C está dada por C b = (VT V)−1 VT Y. Estos
2
resultados pueden ser obtenidos minimizando la norma L de los residuales entre los
puntos medios del modelo estimado y las medidas reales
m
X
mı́n yi ))2
(m(yi ) − m(b
i=1
En la gura E.2 se muestran los verdaderos coecientes en color rojo y las estimaciones
de los coecientes en color gris.Como se observa las estimaciones son bastante sensibles
utilizando mínimos cuadrados ordinarios.
m
X
mı́n dH (yi , ybi )
i=1
Los resultados de ésta metodología son presentados en la gura E.4. Como puede verse,
las estimaciones coinciden con éxito con los valores reales de los parámetros, con errores
E.1 Regresión Lineal con Datos de Intervalos 125
de magnitud de 10−9 en relación a los puntos nales teóricos. De ésta manera puede
observarse la potencia de la metodología y como ésta captura la incertidumbre dada por
las mediciones.
Función de Weierstrass.
Con el n de mostrar la potencia de la metodología, en Gallego-Posada & Puerta-Yepes
(2015), se toma una función no tan suave como un polinomio. De ésta manera, se toma
la función de Weierstrass Hardy (1916) dada por:
∞
X
f (x) = an cos(bn πx)
n=0
Como se puede ver en la gura, los coecientes estimados para este modelo son capaces
de manejar el comportamiento caótico y ruidoso de ésta función, así como la extrema
sensibilidad que existe en el parámetro.
Para describir este comportamiento se propuso un modelo de series de Fourier. Una serie
de Fourier es una forma de representar una función de onda como la suma de ondas
sinusoidales simples, descomponiendo la señal en la suma de un (posiblemente innito)
conjunto de funciones oscilantes simples, a saber, senos y cosenos, como sigue:
n
X
f (x) = a0 + ai cos(iwx) + bi sin(iwx)
i=1
donde un a0 es un término constante (intercepto) los datos y se asocia con i=0 término
coseno, w es la frecuencia fundamental de la señal, n es el número de términos (armó-
nicos) en la serie. En este caso se estimaron modelos de varios órdenes, sin embargo, un
modelo de orden 8 muestra la tendencia observada en las medidas de forma adecuada,
especialmente en las partes iniciales y nales de los datos.
E.1 Regresión Lineal con Datos de Intervalos 127
Con base en el conjunto completo de mediciones, se extraen los límites superior e inferior
en cada instante y con ésta información, se estiman los coecientes las cotas superior e
inferior que limitan el modelo. En la gura E.7 se muestran dichas cotas
n
X
L
f (x) = aL0 + aLi cos(iwL x) + bLi sin(iwxL )
i=1
n
X
U
f (x) = aU0 + aUi cos(iwU x) + bUi sin(iwxU )
i=1
En la gura E.8 se muestra la rma acústica estimada junto con las cotas superior e
inferior. Es importante notar que la estimación utiliza únicamente información con las
medidas máximas y mínimas en cada instante. Por lo tanto, la calidad de las estimaciones
obtenidas podrían haber sido igual de buenas como las presentadas en una situación
donde se tiene escasa información disponible. También es posible percibir una reducción
en el ruido de las señales proporcionadas por el modelo, que es importante con el n de
aproximar el comportamiento local del fenómeno.
Y I = βb0I + βb1I X I .
n
P
(xi − x)(yi − y)
i=1
βb1 = βb1 (x1 , · · · , xn , y1 , · · · , yn ) = n
P : xi ∈ XiI , yi ∈ YiI (E.1)
(xi − x)2
i=1
n o
βb0 = βb0 (x1 , · · · , xn , y1 , · · · , yn ) = y − βb1 x : xi ∈ XiI , yi ∈ YiI . (E.2)
Maximizando y minimizando las funciones E.1 y E.2, se obtienen los siguientes intervalos:
βb1I = mı́n βb1 , máx βb1 (E.3)
xi ∈XiI ,yi ∈YiI xi ∈XiI ,yi ∈YiI
βb0I = mı́n βb0 , máx β0 .
b (E.4)
xi ∈XiI ,yi ∈YiI xi ∈XiI ,yi ∈YiI
En Gioia & Lauro (2005) se muestran varios ejemplos utilizando esta metodología.
E.1 Regresión Lineal con Datos de Intervalos 129
n
X
mı́n dH (YiI , YbiI ).
i=1
n
X
mı́n dH (YiI , YbiI ).
i=1
130 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.
[x11 , x11 ] [x12 , x12 ] [x13 , x13 ] · · · [x1p , x1p ]
[x , x21 ] [x , x22 ] [x , x23 ] · · · [x , x2p ]
21 22 23 2p
XI =
. . . . .
. . . .. .
. . . .
[xn1 , xn1 ] [xn2 , xn2 ] [xn3 , xn3 ] · · · [xnp , xnp ]
Se supone que las variables intervalo-valuadas son estandarizadas previamente (Ver apén-
dice Federica & Carlo (2006)). Se sabe que la metodología de regresión por componentes
principales resuelve el problema de determinar m≤p ejes uα para α = 1, 2, · · · , m tales
que resuelven el problema de optimización:
Cuando los datos son del tipo intervalo, se tiene que el problema E.7 se convierte en el
siguiente problema de eigenvalores y eigenvectores:
λα (Z) : Z ∈ (X I )T X I , uα (Z) : Z ∈ (X I )T X I , α = 1, 2 · · · , m.
(E.9)
Los intervalos dados en E.9 pueden ser calculados por medio del teorema C.4.1. El proble-
ma E.8 se puede resolver mediante el álgebra de intervalos, teniendo en cuenta que pueden
encontrarse intervalos de gran tamaño. La primera idea que se presenta para resolver el
I
problema E.8 es tomar cualquier matriz X ∈ X y resolver el problema E.7; sin embargo,
este camino es bastante lento computacionalmente. Para resolver el problema E.8 de una
manera más directa, se considera la siguiente relación:
(X I )T X I = XY : X ∈ (X I )T , Y ∈ X I ⊃ X T X : X ∈ X I
(E.10)
E.2 Análisis de Componentes Principales con Datos de Intervalos 131
I T I
esto signica que en la multimatriz (X ) X están contenidas matrices que no tienen la
T
forma X X . Esto implica que los eigenvalores y eigenvectores del problema E.8 son de
gran tamaño. Dicho inconveniente se resuelve considerando el conjunto:
ΘI = X T X : X ∈ X I .
Para calcular los eigenvalores y eigenvectores del conjunto ΘI , se puede utilizar el teorema
C.4.4. Debe tenerse en cuenta que cuando las hipótesis del teorema C.4.4 no se satisfacen,
se puede utilizar el teorema C.4.1.
Denición E.2.1. Sean uIα y uIβ dos multi vectores. uIα y uIβ son ortogonales si y sólo si
para todo uα ∈ uIα tal que uTα uα = 1, se tiene que existe uβ ∈ uIβ tal que α 6= β y uTβ uβ = 1,
que satisface uTα uβ = 0.
λα
p .
P
λj
j=1
En el caso intervalo valuado, se tiene que el porcentaje de variabilidad total que recoge
cada componente principal intervalo valuado está dado por:
λα λα
, .
Pp Pp
λα + λj λα + λj
j=1,j6=α j=1,j6=α
(ΘT )I = XX T : X ∈ X I ;
En el caso clásico, se sabe que una matriz y su transpuesta tiene los mismos eigenvalores y
su autovectores están conectados por una relación particular. En el caso intervalo valuado
I I I I I I
se tiene que si λ1 , λ2 , · · · , λp son los eigenvalores de Θ con eigenvectores u1 , u2 , · · · ,
I I T I I I
up y también son los eigenvalores de (Θ ) con eigenvectores v1 , v2 , · · · , vp , entonces
T I I I
tomando un eivenvector de alguna X X ∈ Θ y vα ∈ vα ; se tiene que existe uα ∈ uα tal
que:
uα = kα X T vα
donde kα es una constante que se introduce por la condición de norma unitaria del vector
X T vα .
De manera análoga, el α-ésimo componente principal cIα de una matriz X I ∈ In×p (R) se
puede calcular por medio de una de las dos siguientes formas:
1. cIα = X I uIα .
2. cIα =
p
λIα vαI .
I I
Considere dos multi matrices X y Y , cuyos datos en las las provienen de n indivi-
I I
duos u objetos, donde X contiene la información de p características y Y describe q
propiedades. El objetivo es determinar una relación lineal:
Y I ≈ XI B I
En lugar de determinar esta relación directamente, se tiene que tanto XI como YI son
modelados mediante variables latentes en base a los modelos de regresión:
UI = TI DI + EI .
134 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.
A partir de las subsecciones E.1.1, E.1.2, E.1.3 y E.1.4, se extiende de manera natural la
metodología de regresión por mínimos cuadrados parciales P LS al caso intervalo-valuado.
De ésta manera se da lugar a los siguientes métodos cuando hay presencia de multicoli-
nealidad en el caso intervalo-valuado.
3. Método bivariante del centro y el rango para la metodología P LS con datos de inter-
valo.
Estas metodologías son una propuesta inicial para resolver el problema intervalo-valuado;
sin embargo su principal inconveniente es que botan la información de los intervalos desde
el principio.
1. tI1 = XI w1I .
2. uI1 = YI cI1 .
A partir de las variables latentes tI1 , pI1 , uI1 y qI1 ; se construyen las matrices desinadas
XI1 y Y1I , dadas por:
I I I I I I
El proceso continúa de manera análoga y se calculan w1 , w2 , · · · , wa y c1 ,c2 ,· · · , ca o de
I I
manera compacta, las matrices W y W . De manera análoga a la expuesta en la sección
3.5, se propone:
−1
BI = WI (PI )T WI (CI )T ,
−1
BI = WI (PI )T WI (CI )T .
136 E Trabajo Futuro. Regresión P LS . Datos de Intervalo.
Bibliografía
Arsigny, V., Fillard, P., Pennec, X., Ayache, N. (2006), Log-euclidean metrics for fast and
simple calculus on diusion tensors. Magnetic Resonance in Medicine. 56. 411-421.
Billard, L.; Diday, E. (2000), Regression Analysis for Interval-Valued Data. Data
analysis, Classication, and Related Methods. eds. H.A.L. Kiers, J.-P. Rassoon,
P.J.F.Groenen, and M. Schader, Springer-Verlag, Berlin. 369-374.
Billard, L.; Diday, E. (2007), Symbolic Data Analysis: Conceptual Statistics and Data
Mining. Wiley, Chichester. 295-306.
Cummins, D., Andrews, C.W. (1995), Iteratively reweighted partial least squares: A
performance analysis by Monte Carlo simulations. J.Chemon. 9. 489-507.
De Carvalho, F., Neto, E., Tenorio, C. (2004), A New Method to Fit a Linear Regression
Model for Interval-valued Data, Springer-Verlag, Berlin. 295-306.
137
138 BIBLIOGRAFÍA
De Carvalho, F., Neto, E., Tenorio, C. (2005), Applying constrained linear aggression
models to predict interval-valued data. Springer-Verlag,Berlin. 92-106.
De Carvalho, F., Neto, E. (2010), Constrained linear regression models for symbolic
interval-valued variables. Computational Statistics and Data Analysis. 54(2).
333-347.
Deif, A.S. (1991), Singular values of an interval matrix. Linear Algebra and its Applica-
tions. 151. 125-133.
Deif, A.S., Rohn, J. (1994), On the invariance of the sign pattern of matrix eigenvectors
under perturbation. Linear Algebra and its Applications. 196.63-70.
Fang, K.T. and Zhang, Y.T (1990), Generalized multivariate analysis. Springer-Verlag.
Berlin Heidelberg.
Federica, G.; Carlo, N. (2006), Principal components analysis on interval data. Compu-
tational Statistic. 21. 343-363
Forstner, W., Moonen, B. (1999), A metric for covariance matrices. In Friedhelm Krumm
und Volker S. Schwarze, editor, Quo vadis geodesia. Department of Geodesy and
Geoinformatics,Stuttgart University. 113-128.
Gil,J., Romera, R. (1998), On robust partial least square (PLS) methods. J.Chemon. 12.
365-378.
Gioia, F.; Lauro, C. (2005), Basic Statistical Methods for Interval Data. Statistica
Applicata. 17. In press
Grant, M.; Boyd, S. (2000), Graph implementations for nonsmooth convex programs
Recent Advances in Learning and Control, Springer-Verlag, Limited.
Gupta, A.K., Nagar, D.K. (2000), Matrix variate distributions. Chapman and Hall/CRC..
Boca Raton, Florida.
Helgason, S. (1978), Dierential geometry, Lie groups, and symmetric spaces. Academic
press.
Helland, I. (2001), Some theoretical aspects of partial least squares regression. Elsevier.
58. 97-107.
Hladik, M, Daney, D, Tsigaridas, E. (2008), An Algorithm for the Real Interval Eigenva-
lue Problem. Institut National of de Recherche en Informatique et en Automatique,
6680, 1-28.
Hoerl, A., Kennard, R. (1970), Ridge regression: Biased estimation for nonorthogonal
problems. Techonometrics. 12.55-67.
Huang, Z., Wang, R., Shan, S., Li, X. and Chen, X. (2015), Log-Euclidean metric learning
on symmetric positive denite manifold with application to image set classication.
Preprint.
Li, Y. (2009), RADTI: Regression analysis of diusion tensor images. Medical imaging.
7259.
Lindgren, F. (1993), The Kernel algorthm for P LS . J.Chemom. 7. 45-59.
Manne, R. (1987), Analysis of two partial least sqares algorithms for multivariate
calibration. J.Chemom. Intell. Lab.Syst. 2. 187-197.
Milnor, J.W. (1997), Topology from the dierentiable viewpoint. Princeton university
press.
I.CVX Research (2012), CVX: Matlab software for disciplined convex programming,
version 2.0. http://cvxr.com/cvx.
Rhon, J. (1993), Interval Matrices: Singularity and Real Eigenvalues. Society for Indus-
trial and Applied Mathematics, 14, 82-91.
Rhon, J. (2011), Inverse Interval Matrix: A Survey. Electronic Journal in Linear Algebra,
22, 704-719.
Rohn, J. (1993), Interval matrices: singularity and real eigenvalues. SIAM J, Matrix Anal
Apply. 14. 82-91.
Schwartzman, A. (2006), Random ellipsoids and false discovery rates: Statistics for
diusion Tensor imaging data. Standford University. Ph. D Thesys.
Storn, R., Price, K. (1997), Dierential evolution-a simple and ecient heuristic for global
optimization over continuous spaces. Jornal of Global Optimization, 11, 341-359.
Tibshirani, R. (1996), Regression shrinkage and selection via the lasso. Royal Statistics
Society. 58. 267-288.
Valencia, L., Diaz, F., Calleja, S. (2003) Regresión PLS en las Ciencias Experimentales.
Línea 300.
Wakeling, I.N, Mace, H.J. (1992), A robust PLS procedure. J.Chemom. 6. 189-198.
Wold, H. (1975), Soft Modeling by Latent Variables; The Non-linear Iterative Partial
Least Squares Approach. Perspectives in Probability and Statistics, , 1-2.
142 BIBLIOGRAFÍA
Wu, H.C. (2007), Wolfe duality for interval-valued optmization. Journal of Mathematical
Analysis and Applications. 138. 497-509.
Zhu, H., Chen, Y., Ibrahim, J., Li, Y., Hall, C., Lin, W. (2009), Intrinsic regression models
for positive-denite Matrices with applications to diusion tensor imaging. Journal
of american Statistical Association. 104. 1203-1212.