Sunteți pe pagina 1din 30

Modelos Avanzados para Analisis de Datos II MIIA4203

Periodo Vacaciones - M
odulo 2
Maestra en Inteligencia Analtica para Toma de Decisiones

Profesor: Carlos Valencia

Departamento de Ingeniera Industrial


Universidad de Los Andes, Bogot
a, Colombia

Clase 2 - Agosto 8, 2016

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
1/
o19du

Table of Contents

Modelos estadsticos con muchas dimensiones II

Formas Especiales de Penalizaci


on (Improved Sparsity)

Metodos para Completar Matrices y Sistemas de Recomendacion

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
2/
o19du

Modelos estadsticos con muchas dimensiones II

Modelos estadsticos con muchas dimensiones: Sparsity


Alta Dimensionalidad (High Dimensionality)
En muchas aplicaciones los datos que se deben analizar contienen muchas
variables de interes, esto es, presentan alta dimensionalidad.
Recuerde que consideramos el problema en el cual tenemos datos estructurados, es
decir, que se tiene una observaci
on (dato o individuo) con p registros (variables).
En general el problema de la dimensionalidad tiene diferentes tratamietos
dependiendo del prop
osito del analisis: selecci
on de variables, visualizacion,
interpretacion, disminuci
on de multicolinealidad o spurious correlations.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
3/
o19du

Modelos estadsticos con muchas dimensiones II

Modelos estadsticos con muchas dimensiones: Sparsity


Alta Dimensionalidad (High Dimensionality)
En muchas aplicaciones los datos que se deben analizar contienen muchas
variables de interes, esto es, presentan alta dimensionalidad.
Recuerde que consideramos el problema en el cual tenemos datos estructurados, es
decir, que se tiene una observaci
on (dato o individuo) con p registros (variables).
En general el problema de la dimensionalidad tiene diferentes tratamietos
dependiendo del prop
osito del analisis: selecci
on de variables, visualizacion,
interpretacion, disminuci
on de multicolinealidad o spurious correlations.
Dos enfoques para tratar muchas dimensiones:
1

Reducci
on de dimensiones (compresi
on de datos): Se crea un conjunto de
nuevas variables que conservan la mayor parte de la informacion necesaria:
Componntes Principales (PCA), Analisis de Factores (AF), Independent
Component Analysis (ICA), etc.
Escasez Relativa (Sparsity) : El tratamiento que vamos a ver ahora!!!

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
3/
o19du

Modelos estadsticos con muchas dimensiones II

Modelos estadsticos con muchas dimensiones: Sparsity


Alta Dimensionalidad (High Dimensionality: Sparsity)
Contario a reducir variables medianet transformaciones y compresiones, el supuesto
de escasez determin que si se tienen muchas variables, s
olo una proporcion de ellas
es importante para el analsis, con lo que las demas se pueden obviar.
Se seleccionan las variables relevantes, sin combinarlas entre ellas. En general, los
modelos con sparsity son mas adecuados cuando:
Las dimensiones son mucho mas altas, incluyendo el caso en que se tiene mas
variables que observaciones: p > n
Se requiere interpretaci
on de las relaciones y efectos de cada variable
Encontrar el grupo de variables relevantes de parte del interes del analisis

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
4/
o19du

Modelos estadsticos con muchas dimensiones II

Modelos estadsticos con muchas dimensiones: Sparsity


Alta Dimensionalidad (High Dimensionality: Sparsity)
Contario a reducir variables medianet transformaciones y compresiones, el supuesto
de escasez determin que si se tienen muchas variables, s
olo una proporcion de ellas
es importante para el analsis, con lo que las demas se pueden obviar.
Se seleccionan las variables relevantes, sin combinarlas entre ellas. En general, los
modelos con sparsity son mas adecuados cuando:
Las dimensiones son mucho mas altas, incluyendo el caso en que se tiene mas
variables que observaciones: p > n
Se requiere interpretaci
on de las relaciones y efectos de cada variable
Encontrar el grupo de variables relevantes de parte del interes del analisis
La u
ltima es la mas importante!!!

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
4/
o19du

Modelos estadsticos con muchas dimensiones II

Modelos estadsticos con muchas dimensiones: Sparsity


Alta Dimensionalidad (High Dimensionality: Sparsity)
El enfoque de sparsity se favoreci
o necesidad (aparici
on de datos con muchas
variables) y por el desarrollo de algoritmos que realizan seleccin automatica de
variables.
En particular, el algoritmo que mas impuls
o estos metodos fue el LASSO y en
general la penalizaci
on con norma 1.
Lo importante en high dimensional data analysis no es s
olo que tenga buen poder
predictivo para disminuir el sesgo y la varianza, sino que en el analisis se
identifiquen las variables relevantes al problema.
1

Modelos de regressi
on con muchas variables (LASSO)

Modelos lineales generalizados

Otras formas de penalizaci


on (grouped lasso)

Analisis de datos multivaridos en grandes dimensiones

Metodos para completar matrices y sistemas de recomendacion

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
5/
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Improved Sparsity)


Cuando se usa penalizaci
on en norma 1 (k k1 ) se seleccionan variables de forma
tal que para un grupo de predictores muy correlacionados, se tiende a seleccionar
solamente uno de ellos.
Esto resuelve el problema de la selecci
on automatica de variables y se puede
interpretar.
Muchas veces, para mejorar la interpretaci
on, se busca reducir este efecto.
Ejemplo: Se quiere encontrar las variables que influyen sobre la respuesta, as
se encuentren correlacionadas.
A veces se requiere seleccionar grupos de variables (facores), pero dentro de
cada grupo se prefire mantener todas las variables en el modelo. Ejemplo:
Dise
no de Experimentos (DOE) y ANOVA en grandes dimensiones.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
6/
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Improved Sparsity)


Cuando se usa penalizaci
on en norma 1 (k k1 ) se seleccionan variables de forma
tal que para un grupo de predictores muy correlacionados, se tiende a seleccionar
solamente uno de ellos.
Esto resuelve el problema de la selecci
on automatica de variables y se puede
interpretar.
Muchas veces, para mejorar la interpretaci
on, se busca reducir este efecto.
Ejemplo: Se quiere encontrar las variables que influyen sobre la respuesta, as
se encuentren correlacionadas.
A veces se requiere seleccionar grupos de variables (facores), pero dentro de
cada grupo se prefire mantener todas las variables en el modelo. Ejemplo:
Dise
no de Experimentos (DOE) y ANOVA en grandes dimensiones.
Para el caso en el que se busca reducir el efecto de escoger una varaible por grupo
se puede modificar la norma con la que se penaliza (Elastic Net), y si se tiene una
estructura de grupos, donde puede modificar con Grouped Lasso.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
6/
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Elastic Net)


Elastic Net
Lasso no ofrece el mejor desempe
no cuando los inputs se encuentran
correlacionados (multicolinealidad).
Para mejorar este efecto, Elastic Net combina la norma del Lasso (k k1 ) con la
norma del modelo Ridge (k k2 ), produciendo:
= arg min
Rp

n
X



(Yi xiT )2 + kk22 + (1 )kk1

i=1

Donde por facilidad se asumen datos centrados (no hay intercepto), [0, 1], y
kk22

p
X

j2

j=1

kk1

p
X

|j |

j=1

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
7/
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Elastic Net)


Elastic Net
Cual es el efecto que esto produce?.
Al combinar las dos normas se relaja el supuesto de sparsity, permitiendo que
variables correlacionadas que simultaneamente en el modelo (si son relevantes),
pero al mismo tiempo seleccionando un subconjunto de variables. De manera
grafica:

Tomado de Statistical Learning with Sparsity, Hastie, et al.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
8/
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Elastic Net)


Elastic Net
Como se ve la forma en la que se regularizan los estimadores?.

Tomado de Statistical Learning with Sparsity, Hastie, et al.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

PeriodoClaseVacaciones
2 - Agosto 8, 2016 - M
9/
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
A veces se requiere llevar el efecto del Elastic Net mucho mas alla, para permitir
que las variables correlacionadas se somporten como grupos. De esta forma, se
requiere pensar en sparsity entre los grupos.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
10 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
A veces se requiere llevar el efecto del Elastic Net mucho mas alla, para permitir
que las variables correlacionadas se somporten como grupos. De esta forma, se
requiere pensar en sparsity entre los grupos.
Esto tiene mucho sentido cuando las variables se deben agrupar para enternder los
resultados, por ejemplo:
A veces los datos viene en grupos o clusters naturales. Ejemplos: (i) la
influencia de genes generalmente se agrupa en pathways, (ii) modelos con
datos estratificados (observaciones por ciudad, o por continente, etc)
Modelo jerarquicos: si un grupo aparece relevante, entonces todos los
subgrupos deben serlo. Ejemplo.
Dise
no de Experimentos y ANOVA: Cada factor (j) tiene (kj ) niveles, por lo
cual se requieren kj 1 variables por factor en un modelo lineal que deben
tenerse en cuenta si el factor es significativo.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
10 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
Para forzar el comportamiento agrupado, no se penaliza por cada en el modelo,
sino de manera agrupada.
Suponga qe en total se tiene un total de J grupos (factores, efectos, etc), cada
PJ
uno de los cuales tiene pj variables. El n
umero total de variables es p = j=1 pj .

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
11 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
Para forzar el comportamiento agrupado, no se penaliza por cada en el modelo,
sino de manera agrupada.
Suponga qe en total se tiene un total de J grupos (factores, efectos, etc), cada
PJ
uno de los cuales tiene pj variables. El n
umero total de variables es p = j=1 pj .
Representando cada grupo como Zj Rpj , entonces se estiman los grupos de
parametros j usando:
= arg min
Rp

n
X

Yi

i=1

donde
kj k2 =

J
X

2
zijT j +

j=1

J
X

kj k2

j=1

q
2 + + 2
j,1
j,pj

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
11 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
El efecto de este tipo de penalizaci
on es que para algunos grupos desaparecen
(ninguna de sus variables es significativa), y para los que quedan en el modelo,
todas sus variables tienen estimaciones diferentes de cero.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
12 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
El efecto de este tipo de penalizaci
on es que para algunos grupos desaparecen
(ninguna de sus variables es significativa), y para los que quedan en el modelo,
todas sus variables tienen estimaciones diferentes de cero.
Graficamente, si 1 y 2 estan en el mismo grupo, entonces:

Tomado de Statistical Learning with Sparsity, Hastie, et al.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
12 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso - Sparsity dentro de los grupos
Cuando los grupos so grandes, puede ser conveniente generar sparsity dentro de
cada grupo seleccionado para emjorar la interpretaci
on. Para esto se puede usar:
= arg min
Rp

n
X
i=1

Yi

J
X
j=1

J
X
zijT j + (1 )kj k2 + kj k1
j=1

Graficamente, para 1 y 2 estan en el mismo grupo:

Tomado de Statistical Learning with Sparsity, Hastie, et al.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
13 /
o19du

Formas Especiales de Penalizaci


on (Improved Sparsity)

Formas Especiales de Penalizacion (Grouped Lasso)


Grouped Lasso
Como se ve la forma en la que se regularizan los estimadores?.

et al. ClaseVacaciones
Periodo
2 - Agosto 8, 2016 - M
14 /
o19du

Tomado
de
Statistical
Learning
with
Sparsity,
Hastie,
Profesor: Carlos Valencia (Departamento
de Ingenier
aModelos
IndustrialUniversidad
Avanzados
para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Para comprender el problema de completamiento de matrices, es necesario
entender primero los problemas de descomposici
on y aproximacion de matrices.
El problema se parece a el Analisis de Componentes Principales, en donde se
busca aproximar una matriz (de varianza) con otra matriz de menor complejidad
pero manteniendo la mayor parte de la informaci
on.
Muchos problemas comunes ueden ser puestos en este formato. En gerenal se
quiere una de dos cosas:
de la misma dimension, pero que
1
Aproximar una matriz Z con otra matriz Z
tenga una estructura mas simple. Ejemplo: Analisis de Componentes
Principales (PCA).
2

Completar una matriz Z que tiene elementos faltantes. Ejemplo: The Netflix
Challenge.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
15 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Para comprender el problema de completamiento de matrices, es necesario
entender primero los problemas de descomposici
on y aproximacion de matrices.
El problema se parece a el Analisis de Componentes Principales, en donde se
busca aproximar una matriz (de varianza) con otra matriz de menor complejidad
pero manteniendo la mayor parte de la informaci
on.
Muchos problemas comunes ueden ser puestos en este formato. En gerenal se
quiere una de dos cosas:
de la misma dimension, pero que
1
Aproximar una matriz Z con otra matriz Z
tenga una estructura mas simple. Ejemplo: Analisis de Componentes
Principales (PCA).
2

Completar una matriz Z que tiene elementos faltantes. Ejemplo: The Netflix
Challenge.

En general suponemos que se tiene una matriz de datos:


Z Rnp

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
15 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Rnp que
Para ambos problemas, es posible formular que se busca una matriz Z
np
se parezca lo mas posible a la matriz Z R , considerando ciertas restricciones

en la estrucutra de Z.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
16 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Rnp que
Para ambos problemas, es posible formular que se busca una matriz Z
np
se parezca lo mas posible a la matriz Z R , considerando ciertas restricciones

en la estrucutra de Z.
Formulacion General:
= arg min kZ Mk2F ; sujeto a : (M) c
Z
MRnp

donde k k2F es la norma matricial de Forbenius, es decir, la suma de todos los


elementos al cuadrado. La funci
on () es una restricci
on para imponer uns
estructura mas simple, como por ejemplo sparsity, o rango menor de la matriz.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
16 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Rnp que
Para ambos problemas, es posible formular que se busca una matriz Z
np
se parezca lo mas posible a la matriz Z R , considerando ciertas restricciones

en la estrucutra de Z.
Formulacion General:
= arg min kZ Mk2F ; sujeto a : (M) c
Z
MRnp

donde k k2F es la norma matricial de Forbenius, es decir, la suma de todos los


elementos al cuadrado. La funci
on () es una restricci
on para imponer uns
estructura mas simple, como por ejemplo sparsity, o rango menor de la matriz.
Las dos penalizaciones mas usadas son (i) element wise sparsity, y (ii) singular
value decomposition low rank constrain.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
16 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Estas dos penalizaciones implican:
`1

(Z) =

p
n X
X
i

rank(Z)

|zij |

(Z) = rank(Z) r

La primera penalizaci
on induce que muchos elementos de la matriz van a ser cero.
Funciona bien en algunas aplicaciones, pero en general no es el mejor
procedimiento para completar una matriz (sobre todo en un sistema de
recomendaci
on).

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
17 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Estas dos penalizaciones implican:
`1

(Z) =

p
n X
X
i

rank(Z)

|zij |

(Z) = rank(Z) r

La primera penalizaci
on induce que muchos elementos de la matriz van a ser cero.
Funciona bien en algunas aplicaciones, pero en general no es el mejor
procedimiento para completar una matriz (sobre todo en un sistema de
recomendaci
on).
Generalmente se prefier usar la restricci
on sobre el rango, lo cual implica hacer la
descomposici
on espectral de la matriz Z:
Z = UDVT Rnp

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
17 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Z = UDVT Rnp
Donde
U Rnp

V Rpp

D Rpp

donde UT U = Ip y VT V = Ip . Ademas, D es la matriz diagonal que contiene los


p eigenvalues de la matriz Z.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
18 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Z = UDVT Rnp
Donde
U Rnp

V Rpp

D Rpp

donde UT U = Ip y VT V = Ip . Ademas, D es la matriz diagonal que contiene los


p eigenvalues de la matriz Z.
El rango de Z es
rank(Z) = min(n, p)
que tenga rango
De esta forma, si se quiere la mejor aproximaci
on posible Z
r rank(Z), la soluci
on es:
X
2
= arg min
Z
(zij mij ) = UDr VT
M:rank(M)r

i,j

donde Dr contiene los r primeros eigenvalues.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
18 /
o19du

M
etodos para Completar Matrices y Sistemas de Recomendaci
on

Completamiento de Matrices y Sistemas de Recomendacion


Problema General: Aproximaci
on y Completamiento de Z
Sin embargo, este problema no es u
til cuando la matriz Z esta incompleta. En
este caso se debe encontrar un procedimiento que resuta de la solucion de un
problema de optimizaci
on convexo. Uno de los algoritmos mas estables (y
usados), son los que usan la norma nuclear.
Completamiento de Matrices con Norma Nuclear

2
= arg min
Z
(zij mij ) + kMk

M
i,j

donde k k es la norma nuclear, es decir, la suma del valor absoluto de los


eigenvalues (traza).
Note que esto es equivalente a aproximar sacando los eigevectors que no son
importantes usando regularizaci
on tipo Lasso.

Profesor: Carlos Valencia (Departamento de IngenieraModelos


IndustrialUniversidad
Avanzados para
deAn
Los
alisis
Andes,
de Datos
Bogot
IIa,- Colombia)
MIIA4203

Periodo
ClaseVacaciones
2 - Agosto 8, 2016 - M
19 /
o19du

S-ar putea să vă placă și