Sunteți pe pagina 1din 16

Recommender Systems Clustering using

Bayesian non Negative Matrix Factorization

Autores: JESÚS BOBADILLA, RODOLFO BOJORQUE,, ANTONIO HERNANDO E REMIGIO HURTADO.

Disciplina: Sistemas De recomendações


Prof.ª Maria Aparecida Amorim Sibaldo
MATRIX FACTORIZATION BASED RECOMMENDER
SYSTEMS
PROBLEMA GERAL NMF ( Non Negative Matrix Factorization )

NMF foi introduzido como uma técnica de


Sistemas de Recomendação apresentam um
alto nível de dispersão em suas matrizes de aproximação de matriz de baixa classificação.
classificação. Os dados dispersos dificultam É uma das ferramentas de decomposição mais
na filtragem colaborativa:
típicas para extrair recursos-chave da matriz
a) Na comparação de elementos usando
de origem. Muito utilizado em:
soluções baseadas em memória,
● Processamento de linguagem;
b) Obter modelos precisos,
● Filtragem colaborativa;
c) Obtenha previsões precisas.
● Biologia Computacional;
d) Adequar os elementos no grupamento
corretamente. ● Recuperação de Imagens
Entre outros.
RECOMMENDER SYSTEMS CLUSTERING

O agrupamento de dados apresenta três aspectos principais:


1. Métodos: técnicas comumente usadas.
2. Domínios: tipos de dados brutos (texto, multimídia, classificações, fluxos, biológicos, etc.).
3. Variações: validação de cluster, conjuntos de cluster, etc.

O mais importante para todos os modernos RS são suas matrizes de classificação. O tipo de dados (domínio)
determina, em grande parte, o conjunto de métodos de agrupamento que melhor se encaixam nesse domínio. Os
principais tipos de agrupamento utilizados no campo de RS são:

a) algoritmos baseados em distância; b) métodos de redução de dimensionalidade.

A técnica de agrupamento foi empregada para reduzir o tamanho dos dados e a dimensionalidade do espaço
do item como o desempenho da mineração de regras de associação.

A seleção do Centroid no RS baseado em k-means pode melhorar o desempenho, além de economizar custos.
MOTIVATION AND HYPOTHESIS
◉ O uso de métodos baseados em modelos RS, especificamente o MF e o NMF, reduziu o
desempenho do método CF, devido à velocidade de predição no modelo quando treinada.

◉ No entanto, devido à crescente demanda por resultados em grandes dados, o processo de


agrupamento de RS assume uma importante fonte de informação de análise de dados.

◉ A hipótese preliminar deste artigo é que a qualidade do clustering no RS melhorará se o NMF


bayesiano for usado: esta abordagem enriquece o modelo NMF, fornecendo uma base
probabilística.

◉ Desta forma, podemos usar os parâmetros probabilísticos para afinar a alocação de cada
usuário (ou item) em cada cluster e, assim, melhorar o conjunto de agrupamentos RS.
BAYESIAN NON NEGATIVE MATRIX FACTORIZATION
PRE-CLUSTERING (BNMF+)

Os métodos básicos de cluster começam a partir de centroides iniciais, ou a partir de parâmetros iniciais,
tomados aleatoriamente. A partir deles, por meio de um processo iterativo, os centróides e seus clusters são
modificados.

Os resultados de qualidade de agrupamento dependem, em grande medida, da escolha dos centróides ou dos
parâmetros iniciais com os quais o processo iterativo é alimentado.

A natureza esparsa dos conjuntos de dados RS dificulta a escolha dos centróides iniciais e dos elementos
constituintes de cada cluster. Uma vez que cada usuário apenas contabiliza um número muito pequeno dos itens
disponíveis, a maioria dos pares <usuário, item>, na matriz de classificação estão vazios.
BAYESIAN NON NEGATIVE MATRIX FACTORIZATION
PRE-CLUSTERING (BNMF+)

O método de pré-agrupamento proposto neste artigo consiste primeiramente no algoritmo


KMeansPlusLogPower. Esta é uma variante do KMeans, que utiliza usuários "Power" para encontrar centróides
K.

Com número máximo de classificações no conjunto de treinamento o primeiro centróide corresponde ao usuário
que emitiu o máximo de votos (ou um aleatório, em caso de empate). Os próximos centróides são selecionados
procurando a maior distância dos existentes. Usando KMeansPlusLogPower, a probabilidade de um usuário de
conjunto de treinamento se tornar um dos centróides iniciais de K.

As contribuições deste artigo para o pré-clustering do BNMF são:

a) Escolha da melhor medida de similaridade para os métodos KMeansPlus e


b) a maneira de vincular os resultados pré-agrupados do KMeans com os valores iniciais dos parâmetros de
aprendizado do BNMF.
EXPERIMENTS

O experimento:

● Foram testados 1) BNMF 2) A pré-clusterização e 3) A combinação de ambos (BNMF+);


● O K-Means e Fatoração de Matrizes foram usados como linhas de base;
● Resultados foram obtidos em datasets abertos;
● Foram medidos a qualidade das predições, a coesão dos dados e a performance de execução dos
resultados;
● O experimento foi executado usando 3-fold cross-validation;
● Foram testadas vários valores de tamanho no cluster: de 6 até 400 ;
● A medida da precisão da predição de erro absoluto médio (MAE) foi escolhida porque é a métrica que
indica a qualidade das previsões de FC.
EXPERIMENTS
CHOOSING THE ALPHA AND BETA VALUES

O método BNMF permite definir os parâmetros α e β . Quanto maior a β, mais evidências do modelo requerem
para deduzir que um grupo de usuários gosta ou não gosta de um item. Por outro lado, um alto valor β gera
previsões conservadoras e, portanto, piora a precisão. Um valor α muito próximo a zero significa que os usuários
tendem a pertencer a um grupo.

Os valores α mais elevados indicam que cada usuário pode, probabilisticamente, pertencer, simultaneamente, a
mais de um grupo. Portanto, um valor α próximo de zero leva-nos a uma abordagem de cluster rígido,
proporcionando melhores resultados de qualidade dentro do cluster.
CHOOSING THE ALPHA AND BETA VALUES

Usando o conjunto de dados


Movielens 1M, o processo BNMF é
realizado para diferentes valores α.
Esta experiência define para 6 o
número de clusters (K = 6).

Como esperado, para os


pequenos valores de alfa, um
único fator(fator 5, barra preta)
determina quase todo o
comportamento do usuário,
enquanto que com grandes
valores de α, o fator principal
perde peso e o resto dos fatores
também definem as características
dos usuários.
CLUSTERING IMPROVEMENTS

Nesta seção, apresentamos os resultados de qualidade obtidos de cada experiência de agrupamento. Entre as
medidas de qualidade de agrupamento existentes, tomamos o mais representativo e popular: coesão (intra-cluster
distância). Normalmente, esta medida é definida como a soma das distâncias entre cada elemento do cluster e seu
centróide. A seguinte equação formaliza o conceito:

Onde: K é o número de clusters, Ck é o k cluster, ck é o centróide do cluster k, u é um usuário RS, a semelhança é


a medida de similaridade escolhida (Pearson, MJD, Euclidean, etc.). Quanto maior o valor de coesão, melhor será
qualidade do agrupamento.
CLUSTERING IMPROVEMENTS
PREDICTION ACCURACY IMPROVEMENTS
CONCLUSION

Além da precisão, o agrupamento de sistemas recomendações é importante; permite enfrentar vários


desafios de filtragem colaborativa: explicação de recomendações, análise de dados, visualização e
navegação através da informação do conjunto de dados, obtendo as características que definem cada
grupo de usuários ou itens, etc.

Entre os métodos baseados em modelos, as técnicas de factorização da matriz são as mais populares. O
método de factorização da matriz não-negativa bayesiana fornece dados de fator de flexibilidade. Ele
também fornece a condição útil de que cada fator escondido do usuário individual seja uma probabilidade.
As experiências mostram que o método BNMF:

a) melhora, simultaneamente, a precisão das linhas de base e seus resultados de qualidade de


agrupamento,
b) Pode ser configurado para aumentar as melhorias de agrupamento reduzindo a precisão ou vice-versa,
ALGORITMO
Obrigado!
Alguma pergunta?

S-ar putea să vă placă și