Documente Academic
Documente Profesional
Documente Cultură
O mais importante para todos os modernos RS são suas matrizes de classificação. O tipo de dados (domínio)
determina, em grande parte, o conjunto de métodos de agrupamento que melhor se encaixam nesse domínio. Os
principais tipos de agrupamento utilizados no campo de RS são:
A técnica de agrupamento foi empregada para reduzir o tamanho dos dados e a dimensionalidade do espaço
do item como o desempenho da mineração de regras de associação.
A seleção do Centroid no RS baseado em k-means pode melhorar o desempenho, além de economizar custos.
MOTIVATION AND HYPOTHESIS
◉ O uso de métodos baseados em modelos RS, especificamente o MF e o NMF, reduziu o
desempenho do método CF, devido à velocidade de predição no modelo quando treinada.
◉ Desta forma, podemos usar os parâmetros probabilísticos para afinar a alocação de cada
usuário (ou item) em cada cluster e, assim, melhorar o conjunto de agrupamentos RS.
BAYESIAN NON NEGATIVE MATRIX FACTORIZATION
PRE-CLUSTERING (BNMF+)
Os métodos básicos de cluster começam a partir de centroides iniciais, ou a partir de parâmetros iniciais,
tomados aleatoriamente. A partir deles, por meio de um processo iterativo, os centróides e seus clusters são
modificados.
Os resultados de qualidade de agrupamento dependem, em grande medida, da escolha dos centróides ou dos
parâmetros iniciais com os quais o processo iterativo é alimentado.
A natureza esparsa dos conjuntos de dados RS dificulta a escolha dos centróides iniciais e dos elementos
constituintes de cada cluster. Uma vez que cada usuário apenas contabiliza um número muito pequeno dos itens
disponíveis, a maioria dos pares <usuário, item>, na matriz de classificação estão vazios.
BAYESIAN NON NEGATIVE MATRIX FACTORIZATION
PRE-CLUSTERING (BNMF+)
Com número máximo de classificações no conjunto de treinamento o primeiro centróide corresponde ao usuário
que emitiu o máximo de votos (ou um aleatório, em caso de empate). Os próximos centróides são selecionados
procurando a maior distância dos existentes. Usando KMeansPlusLogPower, a probabilidade de um usuário de
conjunto de treinamento se tornar um dos centróides iniciais de K.
O experimento:
O método BNMF permite definir os parâmetros α e β . Quanto maior a β, mais evidências do modelo requerem
para deduzir que um grupo de usuários gosta ou não gosta de um item. Por outro lado, um alto valor β gera
previsões conservadoras e, portanto, piora a precisão. Um valor α muito próximo a zero significa que os usuários
tendem a pertencer a um grupo.
Os valores α mais elevados indicam que cada usuário pode, probabilisticamente, pertencer, simultaneamente, a
mais de um grupo. Portanto, um valor α próximo de zero leva-nos a uma abordagem de cluster rígido,
proporcionando melhores resultados de qualidade dentro do cluster.
CHOOSING THE ALPHA AND BETA VALUES
Nesta seção, apresentamos os resultados de qualidade obtidos de cada experiência de agrupamento. Entre as
medidas de qualidade de agrupamento existentes, tomamos o mais representativo e popular: coesão (intra-cluster
distância). Normalmente, esta medida é definida como a soma das distâncias entre cada elemento do cluster e seu
centróide. A seguinte equação formaliza o conceito:
Entre os métodos baseados em modelos, as técnicas de factorização da matriz são as mais populares. O
método de factorização da matriz não-negativa bayesiana fornece dados de fator de flexibilidade. Ele
também fornece a condição útil de que cada fator escondido do usuário individual seja uma probabilidade.
As experiências mostram que o método BNMF: