Sunteți pe pagina 1din 132

HELIO MOREIRA DA SILVA

MINERAO DE DADOS EM GRANDES BASES DE DADOS: UM ESTUDO DE AGRUPAMENTOS (CLUSTERING)

Centro Universitrio Salesiano U. E. Lorena Lorena, 2006

Folha de Aprovao

HELIO MOREIRA DA SILVA

MINERAO DE DADOS EM GRANDES BASES DE DADOS: UM ESTUDO DE AGRUPAMENTOS (CLUSTERING)

Trabalho de Concluso de Curso desenvolvido como requisito parcial para obteno do grau de Bacharel em Cincia da Computao do Centro Universitrio Salesiano de So Paulo U.E. Lorena, sob a orientao do Prof. Ms. Jos Walmir Gonalves Duque

Centro Universitrio Salesiano U. E. Lorena Lorena, 2006

Dedico minha esposa Cludia e minha filha Jlia Mariana, que estiveram ao meu lado sempre, acreditaram em mim, apoiando-me nas horas difceis. A todas as pessoas que de uma forma ou de outra contriburam para que eu pudesse realizar este trabalho e me formar.

AGRADECIMENTOS

Gostaria de agradecer primeiramente Deus, pois atravs dele tudo possvel, minha esposa Cludia e filha Jlia Mariana, por terem me ajudado acreditar que seria capaz fazer este trabalho, por terem pacincia comigo nas horas que me ausentei, por terem me dado apoio para no desistir nas horas difceis, aos meus familiares: pais, irmos, sogro e sogra, com os quais pude contar sempre, aos meus professores que, de uma forma ou de outra, ajudaram na realizao deste trabalho. Em especial, agradeo ao meu orientador, Professor Ms. Jos Walmir Gonalves Duque, pela oportunidade de realizar este trabalho e por suas orientaes, Professora Giana Raquel Rosa Gouva pela ateno e ajuda no desenvolvimento metodolgico deste trabalho. E, finalmente, quero agradecer aos meus colegas de classe, com os quais pude conviver por quatro anos, criando um fraterno lao de amizade. A todos, muito obrigado!

RESUMO A evoluo tecnolgica tem propiciado a possibilidade de gerao de inmeras informaes (registros) a cada momento, formando gigantescas bases de dados nas organizaes (empresas, governo, universidades, hospitais, etc). Questes como O que fazer com todos os dados armazenados?", "Como utilizar o patrimnio digital em benefcio das instituies?", "Como analisar e utilizar, de maneira til, todo o volume de dados disponvel?", entre outras, surgem naturalmente. Porm a anlise de toda essa informao a olho nu pelo homem no simples, necessitando, portanto de tcnicas e ferramentas que permitam adquirir, de forma automtica, conhecimentos que esto implcitos nestas bases de dados. Neste contexto, surge uma nova rea denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD), mais conhecida como Minerao de Dados, a qual , na realidade, uma das etapas do processo de KDD. Essa nova rea procura minerar as bases de dados em busca de conhecimentos teis, valiosos para as organizaes, que podem a partir destes tomar decises importantes, fazer marketing, ser, portanto, mais competitivas no mercado. Este trabalho tem como objetivo descrever algumas tcnicas e algoritmos de agrupamentos (clustering) para, a partir da, escolher um algoritmo e aplic-lo em uma base de dados de uma locadora de vdeo, descrevendo e interpretando os resultados com observaes, concluses e grficos. Para esse intento, foi necessrio conhecer o processo de KDD, aplicando as etapas: o Prprocessamento, que tem a funo de captao, organizao e tratamento dos dados, preparando-os para a minerao; a Minerao de Dados, tambm conhecida como Data Mining, a qual consiste em definir as tarefas, tcnicas e algoritmos que podem ser aplicados sobre os dados para a descoberta de conhecimento neste trabalho foi empregado o algoritmo SimpleK-Means; por fim, a etapa Ps-processamento, na qual o tratamento do conhecimento obtido na Minerao de Dados permite facilitar, para o homem, a interpretao e a avaliao da utilidade dos resultados. Nesta pesquisa, utilizou-se o WEKA, software gratuito, para a aplicao da Minerao de Dados, que gerou vrios resultados interessantes, como por exemplo, gneros mais alugados por bairro, gneros menos alugados, preferncia de gnero por sexo, clientes que mais e menos alugam, filmes que mais e menos alugam, entre outros. Conclui-se que este trabalho permite um grande aprendizado na rea de Minerao de Dados, sobretudo em Agrupamentos, conhecendo melhor alguns algoritmos, em especial K-Means, K-Modes, K-Medoids e SimpleK-Means, nos quais constatou-se a desvantagem de ter que especificar o nmero de clusters; a sensibilidade destes algoritmos em relao a rudos; as dificuldades em minerar bases de dados com grandes dimenses (muitos atributos), alterando significativamente os resultados e a vantagem que em quanto uns, como KMeans, trabalham com atributos numricos, outros, como K-Modes, permitem trabalhar com dados categricos (textos), e outros ainda, como SimpleK-Means, podem manipular os dois tipos de dados. Por fim, cabe ressaltar que necessrio muita pesquisa para obter-se um algoritmo que seja capaz de atender a todos os requisitos necessrios uma boa Minerao de Dados.

Palavras-chave: KDD; Tarefas de KDD; Tcnicas e Algoritmos de Minerao de Dados; Mtodos; Agrupamentos (Clustering); Weka. ABSTRACT The technological evolution has afforded the possibility of generating a great amount of information (registers) each moment, forming enormous quantity of databases in organizations (companies, government, universities hospitals, etc). Questions such as "What to make with all the stored data", "How to use the digital patrimony in benefit of the institutions", "How to analyze and to use, in useful way, all the available volume of data", among others, appear naturally. However, the analysis of all this information with the naked eye by man is not simple. He needs, therefore, techniques and tools that allow him to acquire, in an automatic form, knowledge that are implicit in these databases. In this context, there is a new area called Knowledge Discovery in Databases KDD, known as "Data Mining ", which is, in reality, one of the stages of the KDD process. This new area tries to mine the databases searching valuable and useful knowledge for the organizations that can, from these, to take important decisions, to make marketing and, therefore, to be more competitive in the market. This work aims to describe some techniques and algorithms of groupings (clustering) and, from there, to choose an algorithm and to apply it in a database of a video rental shop, describing and interpreting the results with comments, conclusions and graphics. For this reason, it was necessary to know the KDD process, applying the stages: the Pre processing, that has the function of capitation, organization and treatment of the data, preparing them for the mining; the " Data Mining ", also known as " Date Mining ", which consists of defining the tasks, techniques and algorithms that can be applied on the data to discover knowledge - in this work the algorithm "SimpleK-Means" was used; finally, the stage "After-processing", in which the treatment of knowledge got during the process of Data Mining allows to facilitate, for man, the interpretation and the evaluation of the utility of results. This research generated some interesting results, for example, sorts more rented by quarter, sorts less rented, sort preference for gender, customers who rent more and who rent less, films that rent more and that rent less, among others. It is concluded that this work allows a great learning in Data Mining area, mainly in Groupings, some algorithms, specially "K-Means", "K-Modes", "K-Medoids" and "SimpleKMeans", in which the disadvantage of having to specify the number of clusters was evidenced; the sensitivity of these algorithms in relation to noise; the difficulties in mine databases with great dimensions (many attributes), significantly modifying the results and the advantage to notice that while some work with numerical attributes, others allow to work with categorical data (texts) and others still can manipulate these two types of data. Finally, it was possible to notice that much research is still necessary to get an algorithm that is able to pay attention to all the necessary requirements to a good Data Mining.

Key-words: KDD, Technicians and algorithms of Data Mining, Methods; Clustering; Weka.

LISTAS DE FIGURAS
Figura 1: Grandes quantidades de dados transformadas em conhecimentos. .......................... 24 Figura 2: Etapas do processo de KDD. ........................................................................................ 29 Figura 3: Anlise de crdito........................................................................................................ 35 Figura 4: Uma rvore de deciso. .............................................................................................. 40 Figura 5: Classificao do dados. .............................................................................................. 43 Figura 6: Neurnio Artificial. ........................................................................................................ 48 Figura 7: Rede Neural Artificial. .................................................................................................. 49 Figura 8: Conjunto nebuloso construdo em funo da varivel "Idade". ................................... 54 Figura 9: Matriz de dados........................................................................................................... 58 Figura 10: Matriz de similaridade................................................................................................ 59 Figura 11: Fluxograma do funcionamento do Algoritmo K-Means. .............................................. 65 Figura 12: Passos subseqentes do Algoritmo K-Means. ........................................................... 66 Figura 13: Dendograma. ............................................................................................................. 70 Figura 14: Como os Mtodos Hierrquicos trabalham. ................................................................ 71 Figura 15: Representao de clusters e rudos. .......................................................................... 73 Figura 16: Alcance por Densidade e Conectividade por Densidade. ............................................ 74 Figura 17: Aprendizado competitivo. ........................................................................................... 79 Figura 18: Mapa de Kohonen. .................................................................................................... 80 Figura 19: Tabela de registros de Clientes................................................................................. 84 Figura 20: Tabela de registros de Filmes. .................................................................................. 84 Figura 21: Tabela de registros de locaes de Filmes. .............................................................. 85 Figura 22: Registros com rudos. ............................................................................................... 86 Figura 23: Registros excludos da base de dados. .................................................................... 86 Figura 24: Base de dados codificada. ........................................................................................ 88 Figura 25: Atributo DATAMOV inconsistente. ............................................................................ 91 Figura 26: Base de dados com atributo BAIRRO com __ e SEXO preenchido. ...................... 92 Figura 27: Arquivo no formato CSV antes das alteraes. ...................................................... 95 Figura 28: Arquivo no formato ARFF aps as alteraes. ....................................................... 96 Figura 29: Janela exibindo um erro carregando o arquivo LOCACAO.ARFF. ........................... 96 Figura 30: Carregando o arquivo LOCACAO.ARFF................................................................... 97 Figura 31: Escolhendo o nmero de clusters e o nmero de sementes. .................................. 99 Figura 32: Exemplo de como o software WEKA representa o Modelo de Conhecimento. ....... 100 Figura 33: Os 15 Filmes mais alugados com base nos testes realizados no Weka. ................ 116 Figura 34: Alguns Filmes menos alugados com base nos testes realizados no Weka. ........... 117 Figura 35: Gneros de filmes apresentado pelo WEKA. .......................................................... 117 Figura 36: Gneros de filmes mais alugados, apresentado pelo WEKA. ................................. 120 Figura 37: Gneros de filmes menos alugados, apresentado pelo WEKA. .............................. 120 Figura 38: Filmes alugados por bairro. ..................................................................................... 121 Figura 39: Filmes mais alugados por Sexo. ............................................................................. 121 Figura 40: Bairros que alugam filmes. ...................................................................................... 122 Figura 41: Separabilidade dos clientes pelo atributo Sexo. ..................................................... 124 Figura 42: Separabilidade dos clientes pelo atributo Bairro. .................................................... 124

LISTAS DE TABELAS

Tabela 1: Resumo das tarefas de KDD........................................................................................ 55 Tabela 2: Ferramentas de KDD. .................................................................................................. 56 Tabela 3: A tabelas escolhidas e seus atributos. ....................................................................... 85 Tabela 4: Novos atributos aps aplicar a funo Construo de Atributos . ........................ 89 Tabela 5: Atributos rejeitados por inconsistncia do atributo DATAMOV. ................................. 91 Tabela 6: Tabela LOCACAO.DBF normalizada. ........................................................................ 92 Tabela 7: Testes realizados com N Clusters e N Seeds. ......................................................... 101 Tabela 8: Resultado do teste T1 apresentado pelo WEKA. ..................................................... 102 Tabela 9: Resultado do teste T2 apresentado pelo WEKA. ..................................................... 102 Tabela 10: Resultado do teste T3 apresentado pelo WEKA. ................................................... 103 Tabela 11: Resultado do teste T4 apresentado pelo WEKA. ................................................... 104 Tabela 12: Resultado do teste T5 apresentado pelo WEKA. ................................................... 104 Tabela 13: Resultado do teste T6 apresentado pelo WEKA. ................................................... 105 Tabela 14: Resultado do teste T7 apresentado pelo WEKA. ................................................... 106 Tabela 15: Resultado do teste T8 apresentado pelo WEKA. ................................................... 107 Tabela 16: Resultado do teste T9 apresentado pelo WEKA. ................................................... 109 Tabela 17: Resultado do teste T10 apresentado pelo WEKA. ................................................. 110 Tabela 18: Resultado do teste T11 apresentado pelo WEKA. ................................................. 110 Tabela 19: Resultado do teste T12 apresentado pelo WEKA. ................................................. 112 Tabela 20: Resultado do teste T13 apresentado pelo WEKA. ................................................. 112 Tabela 21: Resultado do teste T14 apresentado pelo WEKA. ................................................. 116 Tabela 22: Colocao dos clientes que mais alugam filmes, segundo WEKA. ........................ 118 Tabela 23: Colocao dos com clientes que menos alugam filmes, segundo WEKA. ............. 119 Tabela 24: Gneros mais assistidos por clientes que menos alugam filmes. .......................... 123

SUMRIO
INTRODUO .................................................................................................................................... 10 1. UMA VISO GERAL SOBRE MINERAO DE DADOS .......................................................... 22 1.1 APRESENTAO .................................................................................................................... 22 1.2 O PROCESSO DE KDD ........................................................................................................... 25 1.2.1 O problema em que ser aplicado o processo de KDD......................................................... 25 1.2.2 Os Recursos Disponveis ................................................................................................... 26 1.2.3 Os Resultados Obtidos....................................................................................................... 28 1.3 ETAPAS DO PROCESSO KDD ................................................................................................. 29 1.3.1 Etapa de Pr-processamento ............................................................................................ 29 1.3.2 Etapa de Minerao de Dados .......................................................................................... 34
1.3.2.1 1.3.2.2 1.3.2.3 Medida de Interesse ................................................................................................................. 35 Similaridade ............................................................................................................................... 36 Aprendizado ............................................................................................................................... 38

1.3.3 1.4 1.5 1.6 1.6.1 1.6.2 1.6.3 1.6.4 1.6.5 1.6.6 1.6.7 1.7 1.8

Etapa de Ps-processamento ............................................................................................ 39 APRENDIZADO DE MQUINA ................................................................................................. 41 TAREFAS DO PROCESSO DE KDD ........................................................................................... 42 MTODOS DE MINERAO DE DADOS ................................................................................... 47 Algoritmos de Redes Neurais .......................................................................................... 48 Algoritmos Genticos ...................................................................................................... 50 Algoritmos Baseados em Instncias ................................................................................. 50 Algoritmos Estatsticos .................................................................................................... 51 Algoritmos Especficos .................................................................................................... 52 Algoritmos de rvores de Deciso .................................................................................. 52 Algoritmos Baseados em Lgica Nebulosa ...................................................................... 53 RESUMO DAS TAREFAS DE KDD ........................................................................................... 55 FERRAMENTAS DE KDD ....................................................................................................... 56

2 CLUSTERIZAO (CLUSTERING).............................................................................................. 57 2.1 APRESENTAO .................................................................................................................... 57 2.1.1 Estrutura de Dados .......................................................................................................... 58 2.1.2 Requisitos para os Algoritmos de Clusterizao ............................................................... 60 2.2 MTODOS DE CLUSTERIZAO ............................................................................................. 62 2.2.1 Mtodos por Particionamento .......................................................................................... 63 2.2.2 Mtodos Hierrquicos...................................................................................................... 70 2.2.3 Mtodos Baseados em Densidade .................................................................................... 72 2.2.4 Mtodos Baseados em Grades ......................................................................................... 74 2.2.5 Mtodos Baseados em Modelos ....................................................................................... 76
2.2.5.1 2.2.5.2 Abordagem Estatstica ................................................................................................................. 77 Abordagem por Rede Neural ...................................................................................................... 78

3 APLICAO DO PROCESSO DE KDD......................................................................................... 81 3.1 APRESENTAO .................................................................................................................... 81 3.2 PROGRAMAS UTILIZADOS ...................................................................................................... 81 3.3 APLICAO DAS ETAPAS DO KDD ........................................................................................ 82 3.3.1 Etapa de Pr-Processamento ............................................................................................ 83
3.3.1.1 Hipteses.................................................................................................................................... 89 Testes realizados sobre a Base de Dados ........................................................................ 101 Respondendo as Hipteses e Explicando os Resultados .............................................. 116

3.3.2 3.3.3

Etapa de Minerao de Dados .......................................................................................... 93 Etapa de Ps-processamento .......................................................................................... 116

3.3.2.1 3.3.3.1

CONSIDERAES FINAIS ........................................................................................................... 125 REFERNCIAS BIBLIOGRFICAS E BIBLIOGRAFIAS ............................................................ 130

10

INTRODUO

A viso a mais sofisticada modalidade sensorial do ser humano. Porm, quando se trata de grandes quantidades de dados armazenados, espera de especialistas em descobrir informaes interessantes e teis, humanamente impossvel visualizar essas informaes, uma vez que elas podem estar implcitas e desagrupadas dentro dos bancos de dados. Por isso, mtodos e tcnicas de anlise precisam ser aplicados sobre esses dados para que relaes novas e teis possam ser descobertas, ou seja, os dados devem ser Minerados (Data Mining). A Minerao de Dados consiste na busca pela descoberta conhecimento em bases de dados, tambm chamado de KDD - (Knowledge Discovery in Databases), um processo dividido em etapas como Prprocessamento, Minerao de Dados e Ps-processamento. A Minerao de Dados permite, por exemplo, adquirir conhecimentos teis, descobrir relaes entre produtos, classificar consumidores, prever vendas, localizar reas geogrficas com perfis especficos, perceber

necessidades de consumidores ou de uma regio, entre outras. Tambm pode ser definida como o uso de tcnicas automticas de explorao de grandes quantidades de dados, para descobrir novos padres e relaes, que devido ao volume de dados, no seriam facilmente descobertos a olho nu pelo ser humano. Pode ser aplicado a qualquer massa de dados, sejam eles de medicina, economia, astronomia, geologia, entre outras.

11

MOTIVAO Diante de incalculveis quantidades de dados disponveis e esses dados aumentando a cada momento, extremamente atraente o uso da tecnologia Data Mining para explorao de dados por vrios motivos:

1.

O volume de dados enorme: Data Mining s se aplica s grandes

massas de dados. Empresas de telefonia, cartes de credito, bancos, televiso por assinatura, comrcio eletrnico, entre outras, geram grandes quantidade de dados sobre seus clientes e servios. Esses dados so passveis de anlise por minerao; 2. Os dados esto sendo organizados: Com a tecnologia Data

Warehouse, os dados esto sendo organizados e padronizados para a tomada de deciso atravs de ferramentas de anlises. Data Mining necessita de banco de dados limpos, padronizados e organizados; 3. Disponibilidade de Recursos Computacionais: Data Mining necessita

de muitos recursos computacionais para operar seus algoritmos sobre grandes bases de dados e a queda dos preos dos computadores possibilita o uso de Data Mining hoje; 4. Bancos de Dados Distribudos: A construo de bancos de dados

distribudos e avanos nesta rea tambm contribuem para a minerao de dados; 5. As empresas exigem tcnicas mais modernas de deciso:

Inicialmente empresas das reas de finanas, telecomunicaes e seguros sentiram essa necessidade e hoje outras empresas tambm buscam adquirir dados para analisar melhor seus caminhos futuros por meios de sistemas de apoio deciso; e

12

6.

A Informao o Produto: Para empresas de servios, importante

saber o que oferecer e a quem. Para outras empresas, at a venda das informaes pode ser um produto. Em particular, dentro do escopo de Data Mining, perceber

Agrupamentos pode ser importante para organizaes, pois podem demonstrar comportamentos de suas atividades tais como vendas, compras, gerncias de decises, locaes, entre outras. O estgio de desenvolvimento da tecnologia atual tornou

relativamente fcil o acmulo de dados nas empresas, cuja a conseqncia a ampliao dos Bancos de Dados. Ao mesmo tempo a informao passa a ser valorizada como nunca antes na histria e os dados armazenados podem ser vasculhados por profissionais especializados procura de tendncias e padres. Entretanto, a anlise desses dados ainda demorada, dispendiosa, pouco automatizada, e sujeita a erros, mal-entendidos e falta de ateno, ou seja, informaes passam despercebidas a olho nu, pois geralmente esto implcitas (CARVALHO, 2001). Na tentativa de minimizar essas carncias que o problema de pesquisa se apresenta:

PROBLEMA DE PESQUISA

Quais tcnicas de Data Mining devem ser utilizadas para descobrir novos conhecimentos (Knowledge Discovery in Databases - KDD), sob o prisma de Agrupamento (Clustering), no domnio de aplicao de uma Locadora de Vdeo?

13

MINERAO DE DADOS EM UMA LOCADORA DE VDEO A Minerao de Dados em uma Locadora de Vdeo pode oferecer subsdios para sua melhor gesto, tais como novas relaes, classes, padres, grupos de usurios com caractersticas comuns e grupos com perfis heterogneos (excees). Para isso, sero aplicadas todas as etapas do KDD numa base de dados de uma locadora, a qual ser minerada pelo algoritmo de Clusterizao SimpleK-Means, por se tratar de um algoritmo clssico de Minerao de Dados e por estar implementado em um software gratuito WEKA, permitindo usar esse algoritmo e explorar todas as suas caractersticas sem a necessidade de implementao.

OBJETIVO Estudar as tcnicas de Minerao de Dados, ou seja, os mtodos, as tarefas e os algoritmos, escolher um algoritmo, aplic-los sobre uma base de dados e mostrar os resultados, permitindo a realizao de anlise para que se possa interpret-los, oferecendo apoio nas tomadas de decises, sob o prisma da tarefa de Agrupamento (Clustering).

JUSTIFICATIVA Minerao de Dados tornou-se uma necessidade, j que permite transformar grandes quantidades de dados em conhecimentos teis que podem ser utilizados como auxlio nas tomadas de decises, permitindo avanos sem paralelo na histria do desenvolvimento dos bancos de dados.

14

Algumas reas com interesse na utilizao de minerao de dados:

- Marketing: Tcnicas de Minerao de Dados so aplicadas para descobrir preferncias do consumidor e padres de compra ou locao, com o objetivo de realizar marketing direto de produtos e ofertas promocionais, de acordo com o perfil do consumidor. - Deteco de fraudes: Muitas fraudes bvias (tais como, a compensao de cheque por pessoas falecidas) podem ser encontradas sem Minerao de Dados, mas padres mais sutis de fraude podem ser difceis de ser detectados, por exemplo, o desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que poder se tornar inadimplente em seus pagamentos. - Medicina: Caracterizar comportamento de paciente para prever visitas, identificar terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas doenas. - Instituies governamentais: Descoberta de padres para melhorar as coletas de taxas ou descobrir fraudes. - Cincia: Tcnicas de Minerao de Dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padres em estruturas

moleculares, dados genticos, mudanas globais de clima, oferecendo concluses valiosas rapidamente.

15

DELIMITAO DO PROBLEMA

Os bancos de dados atuais so muito grandes (muitos registros) e, na maioria das vezes, dispersos (divididos em tabelas). A busca por conhecimento que possa oferecer apoio s tomadas de decises em empresas, instituies e organizaes tem se tornado de vital importncia para a sua existncia. Dentro desse contexto, surgiu nos anos 90, um ramo da Cincia da Computao que tinha esse tipo de preocupao: Descobri Conhecimento em Bases de Dados (Knowledge Discovery in Databases- KDD). A Minerao de Dados (Data Mining) pode ser considerada como uma parte do KDD, onde geralmente usado para representar o processo de tornar dados de baixo nvel em conhecimento de alto nvel por meio da extrao de padres ou modelos de dados observados, explorao e a anlise, por meio automtico ou semi-automtico (BERRY; LINOFF, 2004). Segundo Berry e Linoff (2004), os principais objetivos da Minerao de Dados so de descobrir relacionamentos entre dados e fornecer subsdios para que possa ser feita uma previso de tendncias futuras baseadas no passado. Os resultados obtidos com a Minerao de Dados podem ser usados no gerenciamento de informao, processamento de pedidos de informao, tomada de deciso, controle de processo e muitas outras aplicaes. Uma das tarefas possveis de emprego de Data Mining o Agrupamento, que consiste na partio de uma populao heterognea de dados em vrios subgrupos, ou grupos (clusters), mais homogneos. Alguns possveis exemplos so agrupar clientes por regies do pas, agrupar clientes com preferncias por determinados gneros de filmes, agrupar clientes com

16

comportamento de compra similar, agrupar sees de usurios para prever comportamentos futuros. Por fim, interessa o estudo de tcnicas de Agrupamento em aplicaes das mais diversas, tais como a utilizada por esta pesquisa um Banco de Dados de uma Vdeo Locadora. Em especfico, na aplicao realizada nesse estudo, pretende-se encontrar novas relaes, classes, padres, grupos de usurios com caractersticas comuns e grupos com perfis heterogneos (excees).

REFERENCIAL TERICO

Segundo Pedrycz (2005), padres e dados so partes integradas na cultura de nossa sociedade de informao. O desafio que ns estamos enfrentando todos os dias manipular o fluxo de dados gerados pelas transaes bancrias, pelos milhes de sensores, os registros de log da WWW (World Wide Web), o trfego de comunicaes das chamadas de celulares, colees de sistemas de imagens de satlites, para mencionar apenas alguns exemplos evidentes. De acordo com Carvalho (2001) e Fayyad (1996), Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases KDD) um processo que envolve a automao da identificao e do reconhecimento de padres em um banco de dados. Sua principal caracterstica a extrao no-trivial de informaes a partir de uma base de dados de grande porte. Essas informaes so necessariamente implcitas, previamente desconhecidas e potencialmente teis.

17

O processo de KDD um conjunto de atividades contnuas que compartilham o conhecimento descoberto a partir de bases de dados. Esse conjunto composto de etapas, que so: Pr-processamento, Minerao de Dados (Data Mining) e Ps-processamento (FAYYAD, 1996). Para Goldschmidt e Passos (2005), dentro das etapas do KDD, Data Mining se destaca oferecendo as tcnicas para extrao de algum tipo de conhecimento para posterior anlise e interpretao. As tcnicas de Data Mining so utilizadas para delinear o perfil dos clientes e estreitar a relao com consumidores. A tecnologia de Data Mining faz uso de algoritmos matemticos e estatsticos para pesquisar padres em grandes volumes de dados que se relacionem com questes comerciais. Companhias se voltam a essa tecnologia para identificar novos clientes, diminuir os custos e descobrir novas hipteses. Vrias tarefas podem ser consideradas na etapa de Data Mining, tais como Descrio, Associao, Classificao, Previso, grupamento, Anlise de srie temporal. No entanto, interessa neste estudo a tarefa de Agrupamento (Clustering). Segundo Carlantonio (2001), para a tarefa de Agrupamento, tambm denominada Classificao No-Supervisionada, existem diversos mtodos ou algoritmos que foram ou esto sendo desenvolvidos, tais como alguns exemplos a seguir:

18

K-MEANS; K-MODES K-MEDOIDS; SIMPLEK-MEANS FUZZY C-MDIAS; FUZZY K-MEANS; CLARANS; PAM; CURE; EM;

BIRCH; ROCK; STING; CLICK; K-PROTOTYPES; OPTIC; WAVECLUSTER; ISODATA; COBWEB; KOHONEN.

METODOLOGIA

Este trabalho iniciou-se com pesquisas sobre o termo Minerao de Dados, chegando concluso de que o mesmo uma etapa do processo de KDD, que por sua vez subentende-se Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Data Bases KDD) e que preciso passar por todas as fases deste processo para se chegar ao resultado desejado, o conhecimento. Dentro do processo de KDD, conhecer as etapas Pr-

processamento, Minerao de Dados e Ps-processamento foi de fundamental importncia para o desenvolvimento deste trabalho. Como o objetivo deste trabalho conhecer e aplicar tcnicas e algoritmos de Clusterizao sobre uma base de dados e mostrar os resultados, foi preciso estudar o processo de KDD e suas aplicaes, estudar os

19

algoritmos de agrupamentos, seus pontos fortes e fracos, suas caractersticas e suas diferenas para poder escolher um e aplic-lo no processo de KDD. Aps ter definido qual algoritmo seria utilizado, o prximo passo foi obter a base de dados a ser aplicado no processo de KDD. Uma base de dados de uma locadora de vdeo foi conseguida para ser utilizada neste trabalho. Com a base de dados, aplicou-se a etapa de Pr-processamento no sentido de modelar os dados para sua posterior aplicao na etapa de Minerao de Dados. Utilizou-se para isso os softwares DBF View, Microsoft Excel e o Bloco de Notas. Na etapa de Minerao de Dados, aplicou-se o algoritmo escolhido sobre a base de dados para descobrir conhecimentos, novos padres ou relaes interessantes e teis. Utilizou-se para isso a linguagem de programao JAVA atravs do Software WEKA. Aplicou-se o conhecimento em JAVA, aps o estudo dessa linguagem de programao, a qual foi muito importante como base para entender o funcionamento dos algoritmos e do software WEKA feito em JAVA, usado na Minerao de Dados e, portanto, precisa dessa linguagem instalada para funcionar. Aplicou-se o software WEKA, aps seu estudo, conhecendo sua interface, os tipos de arquivos e seus formatos aceitveis, seus algoritmos de Clusterizao, seus parmetros de entradas, seus pr-requisitos e suas respostas em forma de Minerao de Dados, permitindo chegar ao objetivo desta pesquisa.

20

Por ltimo, na etapa de Ps-processamento, aps a aplicao do algoritmo selecionado sobre o banco de dados de uma Vdeo Locadora, analisou-se os resultados, bem como fez-se uma apresentao de forma que o especialista no Domnio da Aplicao pudesse ver, ler e interpretar os resultados obtidos. Utilizou-se, para isso, o software Microsoft Excel para gerar grficos.

SNTESE DOS CAPTULOS

Captulo 1: UMA VISO GERAL SOBRE MINERAO DE DADOS Neste captulo apresentado uma viso panormica do termo Data Mining ou Minerao de Dados como mais conhecido, mostrando, no entanto, que este termo na realidade uma etapa de um processo muito maior que o KDD (Knowledge Discovery in Databases), ou seja, o processo de Descoberta de Conhecimento em Bases de Dados. Neste captulo tambm so mostrados detalhes de cada parte do processo KDD, dando uma viso bem clara dos conceitos e onde pode ser utilizado no mercado, tendo como referncia os seguintes autores: Carvalho (2001); Goldschmidt e Passos (2005); Resende (2003); Fayyad et al. (1996) e Elmasri e Navathe (2000); Pedrycz (2005), Carlantonio (2001); Braga, Carvalho e Ludermir (2000).

21

Captulo 2: CLUSTERIZAO (CLUSTERING) Neste captulo apresentada a tarefa de Agrupamento (Clustering), as tcnicas mais conhecidas e usadas e principalmente, vrios algoritmos voltados para esta tarefa, com o objetivo de escolher um para aplicar na etapa de Minerao de Dados, tendo como referncia os seguintes autores: Fayyad et al. (1996); Carlantonio (2001); Goldschmidt e Passos (2005); Braga, Carvalho e Ludermir (2000).

Captulo 3: APLICAO DO PROCESSO DE KDD Neste captulo so expostos o modo terico e prtico de como preparar a base de dados, passando pela etapa de Pr-processamento, aplicando suas funes at chegar ao arquivo ideal para ser, ento, usado na etapa de Minerao de Dados, onde tambm so descritos os passos para carregar o arquivo em formato .ARFF no software WEKA, escolher a tarefa de Cluster, configurar os parmetros necessrios, iniciar a Minerao de Dados, colher os resultados e finalmente aplic-los etapa de Ps-processamento, gerando explicaes e grficos sobre o conhecimento encontrado, tendo como referncia os seguintes autores: Carlantonio (2001); Fayyad et al. (1996); Goldschmidt e Passos (2005); Souto (2005); Witten e Frank (2000).

22

1. UMA VISO GERAL SOBRE MINERAO DE DADOS

1.1

Apresentao

Segundo Elmasri e Navathe (2000), Minerao de Dados (Data Mining) o uso de mtodos e tcnicas automticas de explorao de grandes Bancos de Dados, para descobrir novos padres, tendncias e relaes que possam significar conhecimentos, que devido a grande quantidade de dados, no seriam facilmente vistos a olho nu pelo ser humano. Portanto, a Minerao de Dados consiste em extrair informaes de grandes bases de dados de empresas, organizaes e instituies, permitindo a realizao de anlises que possam oferecer apoios nas tomadas de decises. Para Carvalho (2001); Goldschmidt e Passos (2005); Resende (2003) e FAYYAD et al. (1996), os constantes avanos na rea da Tecnologia da Informao tm permitido o armazenamento de grandes e mltiplas bases de dados. Tecnologias como a Internet, sistemas gerenciadores de banco de dados, leitores de cdigos de barras, dispositivos de memria secundria de maior capacidade de armazenamento, de menor custo como HDs e sistemas de informao em geral so alguns exemplos de recursos que tm viabilizado a proliferao e o aumento gigantesco de inmeras bases de dados de natureza comercial, administrativa, governamental e cientfica.

23

Atualmente, dados cientficos em projetos de pesquisa, tais como misses espaciais da NASA e o Projeto do Genoma Humano, tm alcanado propores gigantescas. Empresas como FedEx, Wal-Mart, UPS, Banco do Brasil, Caixa Econmica Federal, Sendas e outros possuem bases de dados da ordem de centenas de Terabytes de informaes (GOLDSCHMIDT e PASSOS, 2005). A cada dia dados esto sendo gerados. Quando se realiza uma compra por telefone, por exemplo, o nmero telefnico, a durao da chamada, o nmero do carto de crdito, o endereo da entrega, o produto escolhido e outros dados, como nvel sociocultural, preferncias e hobbies, podem ser facilmente armazenados em bancos de dados. A filosofia empresarial dirigida ao cliente considera cada item de informao sobre o cliente, cada interao em pontos de venda, cada chamada ao servio de atendimento ao cliente e cada visita a uma pgina da world wide web (www), como uma oportunidade de obter dados sobre o cliente. Certamente que obter dados no significa aprender sobre o cliente! De fato, muitas empresas armazenam Gigabytes de dados ocupando espao e sem aprender nada acerca dos seus clientes e produtos. Nestes casos, os dados so armazenados para fins operacionais, como controle de estoque e cobrana, e aps seu uso so simplesmente descartados sem a considerao de que podem representar uma fonte de informao valiosa para a empresa (CARVALHO, 2001).

24

Diante desse cenrio, naturalmente surgem algumas questes como: "O que fazer com todos os dados armazenados?", "Como utilizar o patrimnio digital em benefcio das instituies?", "Como analisar e utilizar de maneira til todo o volume de dados disponvel?", entre outras. A anlise de grandes quantidades de dados pelo homem no trivial sem o auxlio de ferramentas computacionais apropriadas. Portanto, torna-se imprescindvel o desenvolvimento de ferramentas que auxiliem o homem, de forma automtica e inteligente, na tarefa de analisar, interpretar e relacionar esses dados para que se possa desenvolver estratgias de tomadas de decises (FAYYAD et al., 1996). necessrio conseguir transformar grandes quantidades de dados em conhecimentos teis, conforme mostra a figura 1.

Figura 1: Grandes quantidades de dados transformadas em conhecimentos. GOLDSCHMIDT e PASSOS (2005)

neste contexto que surge uma nova rea denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases KDD), mais popularmente conhecida como Minerao de Dados ou Data Mining, a qual , na realidade, uma das etapas do processo de KDD (GOLDSCHMIDT e PASSOS, 2005).

25

1.2

O processo de KDD
Numa viso geral, o processo de KDD a busca pela descoberta de

conhecimento em base de dados. Basicamente, um processo de KDD composto por trs de componentes: O Problema em que ser aplicado o processo de KDD; Os recursos disponveis para a soluo do problema ; e Os resultados obtidos a partir da aplicao dos recursos disponveis em busca da soluo do problema (GOLDSCHMIDT e PASSOS, 2005). A seguir esto detalhamentos e comentrios sobre cada um dos componentes.

1.2.1

O problema em que ser aplicado o processo de KDD Segundo Elmasri e Navathe (2000), o problema em que ser

aplicado o processo de KDD pode ser caracterizado por trs elementos: a) O conjunto de dados; b) O especialista do Domnio da Aplicao; e c) Os objetivos da aplicao.

a)

Todo conjunto de dados pode ser observado sob os aspectos intencional

e extensional. O aspecto intencional se refere estrutura ou ao esquema do conjunto de dados. Neste contexto encontram-se os atributos (campos) do conjunto de dados. Os registros compem o aspecto extensional do conjunto de dados, ou seja, seu tamanho. Mesmo no sendo obrigatrio, o processo de KDD pressupe que os dados sejam organizados em uma nica estrutura

26

tabular

bidimensional chamado Data Warehouse (Banco

de

Dados

Multidimensional), contendo casos e atributos do problema a ser analisado.

b)

O especialista no Domnio da Aplicao representa a pessoa ou o grupo de

pessoas que conhece o assunto em que dever ser realizada a aplicao de KDD. Em geral, pertencem a esta classe analistas de negcios interessados em identificar novos conhecimentos que possam ser utilizados em sua rea de atuao. Costumam deter o chamado conhecimento prvio sobre o problema (background knowledge). As informaes prestadas pelas pessoas deste grupo so de fundamental importncia no processo de KDD, pois influenciam desde a definio dos objetivos do processo at a avaliao dos resultados

(GOLDSCHMIDT e PASSOS, 2005).

c)

Para Engels (1996); Engels et al. (1997); Wirth et al. (1997); Verdenius e

Engels (1997) apud Goldschmidt e Passos (2005), os objetivos da aplicao compreendem os resultados a serem produzidos ao final do processo, chamados, a partir de agora, de Modelo de Conhecimento. Tais objetivos diminuem restries e expectativas dos especialistas no domnio da aplicao acerca do modelo de conhecimento a ser gerado.

1.2.2

Os Recursos Disponveis Os Recursos Disponveis para soluo do problema podem ser (GOLDSCHMIDT e PASSOS, 2005): a) O especialista em KDD; b) As ferramentas de KDD; e

27

c) A plataforma computacional disponvel (Hardware e Software).

a)

O especialista em KDD representa a pessoa ou o grupo de pessoas que

possui experincia na execuo de processos de KDD. Ele Interage com o especialista no Domnio da Aplicao e direciona a conduo do processo de KDD, definindo o que, como e quando deve ser realizada cada ao do processo. Suas atribuies variam desde a identificao e a utilizao do conhecimento prvio existente sobre o problema at o direcionamento das aes do processo, que englobam a seleo e a aplicao das ferramentas disponveis, alm da avaliao dos resultados obtidos (GOLDSCHMIDT e PASSOS, 2005).

b)

A expresso ferramenta de KDD est sendo empregada para designar

qualquer recurso computacional que possa ser utilizado no processo de anlise de dados. Pode ser desde um ambiente de software que integre diversas funcionalidades de tratamento e anlise de dados at algoritmos isolados que possam ser adaptados ao processo de KDD (GOLDSCHMIDT e PASSOS, 2005).

c)

A plataforma computacional, conforme o prprio nome sugere, indica os

recursos computacionais de hardware (processadores e memria) disponveis para a execuo da aplicao de KDD. So os equipamentos disponibilizados para o processo. Podem ser desde mquinas isoladas at mesmo ambientes computacionais paralelos. Quanto maior a capacidade de processamento e memria da plataforma computacional, maior a agilidade em obter resultados, proporcionando uma maior dinmica ao processo de KDD (FAYYAD et al.,

28

1996). 1.2.3 Os Resultados Obtidos Segundo Fayyad et al. (1996), os resultados obtidos a partir da aplicao dos recursos no problema compreendem, fundamentalmente: a) b) Os modelos de conhecimento descobertos ao longo da aplicao de KDD; O histrico das aes realizadas.

a)

Fayyad et al. (1996) explicam que a expresso modelo de conhecimento

indica qualquer abstrao de conhecimento, expresso em alguma linguagem, que descreva algum conjunto de dados. Todo modelo de conhecimento deve ser avaliado com relao ao cumprimento das expectativas definidas nos objetivos da aplicao. muito comum que, durante o processo de KDD, sejam realizadas comparaes entre os modelos de conhecimento obtidos. Por exemplo. se no caso dos emprstimos da financeira fossem obtidos diversos modelos e todas as

caractersticas desses modelos fossem iguais, menos a acurcia (preciso). Considerando ainda, que todos os modelos tenham acurcia superior mnima desejada. O modelo de conhecimento com maior preciso na classificao dos clientes possui maiores chances de ser eleito como principal resultado (produto final) gerado pelo processo de KDD. b) Os histricos sobre como os modelos de conhecimento foram gerados

tambm se enquadram como resultados do processo de KDD. So de fundamental importncia no controle do processo, pois permitem uma anlise crtica e uma reviso das aes realizadas.

29

1.3

Etapas do Processo KDD

A Descoberta de Conhecimento em Bases de Dados caracterizada como um processo composto por trs etapas operacionais bsicas

(GOLDSCHMIDT e PASSOS, 2005): Pr-processamento; Minerao de Dados; e Ps-processamento.

Dados

Conhecimento

Figura 2: Etapas do processo de KDD. GOLDSCHMIDT e PASSOS (2005)

1.3.1

Etapa de Pr-processamento

Segundo Goldschmidt e Passos (2005), a etapa de Pr-processamento compreende todas as funes relacionadas captao, organizao e ao tratamento dos dados. Essa etapa tem como objetivo a preparao dos dados para os algoritmos da etapa da Minerao de Dados.

30

As principais funes do Pr-processamento dos dados so: a) Seleo de Dados; b) Limpeza dos Dados; c) Codificao dos Dados; d) Enriquecimento dos Dados; e) Normalizao de Dados; e f) Construo de Atributos.

a) Seleo de Dados Para Goldschmidt e Passos (2005), essa funo compreende, em essncia, a identificao de quais informaes, dentre as bases de dados existentes, devem ser efetivamente consideradas durante o processo de KDD. A seleo dos dados pode ter dois enfoques distintos: a escolha de atributos ou a escolha de registros que devem ser considerados no processo de KDD. Em geral, os dados encontram-se organizados em bases de dados transacionais que sofrem constantes atualizaes ao longo do tempo. Assim sendo, recomenda-se que seja sempre feita uma cpia dos dados a fim de que o processo de KDD no interfira nas rotinas operacionais relacionadas base de dados. Nos casos em que j exista uma estrutura de Data Warehouse, deve-se verificar a possibilidade de que esta seja utilizada no processo de KDD. Nos demais casos, comum a congregao dos dados em uma nica tabela, pois a

31

maioria dos algoritmos de Minerao de Dados assim exige. O processo de KDD pode ocorrer independente da disponibilidade ou no de um Data Warehouse. A juno dos dados em uma nica tabela pode ocorrer de duas formas: I) Juno Direta

Todos os atributos (campos) e registros da base de dados transacional so includos na nova tabela, sem uma anlise crtica quanto a que variveis e que casos podem realmente contribuir para o processo de KDD. II) Juno Orientada

O especialista no Domnio da Aplicao, em parceria com o especialista em KDD, escolhe os atributos e os registros com algum potencial para influenciar no processo de KDD. Recomenda-se que sejam desconsiderados somente atributos e registros sobre os quais se tenha uma viso clara quanto existncia de potencial de contribuio para o processo de KDD.

b) Limpeza dos Dados Abrange qualquer tratamento realizado sobre os dados selecionados de forma a assegurar a qualidade (completude, veracidade e integridade) dos fatos por eles representados. Informaes ausentes, errneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a no comprometer a qualidade dos resultados (modelos de conhecimento) a serem extrados do processo de KDD. A execuo dessa fase tem como objetivo, corrigir a base de dados, eliminando consultas desnecessrias que poderiam ser executadas futuramente pelos algoritmos de Minerao de Dados, afetando o seu desempenho.

32

A melhor maneira de evitar a poluio dos dados organizando a entrada dos dados. Rotinas de crtica nas interfaces de entrada de dados dos sistemas de informao so de grande valor para evitar a poluio dos dados. No entanto, nem sempre tais rotinas esto disponveis. Assim sendo, a participao dos especialistas em KDD e dos especialistas na rea da aplicao essencial nesta operao (GOLDSCHMIDT e PASSOS, 2005).

c) Codificao dos Dados Nessa funo, os dados devem ser codificados para ficarem numa forma que possam ser usados como entrada dos algoritmos de Minerao de Dados. importante compreender que os dados devem ser codificados de forma a atender s necessidades especficas dos algoritmos de Minerao de Dados. Por exemplo, uma rede neural requer que os dados estejam em uma representao numrica. Assim sendo, caso a base de dados a ser processada apresente valores nominais (texto), estes devem ser codificados antes de serem submetidos rede, pois a maneira como a informao codificada tem forte influncia sobre o tipo de conhecimento a ser encontrado (GOLDSCHMIDT e PASSOS, 2005).

Segundo eles, a codificao pode ser:

I) Numrica - Categrica que transforma valores reais em categorias ou intervalos; II) Categrica - Numrica que representa numericamente valores de atributos categricos.

33

d) Enriquecimento dos Dados A fase de enriquecimento consiste em conseguir de alguma forma mais informao que possa ser agregada aos registros existentes, enriquecendo os dados, para que estes forneam mais informaes para o processo de descoberta de conhecimento (GOLDSCHMIDT e PASSOS, 2005).

e) Normalizao de Dados Para Goldschmidt e Passos (2005), essa operao consiste em ajustar a escala dos valores de cada atributo de forma que os valores fiquem em pequenos intervalos, tais como -1 a 1, ou de 0 a 1. Tal ajuste faz-se necessrio para evitar que alguns atributos, por apresentarem uma escala de valores maior que outras, influenciem de forma tendenciosa em determinados mtodos de Minerao de Dados.

f) Construo de Atributos Essa operao consiste em gerar novos atributos a partir de atributos existentes. Os novos atributos so denominados atributos derivados. Como exemplo, citado a criao de um atributo "Idade" a partir do atributo "DT_NC" (data de nascimento) e da data corrente do sistema (SYSDATE). A importncia desse tipo de operao justificada pois novos atributos, alm de expressarem relacionamentos conhecidos entre atributos existentes, podem reduzir o conjunto de dados, simplificando o processamento dos algoritmos de Minerao de Dados (GOLDSCHMIDT e PASSOS 2005).

34

1.3.2

Etapa de Minerao de Dados Segundo Elmasri e Navathe (2000), a Minerao de Dados, tambm

conhecida como Data Mining, consiste em descobrir relaes entre produtos, classificar consumidores, prever vendas, localizar reas geogrficas com perfis especficos, perceber necessidades, entre outras. Para Goldschmidt e Passos (2005), na Minerao de Dados, so definidos as tcnicas e os algoritmos a serem utilizados na base de dados (no problema em questo). Redes Neurais Artificiais, algoritmos Genticos, Modelos Estatsticos e Probabilsticos so exemplos de tcnicas que podem ser utilizadas na etapa de Minerao de Dados. A escolha da tcnica depende, muitas vezes, do tipo de tarefa de KDD a ser realizada. A etapa de Minerao de Dados a principal etapa do processo de KDD. Envolve a aplicao de algoritmos sobre os dados em busca de conhecimentos implcitos e teis, denominado Modelo de conhecimento. Goldschmidt e Passos (2005), explicam que todo conjunto de dados no processo de KDD corresponde a uma base de fatos ocorridos que devem ser interpretados como um conjunto de pontos em um hiper-espao de K dimenses. A dimenso da base de fatos determinada pelo nmero de atributos do conjunto de dados em anlise. A figura 3 mostra o exemplo no contexto da anlise de crdito nas quais trs informaes esto representadas em um plano cartesiano. Os eixos correspondem aos atributos Renda e Despesa. Cada ponto representa um caso. O smbolo associado a cada caso ("crculo" ou "xis") fornece a terceira informao, que corresponde ao comportamento do cliente quanto ao pagamento do crdito concedido.

35

Neste exemplo a financeira responsvel pelos dados deseja obter um modelo de conhecimento que preveja o comportamento de futuros clientes quanto ao pagamento de suas dvidas com uma taxa mxima tolervel de erro de 5%. Esta inteno aliada base de dados disponvel conduz tarefa de classificao dos clientes. Esta classificao consiste em gerar um modelo de conhecimento a partir do histrico de casos disponvel. E a partir dos dados de novos clientes, prever em qual classe de comportamento o novo cliente dever se enquadrar.

Despesa

Negligente No Negligente

Renda

Figura 3: Anlise de crdito. GOLDSCHMIDT e PASSOS (2005)

1.3.2.1

Medida de Interesse O conceito de medida de interesse essencial ao processo de KDD

por dois motivos principais: a) Podem ser usadas aps a etapa de Minerao de Dados (etapa de Ps-processamento) a fim de ordenar ou filtrar os padres descobertos de acordo com o grau de interesse associado a estes padres; b) Podem ser usadas para guiar ou restringir o espao de busca da Minerao de Dados, melhorando a eficincia da busca ao eliminar conjuntos de padres que no satisfaam a condies predeterminadas.

36

Existem basicamente dois tipos de medidas de interesse que podem ser associadas aos modelos de conhecimento em Minerao de Dados: objetivas e subjetivas (GOLDSCHMIDT e PASSOS, 2005). As medidas de interesses objetivas so baseadas na estrutura dos padres descobertos e nas estatsticas a eles relacionados. As medidas de interesses subjetivas so baseadas em crenas que os especialistas no domnio da aplicao tenham com relao aos dados e aos modelos de conhecimento gerados. Padres esperados podem ser considerados interessantes caso confirmem suspeitas dos especialistas em determinados temas. A avaliao envolvendo este tipo de medida depende, muitas vezes, da visualizao e da interpretao dos resultados obtidos, normalmente realizadas na etapa de Psprocessamento. Algoritmos tais como C4.5 e Rough Seis podem ser utilizados. Por outro lado, algoritmos tais corno Back-propagation e K-NN devem ser descartados diante deste tipo de expectativa (GOLDSCHMIDT e PASSOS, 2005).

1.3.2.2

Similaridade Segundo Pedrycz (2005), Carlantonio (2001) e Goldschmidt e

Passos (2005), um conceito muito importante e muito utilizado em Minerao de Dados a medida de similaridade. Uma vez que o conjunto de dados pode ser interpretado como um conjunto de pontos em um espao k-dimensional, o conceito de similaridade entre dois pontos pode ser traduzido como a distncia entre estes pontos. Quanto maior a similaridade, menor a distncia entre os pontos.

37

Quanto menor o valor desta, mais semelhantes sero os objetos e devero estes ficar no mesmo cluster. Por outro lado, quanto maior a distncia, menos similares sero os objetos e, em conseqncia, eles devero estar em grupos distintos. Cole (1998) apud Carlantonio (2001), resume que para

clusterizao de objetos de acordo com sua similaridade, deve-se definir uma medida de distncia entre dois objetos. Uma pequena distncia entre os objetos deve indicar uma alta similaridade. Assim, uma medida de distncia pode ser usada para quantificar dissimilaridade. No h uma medida de similaridade que sirva para todos os tipos de variveis que podem existir numa base de dados. Segundo Pedrycz (2005); Goldschmidt e Passos (2005), os exemplos mais comuns de distncia so:

Distncia Euclideana: d(X,Y)=

(X i
i 1

Yi ) 2

Distncia Mahalanobis:

Distncia de Hamming (City-Block): d(X, Y) =


i 1

| Xi

Yi |

38

1/ P

Distncia de Minkowski: d(X, Y) =


i 1

| X i Yi |

Distncia de Tchebyschev d(X, Y) =

Distncia de Canberra d(X, Y) =

Distncia de Angular d(X, Y) =

1.3.2.3

Aprendizado Um outro conceito muito importante envolvido no processo de KDD,

mais especificamente na etapa da Minerao de Dados, refere-se capacidade que determinados algoritmos tm de aprender a partir de exemplos existentes entre os dados, retratando o resultado deste aprendizado nos modelos de conhecimento gerados (GOLDSCHMIDT e PASSOS, 2005).

39

Segundo Resende (2003), as principais abordagens de aprendizado normalmente aplicadas em Minerao de Dados so: O aprendizado supervisionado compreende a abstrao de um modelo de conhecimento a partir dos dados apresentados na forma de pares ordenados (entrada, sada desejada). Por entrada entenda-se o conjunto de valores das variveis (registros) de entrada do algoritmo para um determinado caso. A sada desejada corresponde ao valor que se espera que o algoritmo possa produzir sempre que receber os valores especificados em entrada.

Segundo Braga, Carvalho e Ludermir (2000), no aprendizado no supervisionado no existe a informao da sada desejada, nem um supervisor para acompanhar o processo de aprendizagem. Os algoritmos partem dos dados, procurando estabelecer relacionamentos entre eles e desenvolvendo uma habilidade de formar representaes internas para codificar

caractersticas do dados e criar novas classes ou grupos automaticamente.

1.3.3

Etapa de Ps-processamento Segundo Fayyad et al. (1996), a etapa de Ps-processamento abrange

o tratamento do conhecimento obtido na Minerao de Dados e tem como objetivo facilitar, para o homem, a interpretao e a avaliao da utilidade do conhecimento descoberto. Em geral nesta etapa que o especialista em KDD e o especialista no Domnio da Aplicao avaliam os resultados obtidos e definem novas alternativas de investigao dos dados. A seguir algumas operaes de Ps-processamento.

40

I)

Simplificaes de Modelo de Conhecimento Segundo Han e Kember (2001) apud Goldschmidt e Passos (2005), a

simplificao de um modelo de conhecimento, conforme o prprio nome sugere, consiste em remover detalhes deste modelo de conhecimento de forma a tornlo menos complexo, sem perda de informao relevante.

II)

Transformaes de Modelo de Conhecimento Muitas vezes, de forma a facilitar a anlise de modelos de

conhecimento, podem ser utilizados mtodos de transformao sobre estes modelos. A Figura 4 ilustra uma rvore de deciso e o conjunto de regras correspondente. Sexo M M F F F M M F F Pais Frana Inglaterra Frana Inglaterra Frana Alemanha Alemanha Alemanha Frana Idade 25 21 23 34 30 21 20 18 34 Compra Sim Sim Sim Sim No No No No No

Figura 4: Uma rvore de deciso. GOLDSCHMIDT e PASSOS (2005).

41

Se Pas=Alemanha Ento Compra=No Se Pas=lnglaterra Ento Compra=Sim Se Pas=Frana e Idade < 25 Ento Compra=Sim Se Pas=Frana e Idade > 25 Ento Compra=No

III)

Organizao e Apresentao dos Resultados Os modelos de conhecimento podem ser representados de diversas

formas. rvores, regras, grficos em duas ou trs dimenses, planilhas, tabelas e cubos de dados so muito teis na representao de conhecimento. Em geral, as tcnicas de visualizao de dados estimulam percepo e a inteligncia humana, aumentando a capacidade de entendimento e associao de novos padres. Oferecem, portanto, subsdios para a escolha dos passos seguintes a serem realizados no processo de KDD (GOLDSCHMIDT e PASSOS, 2005).

1.4

Aprendizado de Mquina
Segundo Resende (2003), Aprendizado de Mquina (Machine

Learning) uma rea da Inteligncia Artificial (IA) cujo objetivo o desenvolvimento de tcnicas computacionais capazes de adquirir

conhecimento de forma automtica. Essas tcnicas so transformadas em programas de computador (Algoritmos/Sistemas) que tomam decises baseadas em experincias acumuladas por meio de solues bem sucedidas de problemas anteriores. Existem diversos paradigmas de Aprendizado de Mquina, tais como:

42

Simblico Estatstico Baseados em Exemplos Conexionista Evolutivo

1.5

Tarefas do processo de KDD

Segundo Goldschmidt e Passos (2005), tarefas de KDD so tcnicas computacionais (Aprendizado de Mquina) a serem utilizadas sobre a base de dados em busca de novos padres, tendncias, conhecimentos implcitos e teis. A escolha da tarefa depende, muitas vezes, do tipo de problema a ser realizado e envolve a escolha e aplicao de algoritmos especficos para cada tarefa. A seguir algumas tarefas de KDD mais comuns na realizao de processos de descoberta de conhecimento em bases de dados.

a) Descoberta de Associaes Para Agrawal et al. (1993) apud Goldschmidt e Passos (2005), Descoberta de Associaes, tambm conhecida como Regras de Associao, consiste em encontrar conjuntos de itens que ocorram simultaneamente e de forma freqente em um banco de dados, por exemplo, produtos que sejam freqentemente vendidos de forma conjunta. Um exemplo clssico da aplicao desta tarefa na rea de marketing: durante um processo de descoberta de associaes em sua vasta base de dados, uma grande rede de mercados norte-americana descobriu que um nmero razovel de compradores de fralda

43

tambm comprava cerveja na vspera de finais de semana com jogos transmitidos pela televiso. Existem diversos algoritmos desenvolvidos especificamente para aplicao na tarefa de descoberta de associaes, dentre eles: Apriori, DHP (Direct Hashing and Pruning), Partition, DIC (Dynamic Itemset Counting), Eclat, MaxE-ctat, Clique, MaxClique, Cumulate e EstMerge. Existem verses destes algoritmos para funcionamento em ambientes paralelos e distribudos.

b) Classificao Classificao uma das tarefas de KDD mais importantes e mais populares, pois permite associar corretamente cada registro de um banco de dados um nico rtulo categrico denominado classe. Pode ser aplicada a novos registros de forma a prever a classe em que tais registros se enquadram. Essa tarefa pode ser incorporada a um sistema de apoio deciso que auxilie na filtragem e concesso de emprstimos somente a clientes classificados como bons pagadores. Redes Neurais, Algoritmos Genticos, Lgica Indutiva so exemplos de tcnicas (algoritmos) que podem ser aplicadas na tarefa de classificao (GOLDSCHMIDT e PASSOS, 2005).

f(?)

Conj. de Dados
Figura 5: Classificao do dados. GOLDSCHMIDT e PASSOS (2005)

Conj. de Classes

44

c) Regresso Compreende a busca por uma funo que mapeie os registros de um banco de dados em valores reais. Esta tarefa similar tarefa de classificao, sendo restrita apenas a atributos numricos. Estatstica, Redes Neurais, e outras reas, oferecem ferramentas para implementao da tarefa de regresso, de acordo com Michie et al. (1994) apud Goldschmidt e Passos (2005).

d) Sumarizao Segundo Weiss e Indurkhya (1998) citados por Goldschmidt e Passos (2005), a tarefa de Sumarizao, muito comum em KDD, consiste em procurar, identificar e apresentar de forma concisa e compreensvel, as principais caractersticas dos dados contidos em um conjunto de dados, caractersticas que sejam comuns boa parte dos clientes. Por exemplo: so assinantes da revista X, homens na faixa etria de 25 a 45 anos, que residem na regio sudeste do Brasil, so em grande maioria, assinantes com faixa salarial de X reais, nvel superior completo, que possuem residncia prpria e que trabalham na rea de finanas. ". Tais informaes poderiam ser utilizadas pela equipe de marketing da revista para direcionar a oferta para novos assinantes. muito comum aplicar a tarefa de Sumarizao a cada um dos agrupamentos obtidos pela tarefa de Clusterizao. Lgica Indutiva e algoritmos Genticos so alguns exemplos de tcnicas que podem ser aplicadas na implementao da tarefa de Sumarizao.

45

e) Clusterizao Segundo Fayyad et al. (1996), a tarefa de Clusterizao, tambm chamada de Agrupamento, utilizada para separar os registros de uma base de dados em subconjuntos (clusters) de tal forma que os elementos de um cluster compartilhem de propriedades comuns que os distingam de elementos em outros clusters. Diferente da tarefa de classificao, que tem rtulos predefinidos, a Clusterizao precisa automaticamente identificar os grupos de dados aos quais o usurio dever atribuir rtulos. Por esta razo, a Clusterizao tambm denominada Aprendizado no supervisionado. A Clusterizao pode ser considerada como uma das tarefas bsicas da Minerao de Dados que auxilia o usurio a realizar agrupamentos naturais de registros em um conjunto de dados. Por exemplo: uma empresa do ramo de telecomunicaes pode realizar um processo de Clusterizao de sua base de clientes de forma obter grupos de clientes que compartilhem o mesmo perfil de compra de servios. Na implementao desta tarefa podem ser utilizados algoritmos tais como: K-Means, K-Modes, K-Medoids, Kohonen, dentre outros. Esta tarefa assunto do captulo 2 deste trabalho, onde ser mais aprofundado.

f) Deteco de Desvios Para Weiss e Indurkhya (1998) apud Goldschmidt e Passos (2005), essa tarefa consiste em procurar e identificar registros do banco de dados cujas caractersticas no atendam aos padres considerados normais. Sua aplicao vem crescendo de forma significativa nos ltimos anos, sendo muito utilizada para

46

deteco de fraudes em cartes de crdito, planos de sade, arrecadao, dentre outras. Diferentemente das demais tarefas de KDD em que a repetio de padres uma caracterstica fundamental na busca por conhecimento, a deteco de desvios procura identificar padres com pouca incidncia e que sejam suficientemente distintos dos valores normalmente registrados. A tecnologia de Agentes Inteligentes muito utilizada na deteco de desvios.

g) Descoberta de Seqncias Segundo Srikant et al. (1997) citados por Goldschmidt e Passos (2005), uma extenso da tarefa de descoberta de associaes, que so buscados itens freqentes considerando-se vrias transaes ocorridas ao longo de um perodo (GOLDSCHMIDT e PASSOS, 2005).

h) Previso de Sries Temporais Segundo Goldschmidt e Passos (2005), uma srie temporal um conjunto de observaes de um fenmeno ordenadas no tempo. So exemplos de sries temporais, o consumo mensal de energia eltrica de uma casa, registrado durante um ano, as vendas dirias de um produto no decorrer de um ms, dentre muitos outros. Dentre os diversos objetivos da anlise de sries temporais, o maior deles a gerao de modelos voltados previso de valores futuros (Bolsa de Valores).

47

quatro

principais

tipos

de

movimentos

utilizados

na

caracterizao de sries temporais:

I. Movimentos de Tendncia; II. Movimentos Cclicos; III. Movimentos Sazonais; e IV. Movimentos Irregulares ou Randmicos.

1.6

Mtodos de Minerao de Dados

Segundo Elmasri e Navathe (2000), Minerao de Dados o uso de mtodos e tcnicas automticas de explorao de grandes quantidades de dados, para descobrir novos padres, tendncias e relaes, que devido ao grande volume de dados, no seriam facilmente descobertos a olho nu pelo ser humano. Por isso, mtodos (algoritmos) e tcnicas de anlise precisam ser aplicados sobre esses dados para que relaes novas e teis possam ser descobertas, ou seja, os dados devem ser minerados (Data Mining). Portanto, a Minerao de Dados consiste em extrair informaes de grandes bases de dados de empresas, organizaes e instituies, permitindo a realizao de anlise para que se possa interpret-los e oferecer apoio nas tomadas de decises. A seguir esto sucintamente descritos diversos mtodos (algoritmos) e suas aplicaes em Minerao de Dados. importante destacar que vrios deles so utilizados em muitos outros tipos de aplicaes. Alm disso estes algoritmos apenas ilustram, mas no esgotam o universo de mtodos de Minerao de

48

Dados. A compreenso de determinados algoritmos requer um conhecimento prvio sobre algumas tcnicas tais como Redes Neurais, Lgica Nebulosa e algoritmos Genticos (GOLDSCHMIDT e PASSOS, 2005).

1.6.1

Algoritmos de Redes Neurais Segundo Braga, Carvalho e Ludermir (2000), o final dos anos 80

marcou o ressurgimento da rea de Redes Neurais Artificiais (RNAs), consideradas sistemas compostos por unidades de processamento simples (nodos ou neurnios) que calculam funes matemticas e esto dispostos em uma ou mais camadas interligadas por conexes. Estas conexes esto associadas a pesos que representam o conhecimento do modelo e servem para ponderar a entrada de cada neurnio.

Conceito de um Neurnio Artificial

Pesos

UB=Limiar UB

Sada

X1 X2 Xn

W1 W2 Wn
Funo de Ativao F(NET) y

Entradas

Unidade de Processamento

Figura 6: Neurnio Artificial. BRAGA, LUDERMIR e CARVALHO (2000)

49

A figura 7 representa uma Rede Neural com vrios Neurnios e trs camadas.

... ... ...

Figura 7: Rede Neural Artificial. GOLDSCHMIDT e PASSOS (2005)

A capacidade de aprender atravs de exemplos sem dvida o maior atrativo das (RNAs), consideradas ferramentas computacionais

extremamente poderosas para solues de problemas complexos. Segundo Goldschmidt e Passos (2005), diversos algoritmos de Redes Neurais podem ser utilizados na Minerao de Dados. Classificao, Regresso, Previso de Sries Temporais e

Clusterizao so exemplos de tarefas de Minerao de Dados que podem ser implementadas por algoritmos de Redes Neurais. Alguns algoritmos de Redes Neurais podem ser aplicados em mais de um tipo de tarefa de Minerao.

50

Back-propagation O algoritmo Back-propagation, tambm conhecido como algoritmo de retro-propagao do erro, um algoritmo de aprendizado supervisionado, cuja aplicao adequada a tarefas de Minerao de Dados tais como Classificao, Regresso ou Previso de Sries Temporais (GOLDSCHMIDT e PASSOS, 2005).

Kohonen Segundo Braga, Carvalho e Ludermir (2000), o algoritmo Kohonen pertence classe das Redes Neurais Auto-organizveis (Mapas Autoorganizveis tambm denominados Self-Organizing Maps SOM). Esse algoritmo ser mais detalhado no captulo 2, por se tratar de um algoritmo de Clusterizao, um assunto especfico daquele captulo.

1.6.2

Algoritmos Genticos Segundo Goldschmidt e Passos (2005), os algoritmos Genticos so

extremamente teis em problemas complexos que envolvam otimizaes. Em particular, podem ser aplicados a diversas tarefas de Minerao de Dados

Rule Evolver O Rule Evolver um algoritmo gentico.

1.6.3

Algoritmos Baseados em Instncias Segundo Goldschmidt e Passos (2005), a expresso "Mtodos

baseado em instncia" indica que o algoritmo, ao processar um novo registro, leva

51

em considerao as instncias ou os registros existentes na base de dados. Um dos principais mtodos de Minerao de Dados baseados em instncias denominado K-NN (K-Nearest Neighbors ou, em portugus, K-Vizinhos mais Prximos).

Algoritmo K-NN O mtodo K-NN muito utilizado em aplicaes envolvendo a tarefa de classificao. Trata-se de um mtodo de fcil entendimento e implementao e que no requer treinamento prvio para ser aplicado.

1.6.4

Algoritmos Estatsticos Diversos algoritmos de Minerao de Dados so fundamentados em

princpios e teorias da Estatstica (GOLDSCHMIDT e PASSOS, 2005).

Classificador Bayesiano Ingnuo O Classificador Bayesiano Ingnuo baseia-se no Teorema de Bayes, estando relacionado ao clculo de probabilidades condicionais. aplicvel, conforme o prprio nome sugere, em tarefas de classificao. Outros algoritmos estatsticos como K-Means, K-Modes, K-Medoids , SimpleK-Means, PAM e Clarans sero detalhados no captulo 2, por se tratarem de algoritmos de Clusterizao, assunto especfico daquele captulo (GOLDSCHMIDT e PASSOS, 2005).

52

1.6.5

Algoritmos Especficos Segundo Agrawal (1993) apud Goldschmidt e Passos (2005), alguns

algoritmos, tais como: GSP, DHP, Partition, DIC, Eclat, MaxEclat, Clique e MaxClique foram inspirados no funcionamento do Apriori, um algoritmo desenvolvidos especificamente para tarefa de Minerao de Dados, voltados Descoberta de Associaes .

Apriori O algoritmo Apriori consiste em encontrar conjuntos de itens que ocorram simultaneamente e de forma freqente em um banco de dados, produtos que sejam freqentemente vendidos de forma conjunta, por exemplo.

1.6.6

Algoritmos de rvores de Deciso Segundo Goldschmidt e Passos (2005), alguns dos principais

algoritmos de Minerao de Dados so baseados na construo de rvores de deciso. Em geral a construo de uma rvore de deciso realizada segundo alguma abordagem recursiva de particionamento da base de dados.

C4.5 O algoritmo C4.5 um exemplo clssico de mtodo baseado na induo de rvores de deciso, bastante aceito e utilizado pela comunidade cientfica mundial.

53

1.6.7

Algoritmos Baseados em Lgica Nebulosa Segundo Goldschmidt e Passos (2005), diversos mtodos de

Minerao de Dados foram adaptados de forma a incorporar a flexibilidade proporcionada pela Lgica Nebulosa. Entre eles podem ser citadas as verses nebulosas do K-Means (Fuzzy K-Means) e do C4.5. Nessas verses, os registros da base de dados podem pertencer a diversos clusters e classes simultaneamente, com diferentes graus de pertinncia.

Wang-Mendel O algoritmo Wang-Mendel foi concebido para aplicao em tarefas de Previso de Sries Temporais utilizando Lgica Nebulosa. Esse mtodo consiste em abstrair regras nebulosas a partir de conjuntos de dados histricos, para definir os antecedentes e os conseqentes de tais regras. Com conceitos da Lgica Nebulosa, podem-se construir sistemas inteligentes de controle e suporte deciso que lidem com informaes imprecisas e subjetivas, tais como: Investimento de alto risco; Presso mdia; Fluxo muito intenso; Temperatura alta e Muito jovem, so todas as expresses lingsticas cuja interpretao pode variar de um indivduo para outro, sendo, portanto, expresses nebulosas. Como exemplos de aplicaes industriais e comerciais da Lgica Nebulosa, podem ser citados: Aparelhos de Refrigerao; Filmadoras; Freios Antiderrapantes (ABS); Sistema de Anlise de Crdito; Deteco de Fraude em Seguradoras; Sistema de Anlise de Investimentos; Dentre muitos outros...

54

A figura 8 mostra quatro exemplos de conjunto nebulosos construdos em funo da varivel "Idade". Todos os conjuntos apresentam o formato de trapzios.

Figura 8: Conjunto nebuloso construdo em funo da varivel "Idade". GOLDSCHMIDT e PASSOS (2005)

Pode-se perceber pelo exemplo que uma pessoa que possua 40 anos, pertence ao mesmo tempo aos conjuntos jovem e velho, com graus de pertinncia 0,65 e 0,45, respectivamente. Isso Lgica Nebulosa.

55

1.7

Resumo das Tarefas de KDD

A seguir apresentado um resumo das principais tarefas de KDD e algumas alternativas de mtodos (algoritmos) que podem ser utilizados, porm ressaltando, mais uma vez, que a tabela a seguir no esgota o universo de mtodos de Minerao de Dados que pode ser aplicado em cada tarefa de KDD (GOLDSCHMIDT e PASSOS, 2005).

Tarefas de KDD

Mtodos de Minerao de Dados

Descoberta de Associaes

Basic, Apriori, DHP, Partition, DIC, ASCX-2P

Descoberta de Seqncias

GSP, MSDD, SPADE

Redes Neurais (Ex: Back-Propagation, RBF), C4.5, Classificao Rough Sets, Algoritmos Genticos (Ex: Rule Evolver), CART, K-NN, Classificadores Bayesianos Regresso Redes Neurais (Ex: Back-Propagation), Lgica Nebulosa

Sumarizao

C4.S, algoritmos Genticos (Ex: Rule Evolver) K-Means, K-Modes, K-Prototypes, Fuzzy algoritmos Genticos, Redes Neurais (Ex: Kohonen) Redes Neurais (Ex: Back-Propagation), Lgica Nebulosa (Ex: Wang-Mendel)

Clusterizao

Previso de Sries Temporais

Tabela 1: Resumo das tarefas de KDD. GOLDSCHMIDT e PASSOS (2005).

56

1.8

Ferramentas de KDD

Atualmente,

existem

diversas

ferramentas

que

implementam

ambientes integrados para facilitar a execuo das etapas operacionais de KDD. Abaixo apresentam-se algumas destas ferramentas PASSOS, 2005):
Nome Tarefas de KDD Fabricante

(GOLDSCHMIDT

SPSS/Clementine

PolyAnalyst

Weka

Darwin

Intelligent Miner

WizRule

Bramining

SAS Enterprise Miner Oracle Data Mining

Classificao, Regras de Associao, Clusterizao, SPSS Inc. Seqncias, Deteco de www.spss.com Desvios. Classificao, Regresso, Regras de Associao, Megaputer Intelligence Clusterizao, Sumarizao, www.megaputer.com Deteco de Desvios. Classificao, Regresso, University of Waikato Regras de Associao e www.cs.waikato.ac.nz/ml/weka Clusterizao. Thinking Machines Classificao http://en.wikipedia.org/wiki/thinking_machines Classificao, Regras de IBM Corp. Associao, Seqncias, www.ibm.com Clusterizao, Sumarizao. Sumarizao, Classificao, WizSoft Inc. Deteco de Desvios. www.wizsoft.com Classificao, Regras de Graal Corp. Associao, Regresso, www.graal-corp.com . br Sumarizao. Classificao, Regras de SAS Inc. Associao, Regresso, www.sas.com Sumarizao. classificao, regresso, Oracle associao, clusterizao, e www.oracle.com minerao de textos

Tabela 2: Ferramentas de KDD. GOLDSCHMIDT e PASSOS (2005)

57

2 CLUSTERIZAO (CLUSTERING)

2.1

Apresentao

Neste captulo apresentado o conceito de Clusterizao, tema de estudo proposto neste trabalho e uma descrio de alguns algoritmos da tarefa de Clusterizao mais conhecidos, utilizados em diversas ferramentas citadas na tabela 2. Segundo Fayyad et al. (1996), Clusterizao uma tarefa do processo de KDD, tambm chamada de Agrupamento, que separa os registros de uma base de dados em subconjuntos (clusters), de tal forma que os elementos de um cluster tenham caractersticas comuns que os distingam de elementos em outros clusters. A Clusterizao pode ser considerada como uma das tarefas bsicas da Minerao de Dados que auxilia o usurio a realizar agrupamentos naturais de registros em um conjunto de dados. Em geral, o processo de Clusterizao requer que o usurio determine qual o nmero de cluster a ser considerado. Com base neste nmero, os registros de dados so ento separados nos grupos de forma que os registros similares fiquem nos mesmos grupos e registros diferentes fiquem em grupos distintos. Tendo esses grupos, torna-se possvel fazer uma anlise dos elementos

58

que compem cada um deles, identificando as caractersticas comuns aos seus elementos e, desta forma, podendo criar um rtulo que represente cada grupo.

2.1.1

Estrutura de Dados Para que os algoritmos de Clusterizao possam efetuar sua tarefa faz-

se necessrio utilizar estruturas de dados capazes de armazenar os objetos (registros) a serem processados. Algoritmos de Clusterizao que trabalham com dados armazenados na memria principal, normalmente, utilizam uma das seguintes estruturas de dados no seu processamento (GOLDSCHMIDT e PASSOS, 2005):

Matriz de dados - As linhas representam cada um dos objetos a serem clusterizados e as colunas, os atributos ou caractersticas de cada objeto. Considerando n objetos cada qual com p atributos, obtm-se uma matriz n x p como a matriz abaixo:

Figura 9: Matriz de dados. (GOLDSCHMIDT e PASSOS, 2005)

59

Matriz de similaridade - Cada elemento da matriz representa a distncia entre pares de objetos. Visto que a distncia entre o objeto i e o objeto j igual distncia entre o objeto j e o objeto i, no necessrio armazenar todas as distncias entre os objetos. Portanto, considerando n objetos serem clusterizados, obtm-se uma matriz quadrada de tamanho n x n como a que segue:

Figura 10: Matriz de similaridade. (GOLDSCHMIDT e PASSOS, 2005)

O ponto d(i, j) representa a distncia ou similaridade entre o objeto i e o j. Como as medidas de similaridade expressam o conceito de distncia, estas so sempre nmeros positivos. Quanto mais prximo de zero for d(i, j), mais similares sero os objetos. Quando um algoritmo que trabalha com matrizes de similaridade recebe uma matriz de dados, ele primeiro a transforma em uma matriz de similaridade antes de iniciar o processo de Clusterizao (HAN e KEMBER, 2001) citado por Carlantonio (2001).

60

2.1.2

Requisitos para os Algoritmos de Clusterizao Segundo Carlantonio (2001), cabe ressaltar que, para se obter uma

melhor Clusterizao dos dados, alguns requisitos devem ser atendidos pelos algoritmos que implementam essa tarefa, como segue: Descobrir clusters de forma arbitrria - A forma dos clusters, considerando o espao euclideano, pode ser esfrica, linear, alongada, elptica, cilndrica, espiralada, etc. Os mtodos de Clusterizao baseados na medida de distncia Euclideana tendem a encontrar clusters esfricos de tamanho e densidade similares; Identificar clusters de tamanhos variados - Alm da forma, alguns mtodos tendem a fazer os clusters com tamanho homogneo; Aceitar os diversos tipos de variveis possveis - Os mtodos tm que ser capazes de lidar com variveis contnuas, discretas e nominais; Ser insensvel ordem de apresentao dos objetos - Um mesmo conjunto de objetos quando apresentado em diferentes ordenamentos deve conduzir aos mesmos resultados; Trabalhar com objetos com qualquer nmero de atributos (dimenses) - Os olhos humanos so bons para julgar a qualidade de clusters com at trs dimenses. Os mtodos devem manejar, com eficincia, objetos com altas dimenses e fornecer resultados compreensveis; Ser escalvel para lidar com qualquer quantidade de objetos - Uma base de dados de grande porte pode conter milhes de registros. Os mtodos devem ser rpidos e escalonveis em funo do nmero de dimenses e da quantidade de registros a serem clusterizados;

61

Fornecer resultados interpretveis e utilizveis - As descries dos clusters devem ser facilmente assimiladas. Em geral, os usurios esperam que os resultados dos clusters sejam interpretveis, compreensveis e utilizveis. Assim, importante que os algoritmos utilizem representaes simples; Ser robusto na presena de rudos - A maioria das bases de dados do mundo real contm rudos, dados desconhecidos ou errneos. A existncia deles no deve afetar a qualidade dos clusters obtidos; Exigir o mnimo de conhecimento para determinar os parmetros de entrada - Os valores apropriados so frequentemente, desconhecidos e difceis de determinar, especialmente, para conjuntos de objetos de alta

dimensionalidade e de grande nmero de registros. Em alguns mtodos, os resultados do processo de Clusterizao so bastante sensveis aos parmetros de entrada; Aceitar restries - Aplicaes reais podem necessitar agrupar objetos de acordo com vrios tipos de restries. Assim sendo, os mtodos devem encontrar grupos de dados cujas estruturas satisfaam s restries especificadas; e Encontrar o nmero adequado de clusters - Encontrar o nmero natural de clusters de um conjunto de objetos uma tarefa difcil. Muitos mtodos precisam de um valor de referncia, especificado pelo usurio.

Como dito por Agrawal et al. (1998) apud Carlantonio (2001), nenhuma tcnica de Clusterizao existente atende a todos estes requisitos de forma adequada, embora um trabalho considervel seja feito para atender a cada ponto separadamente. Assim, h mtodos apropriados para grandes quantidades de

62

registros e outros para pequenas quantidades; mtodos em que o nmero de clusters tem que ser fornecido pelo usurio e outros em que no h essa exigncia; mtodos capazes de identificar clusters que tenham tamanhos diversos e outros que necessitam que os clusters tenham tamanhos semelhantes; mtodos para dados categricos; mtodos que sofrem a influncia de rudos e outros insensveis a estes; etc.

2.2

Mtodos de Clusterizao

Segundo Han e Kamber (2001) apud Carlantonio (2001), em geral a classificao dos algoritmos de Clusterizao dividida em: Mtodos por particionamento; Mtodos hierrquicos; Mtodos baseados em densidade; Mtodos baseados em grades; Mtodos baseados em modelos.

Os mtodos mais tradicionais de Clusterizao so os mtodos por particionamento e os mtodos hierrquicos. Os primeiros mtodos por particionamento foram: o mtodo K-MEANS, que de 1967, e os mtodos PAM e CLARA, que so de 1990. J para os mtodos hierrquicos, os primeiros foram os mtodos AGNES e DIANA, que so de 1990 (HAN e KAMBER, 2001) apud Carlantonio (2001).

63

2.2.1

Mtodos por Particionamento Carlantonio (2001) explica que os algoritmos de Clusterizao por

particionamento dividem a base de dados em k grupos, onde o usurio escolhe o nmero k. A partir da, estes algoritmos escolhem k objetos (registros) que faro parte de cada clusters. Os objetos so divididos entre os k clusters de acordo com a medida de similaridade adotada, de modo que cada objeto fique no cluster que fornea o menor valor de distncia entre o objeto e o centro do mesmo. Os algoritmos utilizam, ento, uma estratgia iterativa, que determina se os objetos devem mudar de cluster, fazendo com que cada cluster contenha somente elementos similares entre si. Aps a diviso inicial, h duas possibilidades na escolha do "elemento" que vai representar o centro do cluster, e que ser a referncia para o clculo da medida de similaridade: Pode-se utilizar a mdia dos objetos que pertencem ao cluster em questo, tambm chamada de centro de gravidade do cluster. Essa a abordagem conhecida como K-Means, nome de um dos mais importantes algoritmos de Clusterizao; Pode-se tambm escolher como representante do cluster o objeto que se encontra mais prximo ao centro de gravidade do cluster. Essa abordagem conhecida como k-medoids, e o elemento mais prximo ao centro chamado de medoid.

64

Algoritmo K-Means Carlantonio (2001), Goldschmidt e Passos (2005), apresentam o algoritmo K-Means como um mtodo popular da tarefa de Clusterizao, que toma, randomicamente, k pontos de dados (dados numricos) como sendo os centrides (elementos centrais) dos clusters. Em seguida, cada ponto (registro da base de dados) atribudo ao cluster cuja distncia deste ponto em relao ao centride de cada cluster a menor dentre todas as distncias calculadas. Um novo centride para cada cluster computado pela mdia dos pontos do cluster, caracterizando a configurao dos clusters para a iterao seguinte. O processo termina quando os centrides dos clusters param de se modificar, ou aps um nmero limitado de iteraes que tenha sido especificado pelo usurio. A execuo do algoritmo K-Means consiste em, primeiro, selecionar aleatoriamente k objetos que inicialmente representam cada um, a mdia de um cluster. Para cada um dos objetos remanescentes, feita a atribuio ao cluster ao qual o objeto mais similar, baseado na distncia entre o objeto e a mdia do cluster. A partir de ento, o algoritmo computa as novas mdias para cada cluster. Este processo se repete at que uma condio de parada seja atingida. O algoritmo tenta determinar parties que minimizem a funo do erro quadrado, mas apresenta bom desempenho quando os clusters so densos, compactos e bem separados uns dos outros.

65

O funcionamento do algoritmo K-Means encontra-se resumido na Figura 11.

Houve Mudana na configurao do cluster

Figura 11: Fluxograma do funcionamento do Algoritmo K-Means. Fonte: GOLDSCHMIDT e PASSOS (2005).

A necessidade de o usurio ter que especificar k (o nmero clusters), com antecedncia pode ser visto como uma desvantagem. Em geral, diversos experimentos variando o valor de k devem ser realizados. Objetos, que so diferentes ou inconsistentes em relao ao conjunto de dados, so chamados de rudos (outliers). O mtodo K-Means sensvel a rudos visto que pequeno nmero de dados ruidosos pode influenciar, substancialmente, os valores mdios dos clusters. A figura 12 ilustra a aplicao do algoritmo K-Means em um arquivo com 20 registros de dados, considerando-se k = 3. O algoritmo K-Means inicializado com os centros (mdias) colocados em posies aleatrias. A busca pelo centro comum se faz de forma iterativa. Aps essa inicializao, os objetos restantes so agrupados conforme a distncia em que se encontram dessas mdias (GOLDSCHMIDT E PASSOS, 2005).

66

a)

b)

c)

d)

Figura 12: Passos subseqentes do Algoritmo K-Means. GOLDSCHMIDT; PASSOS (2005)

Algoritmo K-Modes Para Carlantonio (2001) e Goldschmidt e Passos (2005), outra variante do k-means o mtodo K-Modes, que estende o paradigma k-means para clusterizar dados categricos, trocando a mdia de clusters com a moda (valor que aparece com maior freqncia). Os mtodos k-means e K-Modes podem ser combinados para clusterizar dados com misturas de valores numricos e categricos, resultando no mtodo K-Prototypes.

67

Algoritmo K-Medoids O algoritmo k-means sensvel a rudos visto que um objeto com um valor extremamente grande pode, substancialmente, distorcer a distribuio de dados. Para diminuir essa sensibilidade no algoritmo K-Medoids, ao invs de utilizar o valor mdio dos objetos em um cluster como um ponto de referncia, usa o objeto mais centralmente localizado em um cluster. Assim, o mtodo de particionamento pode ainda ser desempenhado no intuito de minimizar a soma das dissimilaridades entre cada objeto e seu ponto de referncia correspondente. Isto forma a base do mtodo K-Medoids. O algoritmo K-Medoids baseia-se, primeiramente, em encontrar o medoid (objeto mais centralmente localizado em um cluster). Os objetos restantes so ento clusterizados com o medoid ao qual ele mais similar. H ento uma troca iterativa, de um medoid por um no medoid, visando melhoria da Clusterizao. A diferena bsica entre o K-Means e K-Medoids est em o primeiro elemento representar de cada cluster pela mdia dos registros que pertencem ao cluster e no segundo em representar o cluster por um dos registros pertencentes ao cluster. Segundo Han e Kamber (2001) apud Carlantonio (2001), o mtodo k-Medoids mais robusto do que o k-means na presena de rudos porque um medoid pode ser menos influenciado pelos rudos do que a mdia. Entretanto, seu processamento pode ser mais custoso do que o do mtodo k-means. Ambos os mtodos requerem que o usurio especifique k, o nmero de clusters.

68

Algoritmo PAM Segundo Carlantonio (2001), PAM (Partitioning Around Medoids) foi um dos primeiros algoritmos k-medoids apresentados. NG e Han (1994) apud Carlantonio (2001), comentam que uma vez que os medoids tenham sido selecionados, cada objeto no selecionado agrupado com o medoid ao qual ele mais similar. Todos os valores de dissimilaridade so dados como entradas para o algoritmo PAM. Finalmente, a qualidade de uma Clusterizao medida pela dissimilaridade mdia entre um objeto e o medoid de seu cluster. Han e Kamber (2001) e NG e HAN (1994) apud Carlantonio (2001), escrevem que um algoritmo tpico de particionamento k-medoids como o algoritmo PAM eficiente para pequenos conjuntos de dados, mas no escalvel para grandes conjuntos de dados.

Algoritmo CLARA Para tratar com grandes conjuntos de dados, um mtodo baseado em amostragem, chamado CLARA (Clustering Large Applications) pode ser usado. A idia por trs deste mtodo a seguinte: Ao invs de tomar todo o conjunto de dados em considerao, uma pequena poro dos dados escolhida como uma amostra representativa. Medoids so ento escolhidos da amostra usando o algoritmo PAM (CARLANTONIO, 2001).

69

Algoritmo CLARANS Han e Kamber (2001) apud Carlantonio (2001), lembram que um algoritmo tipo k-medoids chamado CLARANS (Clustering Large Applications based upon Randomize Search) foi proposto, procurando combinar a tcnica de amostragem (CLARA) com o algoritmo PAM. Entretanto, diferente do algoritmo CLARA, o algoritmo CLARANS no se restringe a alguma amostra em um dado tempo. Enquanto o algoritmo CLARA tem uma amostra fixa a cada estgio de busca, o algoritmo CLARANS executa uma amostra com algum grau de aleatoriedade em cada etapa da busca. Ester et al. (1995) apud Carlantonio (2001), escrevem que o algoritmo CLARANS um mtodo de Clusterizao baseado no algoritmo PAM com uma nova estratgia de busca heurstica. Esta estratgia no tenta todos os possveis Clusters, mas somente um pequeno nmero deles, que so selecionados de uma forma aleatria. Carlantonio (2001) explica que o algoritmo CLARANS tem se mostrado, experimentalmente, mais efetivo do que ambos os algoritmos PAM e CLARA. Ele pode ser usado para encontrar o nmero de clusters mais "natural" usando um coeficiente de silhueta (uma propriedade de um objeto que especifica quanto o objeto verdadeiramente pertence ao cluster). O algoritmo CLARANS tambm permite a deteco de rudos.

70

2.2.2

Mtodos Hierrquicos Segundo Goldschmidt e Passos (2005) e Ester et al. (1998) apud

Carlantonio (2001), os algoritmos de Clusterizao Hierrquicos criam uma decomposio hierrquica da base de dados. A decomposio hierrquica representada por um dendograma, uma rvore que iterativamente divide a base de dados em subconjuntos menores at que cada subconjunto consista de somente um objeto. Em tais hierarquias, cada n da rvore representa um cluster da base de dados.

O dendograma pode ser criado de duas formas:

Abordagem Aglomerativa (bottom-up): Parte-se das folhas para a raiz. Coloca-se, inicialmente, cada objeto (registro) em seu prprio cluster, ou seja, todos os objetos esto separados, totalizando n clusters. Abordagem Divisiva (top-down): Parte-se da raiz para as folhas. Inverte-se o processo por comear com todos os objetos em um nico cluster. Em cada etapa, um cluster escolhido e dividido em dois clusters menores. Esse processo continua at que se tenha n clusters ou at que uma condio de trmino acontea (NG e HAN, 1994; HAN e KAMBER, 2001) apud Carlantonio (2001).

Botton-Up 1 2 3 4 Figura 13: Dendograma. 5 Top-Down

71

Cole (1998) apud Carlantonio (2001) comenta que os mtodos aglomerativos so mais populares do que os mtodos divisivos.

Algoritmos AGNES e DIANA De acordo com Carlantonio (2001), o mtodo AGNES (AGglomerative NESting) um exemplo de mtodo hierrquico aglomerativo e o mtodo DIANA (DIvisive ANAlysis) um mtodo hierrquico divisivo. Na Figura 14 apresenta-se um exemplo de como os mtodos hierrquicos trabalham.

Figura 14: Como os Mtodos Hierrquicos trabalham. (CARLANTONIO, 2001).

Algoritmo BIRCH Guha et al. (1998) apud Carlantonio (2001) comentam que o mtodo BIRCH representa o estado da arte para Clusters de conjuntos de dados grandes.

72

Algoritmo CURE O mtodo CURE um algoritmo hierrquico, que interrompe a criao de uma hierarquia de cluster se um nvel consiste de k clusters, onde k um dos vrios parmetros de entrada (ANKERST et al., 1999) apud Carlantonio (2001). Segundo Carlantonio (2001), o mtodo CURE emprega um novo algoritmo hierrquico de Clusterizao que adota um meio termo entre as abordagens baseadas em centride e baseadas em objetos representativos. Ao invs de usar um centride nico ou objeto para representar um cluster, um nmero fixo de pontos representantes do espao escolhido.

Algoritmo ROCK O mtodo ROCK (RObust Clustering using linKs) um algoritmo de Clusterizao hierrquico aglomerativo alternativo que adequado para Clusterizao de atributos categricos. Como destacado por Guha et al. (1999) apud Carlantonio (2001), algoritmos tradicionais que usam distncia entre pontos para Clusterizao no so apropriados para atributos categricos e booleanos (binrios).

2.2.3

Mtodos Baseados em Densidade Segundo Carlantonio (2001), a maioria dos mtodos por

particionamento agrupa objetos baseado na distncia entre objetos. Tais mtodos podem encontrar dificuldades para descobrir clusters de formas arbitrrias. Ester et al. (1996) apud Carlantonio (2001), colocam que quando olhamos para conjuntos de objetos tais como os da figura 15, ns podemos,

73

facilmente detectar clusters de objetos e rudos no pertencentes a qualquer dos clusters.

Figura 15: Representao de clusters e rudos. CARLANTONIO (2001).

Carlantonio (2001) e Ester et al. (1996) afirmam que a razo principal porque ns reconhecemos os clusters que dentro de cada cluster tem uma densidade de objetos tpica que consideravelmente maior do que fora dos clusters. Alm disso, a densidade de reas de rudo menor do que a densidade em qualquer dos clusters. Um mtodo baseado em densidade clusteriza objetos baseado na noo de densidade.

Algoritmo DBSCAN Segundo Ankerst et al. (1999); Sheikholeslami et al. (1998); Han e Kamber (2001) apud Carlantonio (2001), o mtodo DBSCAN (Density-Based Spatial Clustering on Applications with Noise) um algoritmo de Clusterizao baseado em densidade que no baseado em grade, que cresce em regies com densidade alta o suficiente nos clusters e descobre clusters de forma arbitrria em bases de dados espaciais com rudo, podendo separ-lo.

74

O mtodo DBSCAN encontra regies densas que so separadas por regies de baixa densidade (regies de rudos), define um cluster como um conjunto mximo de pontos conectados densamente e agrupa os objetos na mesma regio densa.

Figura 16: Alcance por Densidade e Conectividade por Densidade. CARLANTONIO (2001).

2.2.4

Mtodos Baseados em Grades Segundo Han e Kamber (2001) apud Carlantonio (2001), os mtodos

de Clusterizao baseados em grades usam uma estrutura de dados em grade de multi-resoluo. Ele divide o espao de objetos em um nmero finito de clulas que formam uma estrutura de grade nas quais todas as operaes de Clusterizao so efetuadas. A principal vantagem desta abordagem seu tempo de processamento rpido, que tipicamente independente do nmero de objetos de dados, contudo dependente, somente, do nmero de clulas em cada dimenso no espao discretizado (dividido).

75

Algoritmo STING O mtodo STING uma tcnica de Clusterizao de multi-resoluo baseada em grade na qual a rea espacial dividida em clulas retangulares. Existem, geralmente, vrios nveis de tais clulas retangulares correspondendo a diferentes nveis de resoluo, e estas clulas formam uma estrutura hierrquica, onde cada clula no nvel mais alto particionada para formar um nmero de clulas no prximo nvel mais baixo. So pr-computadas e armazenadas Informaes estatsticas considerando os atributos numricos dos objetos em cada clula da grade (tais como os valores: mdia, mximo, mnimo, varincia e tipo de distribuio). Estes parmetros estatsticos so teis para processamento de consultas (HAN e KAMBER, 2001; SHEIKHOLESLAMI et al., 1998) apud Carlantonio (2001).

Algoritmo WaveCluster WaveCluster um algoritmo de Clusterizao multi-resoluo que primeiro resume os dados impondo uma estrutura de grade multidimensional ao espao de dados. Ele, ento, usa a transformao Wavelet para transformar o espao caracterstico original, transformado, que so os clusters. Nesta abordagem, cada clula da grade resume a informao de um grupo de pontos que mapeia a clula. Esta informao resumida se ajusta memria principal. Ela usada pela transformao wavelet de multi-resoluo e na anlise de cluster subseqente (HAN e KAMBER, 2001) apud Carlantonio (2001). encontrando regies densas no espao

76

Algoritmo CLIQUE Segundo Ankerst et al. (1999) apud Carlantonio (2001), o algoritmo de Clusterizao (Clustering In QUEst) integra os mtodos de Clusterizao baseados em grade e em densidade. Ele til para clusterizar dados de alta dimenso em grandes bases de dados. Agrawal et al. (1999) apud Carlantonio (2001) afirmam que CLIQUE esfora-se em descobrir correlaes interessantes entre os dados em vrios subespaos do espao de alta dimenso original. Os parmetros de entrada so o tamanho da grade e um limiar de densidade global para clusters. Ankerst et al. (1999) apud Carlantonio (2001) colocam que a maior diferena de CLIQUE para outras abordagens de Clusterizao que este mtodo tambm detecta automaticamente subespaos de dimensionalidade mais alta tal que clusters de alta densidade existam nesses subespaos.

2.2.5

Mtodos Baseados em Modelos De acordo com Carlantonio (2001), os mtodos baseados em modelos

usam um modelo para cada cluster que tentam otimizar a curva entre os objetos de dados e algum modelo matemtico. Este tipo de modelo pode descobrir clusters construindo uma funo de densidade que reflete a distribuio espacial dos pontos de dados. Ele tambm conduz a um modo de determinar automaticamente o nmero de clusters baseado na estatstica padro, identificando rudos no relatrio e assim produzindo mtodos para Clusterizao mais robustos. Tais modelos so, freqentemente, baseados na suposio que os dados so gerados por uma mistura de distribuies de probabilidades.

77

Os mtodos de Clusterizao baseados em Modelos seguem uma das duas principais abordagens (HAN e KAMBER, 2001) apud Carlantonio (2001): - Abordagem Estatstica; - Abordagem por Rede Neural.

2.2.5.1

Abordagem Estatstica Para Carlantonio (2001), a Clusterizao conceitual uma forma de

Clusterizao em aprendizado de mquina que, dado um conjunto de objetos no rotulados, produz um esquema de classificao sobre os objetos. Ao contrrio das Clusterizao convencional, que primariamente identificam grupos de objetos, a Clusterizao conceitual realiza uma etapa adicional para encontrar descries caractersticas para cada grupo, onde cada grupo representa um conceito ou classe. Muitos mtodos de Clusterizao adotam uma abordagem estatstica que usa medidas de probabilidade na determinao dos conceitos ou clusters. Descries probabilsticas so, tipicamente, usadas para representar cada conceito derivado (CARLANTONIO, 2001).

Algoritmo COBWEB De acordo com Carlantonio (2001), o mtodo COBWEB cria uma Clusterizao hierrquica na forma de uma rvore de classificao que uma rvore de deciso, onde cada n da rvore refere-se a um conceito e contm uma descrio probabilstica daqueles conceitos que resumem os objetos classificados abaixo do n.

78

Algoritmo CLASSIT O mtodo CLASSIT uma extenso do algoritmo COBWEB. Ele armazena uma distribuio normal contnua (isto , mdia e desvio padro) para cada atributo individual em cada n e usa uma medida de utilidade categrica modificada, que uma integral sobre os atributos contnuos, ao invs de uma soma sobre atributos discretos como no mtodo COBWEB. Entretanto, ele sofre de problemas similares aos do algoritmo COBWEB e assim no adequado para clusterizar bases de dados grandes (CARLANTONIO, 2001).

2.2.5.2

Abordagem por Rede Neural Para Carlantonio (2001), a abordagem por rede neural para

Clusterizao tende a representar cada cluster como um exemplar que serve de prottipo do cluster e no necessariamente corresponde a um exemplo de dado particular ou objeto. So apresentados aqui dois mtodos importantes da abordagem de Rede Neural para Clusterizao. O primeiro o aprendizado Competitivo, e o segundo o mapa de auto-organizao (Self-Organizing Maps - SOM) de caractersticas, ambos envolvem unidades neurais competindo (CARLANTONIO, 2001).

Aprendizado competitivo: envolve uma arquitetura hierrquica de vrias unidades (ou neurnios artificiais) que competem de forma que o "vencedor leva tudo" para o objeto que est correntemente sendo apresentado ao sistema. A figura 17 mostra um exemplo de um sistema de aprendizado competitivo. Onde cada crculo representa uma unidade.

79

Figura 17: Aprendizado competitivo. (CARLANTONIO, 2001).

No final da Clusterizao, cada cluster pode ser pensado como uma nova caracterstica que detecta alguma regularidade nos objetos. Assim, os clusters resultantes podem ser vistos como um mapeamento das caractersticas dos nveis mais baixos para as caractersticas dos nveis mais altos (CARLANTONIO, 2001).

Mapas Auto-Organizveis Para Carlantonio (2001), com auto-organizao de mapas

caractersticos (SOMs), o vetor de peso mais prximo ao objeto corrente tornase uma unidade vencedora ou uma unidade ativa. Os pesos da unidade vencedora so ajustados e tambm de seus vizinhos mais prximos de forma que elas fiquem mais prximas do objeto de entrada (CARLANTONIO, 2001).

80

Algoritmo Kohonen Segundo Braga, Carvalho e Ludermir (2000), o algoritmo Kohonen pertence classe das Redes Neurais de Mapas Auto (Self-Organizing Maps SOMs). Essas Redes foram desenvolvidas por Teuvo Kohonen na dcada de 80. Em uma Rede Neural Auto-organizvel o treinamento no supervisionado, geralmente baseado em uma forma de competio entre os elementos processadores. Entre as principais aplicaes do Algoritmo Kohonen esto: Tarefa de Clusterizao - Tarefa na qual os dados de entrada devem ser agrupados em conjuntos que agreguem padres semelhantes; Deteco de Regularidades - Modelo em que o sistema deve extrair as caractersticas relevantes dos padres de entrada.

Figura 18: Mapa de Kohonen. GOLDSCHMIDT e PASSOS (2005).

81

3 APLICAO DO PROCESSO DE KDD

3.1

Apresentao

Neste captulo exposto o modo terico e prtico de como preparar a base de dados, passando pela etapa de Pr-processamento, aplicando suas funes at chegar ao arquivo ideal para ser, ento, usado na etapa de Minerao de Dados, onde tambm descrito de modo terico e prtico de todos os passos para carregar o arquivo em formato .ARFF no software WEKA, escolher a tarefa de Cluster, configurar os parmetros necessrios, iniciar a Minerao de Dados, colher os resultados e finalmente aplic-los etapa de Ps-processamento, gerando explicaes e grficos sobre o conhecimento encontrado.

3.2

Programas utilizados

- JAVA: linguagem de programao, verso j2sdk1.4.2_12, disponvel gratuitamente no site www.sun.com, a qual foi baixada e instalada, pois a mesma necessria para utilizao do software WEKA; - WEKA: software de minerao de dados usado para aplicao de tarefas de KDD, das quais interessa neste trabalho a tarefa de Clusterizao,

82

em especial o algoritmo SimpleK-Means, adaptado para trabalhar tanto com dados categricos quanto com dados numricos. Este software foi desenvolvido pela universidade de Waikato da Nova Zelndia e foi obtido no site http://www.cs.waikato.ac.nz/ml/weka/ gratuitamente. Usou-se a verso weka-3-4-8a.exe; - DBF View: software shareware que oferece uma GUI (Graphic User Interface) para manipular Banco de Dados, disponvel para ser baixado no site www.superdownloads.com.br. - Base de Dados: um conjunto de arquivos, no formato .DBF, representando tabelas de dados de uma locadora de filmes, a qual ser usada em todo o processo de KDD e principalmente na etapa de Minerao de Dados; - Microsoft Excel: software de planilha de clculos para converso do formato .DBF para .CSV. (podendo ser utilizado outro software de planilha); e - Editor de texto: para trocar os smbolos ponto_e_vrgila ; por vrgula , e depois, para converter o arquivo .CSV em .ARFF.

3.3

Aplicao das Etapas do KDD


- Pr-processamento; - Minerao de Dados; e - Ps-processamento.

83

3.3.1

Etapa de Pr-Processamento Nesta seo ser estudado a etapa de Pr-processamento sobre a

base de dados (conjunto de arquivos em formato .DBF). Conforme descrito no captulo 1, as principais funes do Prprocessamento so: a) Seleo de Dados; b) Limpeza dos Dados; c) Codificao dos Dados; d) Enriquecimento dos Dados; e) Normalizao de Dados; e f) Construo de Atributos.

Primeiramente usou-se a funo de Seleo de Dados para selecionar quais tabelas (ARQUIVOS.DBF) e seus respectivos atributos (registros) sero utilizados na aplicao do processo de KDD. Inicialmente haviam as seguintes tabelas: CLIENTES.DBF; PRODUTOS.DBF; MOVPROD.DBF; DOLAR.DBF; IMPCOD.DBF; NFISCAL.DBF; PACOTE.DBF; PAGTO.DBF; e CONFIG1.DBF.

84

Selecionou-se as seguintes tabelas:

Tabela CLIENTES.DBF com 3.810 registros;

Figura 19: Tabela de registros de Clientes.

Tabela PRODUTO.DBF com 5.029 registros; e

Figura 20: Tabela de registros de Filmes.

85

Tabela MOVPROD.DBF com 71.861 registros.

Figura 21: Tabela de registros de locaes de Filmes.

Portanto, para esse processo de KDD, considerou-se relevantes as seguintes tabelas e seus respectivos atributos:
CLIENTES.DBF CODCLI NOME Bairro Cidade Tabela 3: A tabelas escolhidas e seus atributos. PRODUTOS.DBF CODPRO NOME (filme) GENERO MOVPROD.DBF CODCLI CODPRO

Os demais atributos destas tabelas foro descartados, como tambm as demais tabelas da base de dados, pois neste momento no representam expectativas de Descoberta de Conhecimento na Base de Dados (Knowledge, Discovery in Data Base - KDD).

86

Notou-se que as tabelas MOVPROD.DBF, CLIENTE.DBF e PRODUTO.DBF contm rudos (outliers), ou seja, registros danificados ou inconsistentes, conforme mostra a figura 24, o que pode influenciar nos resultados apresentados pelos algoritmos de Clusterizao. Por outro lado, o que pode parecer rudos para alguns, pode ser dados relevantes para outros. Por exemplo: rudo pode ser uma forma dos bancos verificarem fraudes em transaes.

Figura 22: Registros com rudos.

Neste caso aplicou-se a Limpeza dos Dados, uma funo do Prprocessamento, utilizando-se de uma planilha.

Figura 23: Registros excludos da base de dados.

87

Os registros mostrados na figura 23 foram excludos.

Notou-se tambm que alguns atributos esto na forma Categrica, ou seja, em formato texto/alfanumrico. Dependendo do atributo interessante codific-lo, necessitando, portanto que se aplique a prxima funo do Prprocessamento, que a Codificao dos Dados. Os dados precisam ser transformados para que fiquem numa forma que possam ser usados como entrada pelo algoritmo de Clusterizao escolhido. Os dados devem atender s necessidades do algoritmo em questo. Por exemplo, o algoritmo K-Means requer que os dados de entrada estejam em uma representao numrica. J o K-Modes, uma variao do K-Means, trabalha com atributos categricos para achar a Moda, ou seja, a freqncia da ocorrncia dos atributos (CARLANTONIO, 2001). No entanto, ao usar o software WEKA, percebeu-se que o mesmo aceitou e trabalhou tanto com dados numricos quanto categricos (formato texto/alfanumrico), na utilizao do algoritmo SimpleK-Means, aumentando as possibilidades de hipteses e expectativas em relao a base de dados.

A figura 26 mostra os atributos codificados da seguinte forma: A coluna A foi codificada a partir da coluna original para seguir um padro e posteriormente foi codificada de categrica para numrica; A coluna D foi codificada para seguir um padro. Por exemplo, onde era AV, foi padronizado para AVENTURA; A coluna E em azul tambm foi codificada de categrica para numrica;

88

Figura 24: Base de dados codificada.

Percebeu-se a necessidade de aplicar a Construo de Atributos, Enriquecimento dos Dados e Normalizao, outras funes de Prprocessamento. Na Construo de Atributos, houve a adio de novos atributos como ID_Genero, Sexo, Dubla-Legendado, Lanamento, Em_Promoo e Final_Semana.

89

Aps a construo de alguns atributos, as tabelas MOVPROD.DBF, CLIENTE.DBF e PRODUTO.DBF ficaram alteradas para:
PRODUTO.DBF ID_Filme Filme ID_Genero Genero Dubla-Legendado {DUBLADO, LEGENDADO} Lanamento {SIM,NO} Em_Promoo {SIM, NO} Final_Semana{SIM, NO} CLIENTE.DBF ID_Cliente NOME Bairro Cidade Sexo MOVPROD.DBF ID_Cliente ID_Filme

Tabela 4: Novos atributos aps aplicar a funo Construo de Atributos .

3.3.1.1

Hipteses A tabela 4 mostra novos atributos criados para responder algumas

hipteses levantadas e algumas expectativas, como:

Quais os filmes que mais so alugados? Quais os filmes que menos so alugados? Quais os clientes que mais alugam? Quais os clientes que menos alugam? Quais os tipos de filmes (Gnero) so mais alugados? Quais os tipos de filmes (Gnero) so menos alugados?

90

Quais os tipos de filmes so mais assistidos por aqueles que mais

alugam? Eram dublados ou legendados? Eram lanamentos? Estavam na promoo? Eram finais de semanas quando foram alugados? Quais os tipos de filmes so mais assistidos por aqueles que menos

alugam? Eram dublados ou legendados? Eram lanamentos? Estavam na promoo? Eram finais de semanas quando foram alugados? Quais os bairros que mais alugam filmes? Quais os bairros que menos alugam filmes? Em que pocas do ano se alugam mais filmes? Em que dias da semana se alugam mais filmes? Em que pocas do ano determinados gneros so mais alugados? Quem assiste mais filmes? Homem ou mulher? Qual a faixa etria do clientes que mais alugam?

Aps ter-se levantado essas hipteses, foi preciso manipular os novos atributos construdos, enriquecendo-os com informaes inerentes. Porm, ao tentar utilizar e preencher os atributos mostrados na tabela 5 com informaes que pudessem gerar novos conhecimentos, expectativas e responder algumas hipteses acima, percebeu-se que no seria possvel por vrios motivos. O principal deles que o atributo DATAMOV (data da locao do filme) est totalmente inconsistente, conforme mostra a figura 25, no permitindo, por exemplo, saber se um filme alugado era lanamento, se estava em promoo ou se era final de semana, na data de locao, sendo, portanto, esse atributo, inutilizado por este trabalho de pesquisa, impedindo-se assim,

91

que algumas hipteses, que dependiam deste atributo, pudessem ser tambm respondidas.

ATRIBUTOS REJEITADOS
Dubla-Legendado {DUBLADO, LEGENDADO} Lanamento {SIM,NO} Em_Promoo {SIM, NO} Final_Semana{SIM, NO}
Tabela 5: Atributos rejeitados por inconsistncia do atributo DATAMOV.

Figura 25: Atributo DATAMOV inconsistente.

Na funo de Enriquecimento dos Dados foram preenchidos alguns atributos como SEXO {Masculino, Feminino}, ID_Genero. Foi preciso trocar todos os espaos dentro dos atributos por underlines _, tirar os apstrofe , virgulas , e outros caracteres indesejados.

92

Figura 26: Base de dados com atributo BAIRRO com __ e SEXO preenchido.

E por ltimo foi aplicada a Normalizao, funo do Prprocessamento, para unir os atributos interessantes numa nica tabela, a qual ser utilizada no processo de Minerao de dados, aps ter passado pela etapa de Pr-processamento. ID_Filme Filme Genero ID_Cliente Bairro Cidade Sexo
Tabela 6: Tabela LOCACAO.DBF normalizada.

93

Escolheu-se os atributos na tabela 6 para serem Minerados pelo software WEKA, atravs da tarefa de Clusterizao (cluster), utilizando-se do algoritmo SimpleK-Means, para tentar responder as hipteses e expectativas criadas e principalmente para tentar descobrir novas relaes, novos padres de comportamentos e novas tendncias de locaes dentro dos dados. Conseguindo-se chegar a esses conhecimentos, poder-se- utilizlos em favor da organizao, desenvolvendo-se estratgias de marketing ou mesmo em apoio nas tomadas decises.

3.3.2 Etapa de Minerao de Dados

Neste trabalho usou-se uma base de dados dividida em vrios arquivos no formato .DBF. Aps ter concludo a etapa de Pr-processamento, chegando-se a base de dados LOCACAO.DBF. Aplica-se a prxima etapa do processo de KDD que a Minerao de Dados. Em vrias ocasies os dados a serem minerados esto disponveis em arquivos textos, banco de dados, planilhas, etc. Como o software WEKA, usado para a etapa de Minerao de Dados, tem vrios algoritmos para a tarefa de Clusterizao, dentre eles o algoritmo SimpleK-Means, precisou-se transformar essa base de dados em um arquivo no formato .ARFF, que o formato aceito pelo software WEKA. Segundo Souto (2005), o pacote WEKA (Waikato Environment for Knowledge Analysis) formado por um conjunto de implementaes de algoritmos de diversas tcnicas de Minerao de Dados. WEKA est

94

implementado na linguagem Java, que tem como principal caracterstica ser portvel. Desta forma pode rodar nas mais variadas plataformas e aproveitando os benefcios de uma linguagem orientada a objetos como: modularidade, polimorfismo, encapsulamento, reutilizao de cdigo dentre outros, alm disso, um software de domnio pblico estando disponvel em

http://www.cs.waikato.ac.nz/ml/weka/ . Segundo Witten e Frank (1999, 2000), os arquivos de entrada de dados do Weka possui um formato prprio, o ARFF, o qual necessita que se descreva o domnio do atributo, pois o mesmo no pode ser obtido automaticamente pelo seu valor. Antes de aplicar os dados a qualquer algoritmo do pacote Weka, estes devem ser convertidos para o formato ARFF, que consiste basicamente de duas partes:

A primeira parte contm uma lista de todos os atributos, onde devese definir o tipo do atributo ou os valores que ele pode representar, quando utiliza-se os valores, estes devem estar entre { } separados por vrgulas. A segunda parte consiste nas instncias, ou seja, os registros a serem minerados com o valor dos atributos para cada instancia separado por vrgula, a ausncia de um item em um registro deve ser atribuda pelo smbolo ?. Para isso podem-se usar programas de planilhas eletrnicas os quais permitem exportar os dados em um arquivo onde as vrgulas so os separadores.

95

Uma vez feito isso, necessrio apenas carregar o arquivo em um editor de texto e adicionar o nome do conjunto de dados usando @relation, os atributos usando @attribute e @data com os dados em si, salvando o arquivo como texto puro com extenso .ARFF.

Usou-se um software de planilha eletrnica para abrir arquivo no formato .DBF e em seguida salv-lo em um formato .CSV que possa ser convertido em ARFF.

A figura 27 um exemplo de um arquivo no formato separado por vrgula .csv.

Figura 27: Arquivo no formato CSV antes das alteraes.

96

A figura 28 um exemplo de um arquivo no formato .ARFF.

Figura 28: Arquivo no formato ARFF aps as alteraes.

O arquivo com extenso .ARFF ser carregado pelo software WEKA se seu formato estiver correto, sem nenhum problema interno, seja no cabealho, seja nos dados. Caso contrrio ser exibido uma janela de dilogo de erro pedindo para que se verifique e arrume os erros.

Figura 29: Janela exibindo um erro carregando o arquivo LOCACAO.ARFF.

97

Esta etapa geralmente bastante trabalhosa, pois se houver um erro no formato do arquivo ARFF, no ser possvel prosseguir. Algumas causas so: - Ausncia de parte do cabealho; - Tipos de dados no aceitos pelo WEKA; - Um valor ausente entre as chaves { }, mensagem na figura 29; - Espaos entre os valores de atributos; - Se os valores forem String, devem vir entre { } - Valores duplicados entre { } - Presena de rudo (outliers) como apstrofos , virgulas , entre os valores, sinal de porcentagem % , e outros.

Aps solucionar todos os problemas, o WEKA finalmente carrega o arquivo.

Figura 30: Carregando o arquivo LOCACAO.ARFF.

98

Na janela principal do WEKA deve-se verificar se o arquivo foi carregado corretamente. Para isso confere-se os valores que aparecem na pgina principal do WEKA correspondem aos valores da planilha original. Observe a opo Current relation, temos o nome da relao, quantidade de instncias (registros) e quantidade de atributos (campos), No lado esquerdo abaixo se encontra a lista de atributos que carregamos. No lado direito encontra-se o atributo selecionado e abaixo um grfico. Depois de lidos os dados pelo software preciso escolher qual tarefa usar e qual algoritmo ser aplicado na tarefa. Clique na guia Cluster; Em seguida clique no boto Choose;

Esto disponveis os seguintes algoritmos de Clusterizao: - COBWEB; - EM; - FARTHERSTFIRST - MAKEDENSITYBASEDCLUSTER; e - SMPLEKMEANS

Na lista de opes, clique em SimpleK-Means. Este o algoritmo a ser aplicado na Minerao de Dados.

99

Clique na frente do boto Choose, sobre o nome do algoritmo escolhido e especifique o nmero de clusters (N o nmero de clusters) e o nmero de sementes (seed), conforme figura 31; Em seguida clique Ok.

Figura 31: Escolhendo o nmero de clusters e o nmero de sementes.

Segundo Witten e Frank (2000), necessrio especificar um nmero de clusters que o algoritmo dever encontrar na Minerao de Dados e Seed (semente), que corresponde ao nmero de registros que o algoritmo escolher aleatoriamente para iniciar o processo de Clusterizao. Eles sero os centrides iniciais, a partir dos quais sero realizados clculos de distncia e similaridade que permitiro ao algoritmo agrupar (clustering) um registro em um determinado cluster. Na rea de Cluster Mode clique em Use training set para que o WEKA use o arquivo ARFF no treinar do algoritmo, ou seja, na minerao de dados ou Clusterizao (Clustering); A opo Ignore Attributes pode ser usada para selecionar atributos e estes no participaro da Clusterizao; Clica-se no boto Start para iniciar a Clusterizao. O resultado aparecer em seguida do lado direito da tela, conforme mostra a figura 32.

100

A figura 32 representa um exemplo do resultado da Minerao de Dados em sua forma natural, ou seja, do jeito que o software WEKA o representa. Percebe-se que o resultado no to fcil de ser interpretado. Cabe ao especialista de KDD transform-lo, usando a etapa de Psprocessamento, que abrange o tratamento do conhecimento obtido, alterando a forma de exibio para que fique mais claro e que tenha melhor leitura, gerando grficos se necessrio, tendo como objetivo facilitar para o especialista no Domnio da Aplicao, a interpretao e a avaliao da utilidade do conhecimento descoberto. nesta etapa que o especialista em KDD e o especialista no Domnio da Aplicao avaliam os resultados obtidos e fazem suas interpretaes.

Figura 32: Exemplo de como o software WEKA representa o Modelo de Conhecimento.

101

3.3.2.1

Testes realizados sobre a Base de Dados

Utilizando-se do algoritmo SimpleK-Means atravs do Software WEKA, uma base de dados chamada LOCACAO.ARFF e os atributos (ID_Filme, Gnero, ID_Cliente, Bairro, Cidade, Sexo), com suas instncias (64.518 Registros), realizou-se os seguintes testes:

N DO TESTE T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13 T14

N DE CLUSTERS 2 2 10 10 4 20 10 13 30 30 5 30 5 100

N DE SEEDS 10 10 10 20 10 50 5 30 100 200 100 50 200 500

Tabela 7: Testes realizados com N Clusters e N Seeds.

Aps aplicar vrias vezes o algoritmo SimpleK-Means sobre a base de dados LOCACAO.ARFF, utilizando-se de combinaes de N clusters e de N sementes (Seed), conforme mostra a tabela 7, e aps o tratamento do Modelos de conhecimentos pelo especialista de KDD, obteve-se os seguintes resultados: OBS.: Cluster Dados. o grupo formado na Minerao de

102

TESTE T1 Neste teste 2 clusters foram gerados e observa-se que: o gnero AO e DESENHO so mais alugados por quem mora no CENTRO e seja do sexo MASCULINO.
Atributos: Usados: 6 Genero Bairro Cidade Sexo ID_Filme ID_Cliente CLUSTERIZAO Cluster 0 Mean/Mode: Cluster 1 Mean/Mode: GENERO, BAIRRO, CIDADE, SEXO, N LOCAES (%)

Ignorados:

ACAO

CENTRO POTIM MASCULINO, 57758 ( 90%) CENTRO POTIM MASCULINO, 6760 ( 10%)

DESENHO

Tabela 8: Resultado do teste T1 apresentado pelo WEKA.

TESTE T2 Neste teste h 2 clusters e descobriu-se quantos filmes foram alugados por SEXO e as respectivas porcentagens .
CLUSTERIZAO SEXO, N LOCAES (%)

Cluster 0 Cluster 1

Mean/Mode: Mean/Mode:

MASCULINO 46081 ( 71%) FEMININO 18437 ( 29%)

Tabela 9: Resultado do teste T2 apresentado pelo WEKA.

103

TESTE T3 Neste teste 10 clusters foram gerados, conclui-se que: Os gneros suspense e ao so mais alugados por quem mora no centro e seja do sexo masculino.
Attributos Ignorados: ID_Filme ID_Cliente CLUSTERIZAO OBTIDA Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8 Cluster 9 Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: GENERO, BAIRRO, CIDADE, SEXO, N LOCAES (%)

SUSPENSE CENTRO POTIM MASCULINO, 14847 ( 23%) DESENHO CENTRO POTIM MASCULINO, 6648 ( 10%) COMEDIA CENTRO POTIM MASCULINO, 7411 ( 11%) AVENTURA CENTRO POTIM MASCULINO, 7584 ( 12%) ACAO VISTA_ALEGRE POTIM MASCULINO, 5479 ( ACAO CENTRO POTIM MASCULINO, 12672 ( 20%) DRAMA CENTRO POTIM MASCULINO, 1566 ( TERROR CENTRO POTIM MASCULINO, 3362 ( PORNO CENTRO POTIM FEMININO, 3229 ( 2%) 5%) 5%) 8%)

PORNO M_DOS_MARQUES POTIM MASCULINO, 1720 ( 3%)

Tabela 10: Resultado do teste T3 apresentado pelo WEKA.

Teste T4

Neste: 2 cluster indicam que quem mora na cidade de Aparecida aluga o gnero TERROR e AO, e a maioria so Homem. Quem mora no CENTRO de Potim assistem mais filmes AO.

104

CLUSTERIZAO OBTIDA Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8 Cluster 9 Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode:

GENERO, BAIRRO, CIDADE, SEXO,

N LOCAES (%) 7%)

TERROR CENTRO APARECIDA MASCULINO, 4321 ( ACAO CENTRO POTIM MASCULINO, 24224 ( 38%) JOGO CENTRO POTIM MASCULINO, 494 ( 1%) 0%)

BIBLICO CENTRO POTIM MASCULINO, 191 (

ACAO M_DOS_MARQUES POTIM MASCULINO, 3449 ( 5%) PORNO CENTRO POTIM MASCULINO, 5567 ( 9%)

COMEDIA CENTRO POTIM MASCULINO, 6554 ( 10%) ACAO CENTRO POTIM FEMININO, 13558 ( 21%) SUSPENSE CENTRO POTIM MASCULINO, 4277 ( 7%) ACAO JD_PARAIBA APARECIDA MASCULINO, 1883 (3%)

Tabela 11: Resultado do teste T4 apresentado pelo WEKA.

TESTE T5

A cidade onde tem a locadora, obviamente tem mais clientes, porm cidades vizinhas costumam alugar filmes. Por qu? um perfil a ser explorado. Uma provvel resposta seria: o bairro destes clientes de outra cidade no tem locadora e mais prximo. Outra resposta seria: a locadora fica no caminho de transio destes clientes.
CLUSTERIZAO OBTIDA Cluster 0 Cluster 1 Cluster 2 Cluster 3 Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: CIDADE, N LOCAES (%)

POTIM, 59953 ( 93%) APARECIDA, 4108 ( 6%) 1%)

GUARATINGUETA, 452 ( ROSEIRA, 5 ( 0%)

Tabela 12: Resultado do teste T5 apresentado pelo WEKA.

105

TESTE T6 Neste teste, o bairro que mais aluga filmes o CENTRO com (47%), onde o gnero mais alugado AO, sendo (31%) Homens e (16%) Mulheres. Alguns gneros so pouco procurados. Pode-se incentivar o aluguel de filmes de GUERRA, ROMANCE, POLICIAL e outros atravs de promoes, por exemplo.
CLUSTERIZAO OBTIDA Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode:
GENERO, BAIRRO, CIDADE, SEXO, N LOCAES (%)

ACAO CENTRO POTIM MASCULINO, 20115 ( 31%) COMEDIA CENTRO POTIM MASCULINO, 5126 ( ACAO CENTRO POTIM FEMININO10106 ( 16%) TERROR CENTRO POTIM MASCULINO, 2374 ( 4%) 4%) 8%)

PORNO M_DOS_MARQUES POTIM MASCULINO, 2538 ( PORNO CENTRO POTIM MASCULINO, 3429 ( 5%)

Cluster 6 Mean/Mode: Cluster 7 Cluster 8

DESENHO M_DOS_MARQUES POTIM MASCULINO, 1070 ( DESENHO CENTRO POTIM FEMININO, 2231 ( PORNO CENTRO POTIM FEMININO, 1362 ( 3%)

2%)

Mean/Mode: Mean/Mode:

2%) 2%)

Cluster 9 Mean/Mode: Cluster 10 Cluster 11 Cluster 12 Cluster 13 Cluster 14 Cluster 15 Cluster 16 Cluster 17 Cluster 18 Cluster 19

SUSPENSE M_DOS_MARQUES POTIM MASCULINO, 1574 ( GUERRA CENTRO POTIM MASCULINO, 661 ( COMEDIA CENTRO POTIM FEMININO, 2227 ( 1%) 3%)

Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode:

AVENTURA ALVORADA POTIM MASCULINO, 1504 ( AVENTURA CENTRO POTIM MASCULINO, 3808 ( SUSPENSE CENTRO POTIM MASCULINO, 3455 (

2%) 6%) 5%) 0%)

DESENHO BARRANCO_ALTO POTIM MASCULINO, 248 ( ROMANCE ALVORADA POTIM MASCULINO, 167 ( POLICIAL CENTRO POTIM MASCULINO, 241 ( 0%) 0%)

Mode: COMEDIA CHACARA_TROPICAL POTIM MASCULINO, 102 (0%) Mean/Mode: SUSPENSE CENTRO POTIM FEMININO, 2180 ( 3%)

Tabela 13: Resultado do teste T6 apresentado pelo WEKA.

106

TESTE T7 Mulheres de POTIM alugam mais SUSPENSE e Homens, mais AO.


Atributos Ignorados: ID_Filme ID_Cliente

CLUSTERIZAO OBTIDA

GENERO, BAIRRO, CIDADE, SEXO,

N LOCAES(%)

Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8 Cluster 9

Mean/Mode: Mean/Mode:

ACAO CENTRO POTIM MASCULINO, 32920 ( 57%) ACAO ALVORADA POTIM MASCULINO 2308 ( 4%)

Mode: DESENHO PONTE_ALTA APARECIDA FEMININO, 1674 (3%) Mean/Mode: Mean/Mode: Mean/Mode: Mode: SUSPENSE CENTRO POTIM FEMININO, 7507 ( 13%) AVENTURA CENTRO POTIM FEMININO, 1891 ( DRAMA CENTRO POTIM MASCULINO, 963 ( 3%)

2%) 1%) 7%) 3%) 8%)

COMEDIA VILA_SAO_JOSE POTIM FEMININO, 558 ( SUSPENSE CENTRO POTIM MASCULINO, 4138 ( COMEDIA CENTRO POTIM FEMININO, 1579 (

Mean/Mode: Mean/Mode: Mean/Mode:

AVENTURA CENTRO POTIM MASCULINO, 4529 (

Tabela 14: Resultado do teste T7 apresentado pelo WEKA.

TESTE T8 Os gneros de filmes mais alugados por clientes que mais alugam so: AO (26%), SUSPENSE (18%), AVENTURA (12%), COMDIA (12%) e DESENHO (11%).
Atributos: Ignorados: ID_Filme Bairro Cidade Sexo

107

CLUSTERIZAO OBTIDA

GENERO, ID_CLIENTE,

N LOCAES (%)

Cluster 0 Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6 Cluster 7 Cluster 8 Cluster 9 Cluster 10 Cluster 11 Cluster 12

Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode: Mean/Mode:

SUSPENSE 2004, 11900 ( 18%) DESENHO 2362, 6809 ( 11%) COMEDIA 1643, 7575 ( 12%) AVENTURA 497, 7603 ( 12%) ACAO 84 , 17074 ( 26%) ACAO 2004, 121 ( DRAMA 2318, 1588 ( 0%) 2%) 0%) 5%)

RELIGIOSO 1253, 190 ( TERROR 2423, 3446 (

PORNO 1068, 6330 ( 10%) PORNO 788, 22 ( PORNO 1797, 55 ( 0%) 0%) 0%)

AVENTURA 855, 55 (

Tabela 15: Resultado do teste T8 apresentado pelo WEKA.

Aps vrios experimentos de Minerao de dados sobre a base de dados de uma Locadora de Vdeo, passou-se a ter mais ateno nos resultados onde as porcentagens (%) so menos significativas, pois podem sugerir pontos fracos de uma locadora serem estudados e melhorados ou talvez nichos serem explorados, j que as porcentagens (%) mais expressivas, ao serem observadas, representam o bvio e muitas vezes repetitivas, no acrescentando nenhum novo conhecimento. Por isso, deste ponto de teste em diante as menores porcentagens (%) so observadas com mais ateno, no descartando as maiores.

108

TESTE T9 Nesta minerao de dados observou-se que: Homens alugam pouco gnero COMDIA= 65 vezes (0%).

Mulheres alugam pouco gnero TERROR =1167 vezes (2%). Homens alugam pouco gnero INFANTIL = 151 vezes (0%). Mulheres alugam pouco gnero ERTICO= 150 vezes (0%). Homens alugam pouco gnero SUSPENSE = 411 vezes (1%). Homens alugam pouco gnero DESENHO = 299 vezes (0%). Mulheres alugam pouco gnero AO= 121 vezes (0%).
CLUSTERIZAO ID_FILME, GENERO, ID_CLIENTE, BAIRRO, CIDADE, SEXO,NLOCAES(%) Cluster 0 Mode: 668 SUSPENSE 2207 M_DOS_MARQUES POTIM MASCULINO, 2952 (5%) Cluster 1 Mean/Mode: 2153 ACAO 2202 CENTRO POTIM FEMININO, 10325 ( 18%) Cluster 2 Mean/Mode: 2956 COMEDIA 2512 CENTRO POTIM MASCULINO, 7800 ( 13%) Cluster 3 Mean/Mode: 2930 ACAO 1309 M_DOS_MARQUES POTIM MASCULINO, 2173 ( 4%) Cluster 4 Mean/Mode: 1920 COMEDIA 1110 CENTRO POTIM MASCULINO, 65 ( 0%) Cluster 5 Mean/Mode: 431 ACAO 900 JD_PARAIBA APARECIDA MASCULINO, 2445 ( 4%) Cluster 6 Mean/Mode: 2235 TERROR 1030 CENTRO POTIM FEMININO, 1167 ( 2%) Cluster 7 Mode: 49 ACAO 1672 BAIRRO_DOS_VIEIRAS POTIM MASCULINO, 393 ( 1%) Cluster 8 Mean/Mode: 211 DESENHO 1919 CENTRO POTIM FEMININO, 2043 ( 4%) Cluster 9 Mean/Mode: 1244 AVENTURA 379 CENTRO POTIM MASCULINO, 4206 ( 7%) Cluster 10 Mean/Mode: 1188 AVENTURA 183 ALVORADA POTIM MASCULINO, 921 ( 2%) Cluster 11 Mean/Mode: 2945 ACAO 1187 ALVORADA POTIM MASCULINO, 500 ( 1%) Cluster 12 Mean/Mode: 400 SUSPENSE 1940 CENTRO POTIM MASCULINO, 3184 ( 5%) Cluster 13 Mean/Mode: 211 AO 1340 CENTRO POTIM MASCULINO, 3252 ( 6%) Cluster 14 Mean/Mode: 2013 INFANTIL 2755 ALVORADA POTIM MASCULINO, 151 ( 0%) Cluster 15 Mean/Mode: 422 EROTICO 2189 CENTRO POTIM FEMININO, 150 ( 0%) Cluster 16 Mean/Mode: 2945 ACAO 546 CENTRO POTIM MASCULINO, 7300 ( 13%) Cluster 17 Mean/Mode: 1188 AVENTURA 99 CENTRO POTIM FEMININO, 1754 ( 3%) Cluster 18 Mean/Mode: 1 PORNO 1225 VISTA_ALEGRE POTIM MASCULINO, 773 ( 1%) Cluster 19 Mode: 264 SUSPENSE 2093 SANTA_RITA APARECIDA MASCULINO, 411 ( 1%) Cluster 20 Mean/Mode: 2981 ACAO 2362 CENTRO POTIM MASCULINO, 321 ( 1%) Cluster 21 Mean/Mode: 706 PORNO 788 M_DOS_MARQUES POTIM MASCULINO, 623 ( 1%) Cluster 22 Mode: 2318 ACAO 1561 BAIRRO_DOS_VIEIRAS POTIM FEMININO, 121 ( 0%)

109

Cluster 24 Mean/Mode: 2285 DESENHO 2561 CENTRO POTIM MASCULINO, 89 ( 0%) Cluster 25 Mean/Mode: 6030 TERROR 2506 CENTRO POTIM MASCULINO, 4 ( 0%) Cluster 26 Mode: 2899 DESENHO 2622 M_DOS_MARQUES POTIM MASCULINO, 210 ( 0%) Cluster 27 Mean/Mode: 2812 DESENHO 2061 CENTRO POTIM FEMININO, 22 ( 0%) Cluster 28 1484 PORNO 2197 PQ_SAO_FRANCISCO GUARATINGUETA MASCULINO, 205 ( 0%) Cluster 29 Mean/Mode: 2386 PORNO 1068 CENTRO POTIM MASCULINO, 2965 ( 5%)

Tabela 16: Resultado do teste T9 apresentado pelo WEKA.

TESTE 10 Nesta minerao de dados observou-se que alguns bairros fazem poucas locaes, necessitando, portanto que se intensifique o Market nestes bairros. Observou-se tambm que alguns gneros so pouco alugados como, por exemplo: INFANTIL, DRAMA, FAROESTE, BBLICO, CLIPES, ROMANCE, FICO. Sugesto: poderia ser feito uma grande promoo com esses tipos de filmes e diminuir a compra destes gneros.
CLUSTERIZAO Cluster 0 Mean/Mode: Cluster 1 Mean/Mode: Cluster 2 Mean/Mode: Cluster 3 Mean/Mode: Cluster 4 Mean/Mode: Cluster 5 Mean/Mode: Cluster 6 Mean/Mode: Cluster 7 Mean/Mode: Cluster 8 Mean/Mode: Cluster 9 Mean/Mode: Cluster 10 Mean/Mode: Cluster 11 Mean/Mode: Cluster 12 Mean/Mode: GENERO, BAIRRO, CIDADE, SEXO, N LOCAES (%) 4%)

SUSPENSE M_DOS_MARQUES POTIM MASCULINO, 2347 ( ACAO CENTRO POTIM FEMININO, 10358 ( 18%) COMEDIA CENTRO POTIM MASCULINO, 7501 ( 13%) ACAO M_DOS_MARQUES POTIM MASCULINO, 1811 ( ACAO JD_PARAIBA APARECIDA MASCULINO, 1892 ( TERROR CENTRO POTIM FEMININO, 975 ( 2%) 3%) 3%)

ACAO BAIRRO_DOS_VIEIRAS POTIM MASCULINO, 384 ( DESENHO CENTRO POTIM FEMININO, 2021 ( 3%) 7%) 2%)

1%)

AVENTURA CENTRO POTIM MASCULINO, 3964 ( AVENTURA ALVORADA POTIM MASCULINO, 952 ( ACAO ALVORADA POTIM MASCULINO, 471 ( 1%)

SUSPENSE CENTRO POTIM MASCULINO, 3106 ( DESENHO CENTRO POTIM MASCULINO, 3280 (

5%) 6%)

110

Cluster 13 Mean/Mode: INFANTIL ALVORADA POTIM MASCULINO, 94 ( 0%) Cluster 14 Mean/Mode: EROTICO CENTRO POTIM FEMININO, 107 ( 0%) Cluster 15 Mean/Mode: AVENTURA CENTRO POTIM FEMININO, 1871 ( 3%) Cluster 16 Mean/Mode: PORNO VISTA_ALEGRE POTIM MASCULINO, 764 ( 1%) Cluster 17 Mean/Mode: SUSPENSE SANTA_RITA APARECIDA MASCULINO, 374 ( 1%) Cluster 18 Mean/Mode: ACAO CENTRO POTIM MASCULINO, 8132 ( 14%) Cluster 19 Mean/Mode: PORNO M_DOS_MARQUES POTIM MASCULINO, 487 ( 1%) Cluster 20 Mean/Mode: ACAO BAIRRO_DOS_VIEIRAS POTIM FEMININO, 103 ( 0%) Cluster 21 Mean/Mode: TERROR CENTRO POTIM MASCULINO, 1650 ( 3%) Cluster 22 Mode: PORNO PARQUE_SAO_FRANCISCO GUARATINGUETA MASCULINO, 206 (0%) Cluster 23 Mean/Mode: PORNO CENTRO POTIM MASCULINO, 3068 ( 5%) Cluster 24 Mean/Mode: PORNO JD_PARAIBA APARECIDA MASCULINO, 403 ( 1%) Cluster 25 Mean/Mode: AVENTURA M_DOS_MARQUES POTIM MASCULINO, 316 ( 1%) Cluster 26 Mean/Mode: COMEDIA ALVORADA POTIM MASCULINO, 287 ( 0%) Cluster 27 Mean/Mode: ACAO CHACARA_TROPICAL POTIM MASCULINO, 229 ( 0%) Cluster 28 Mean/Mode: COMEDIA PONTE_ALTA APARECIDA MASCULINO, 550 ( 1%) Cluster 29 Mean/Mode: COMEDIA M_DOS_MARQUES POTIM MASCULINO, 364 ( 1%)

Tabela 17: Resultado do teste T10 apresentado pelo WEKA.

TESTE T11 Nesta minerao de dados observou-se que: Mulheres alugam pouco TERROR= 1096 vezes (2%) e pouco COMDIA = 2227 vezes (3%), em relao outros gneros.
CLUSTERIZAO GENERO, SEXO, N LOCAES (%)

Cluster 0 Mean/Mode: Cluster 1 Mean/Mode: Cluster 2 Mean/Mode: Cluster 3 Mean/Mode: Cluster 4 Mean/Mode:

ACAO FEMININO, 15114 ( 23%) ACAO MASCULINO, 40920 ( 63%) TERROR FEMININO, 1096 ( 2%)

COMEDIA FEMININO, 2227 ( 3%) PORNO MASCULINO, 5161 ( 8%)

Tabela 18: Resultado do teste T11 apresentado pelo WEKA.

111

TESTE 12 Aparecida a cidade vizinha com clientes que mais alugam filmes. Talvez pelo fato de que o bairro JD_PARAIBA ser mais prximo de Potim. Verificou-se quais gneros mais e menos alugados por bairros perifricos, ou seja, excluindo-se o bairro centro desta pesquisa. Observou-se que nos bairros perifricos o gnero AVENTURA o mais alugado, diferente do bairro CENTRO, onde AO o mais alugado, mostrado nos clusters 0 e 4. Outro fato interessante que o gnero COMDIA no tem locaes nos bairros perifricos, mas somente num bairro de outra cidade. O gnero DRAMA e outros nem aparecem nos bairros perifricos.
CLUSTERIZAO GENERO, BAIRRO, CIDADE, SEXO, N LOCAES (%)

Cluster 0 Mean/Mode: Cluster 1 Mean/Mode: Cluster 2 Mean/Mode: Cluster 3 Mean/Mode: Cluster 4 Mean/Mode: Cluster 5 Mean/Mode: Cluster 6 Mean/Mode: Cluster 7 Mean/Mode: Cluster 8 Mean/Mode: Cluster 9 Mean/Mode: Cluster 10 Mean/Mode: Cluster 11 Mean/Mode: Cluster 12 Mean/Mode: Cluster 13 Mean/Mode: Cluster 14 Mean/Mode: Cluster 15 Mean/Mode: Cluster 16 Mean/Mode:

ACAO CENTRO POTIM MASCULINO, 12794 ( 22%) TERROR CENTRO POTIM MASCULINO, 2742 ( 5%)

COMEDIA CENTRO POTIM MASCULINO, 6133 ( 11%) AVENTURA ALVORADA POTIM MASCULINO, 2468 ( ACAO CENTRO POTIM FEMININO, 10448 ( 18%) PORNO CENTRO POTIM MASCULINO, 4359 ( DESENHO CENTRO POTIM MASCULINO, 3397 ( 8%) 6%) 2%) 4%)

SUSPENSE M_DOS_MARQUES POTIM MASCULINO, 1342 ( ACAO BARRANCO_ALTO POTIM MASCULINO, 338 ( ACAO VISTA_ALEGRE POTIM FEMININO, 347 ( ROMANCE CENTRO POTIM MASCULINO, 463 ( DESENHO CENTRO POTIM FEMININO, 2048 ( 1%) 1%) 1%) 4%) 0%)

POLICIAL VISTA_ALEGRE POTIM FEMININO, 29 ( AVENTURA CENTRO POTIM MASCULINO, 3433 ( EROTICO CENTRO POTIM MASCULINO, 336 ( 6%) 1%)

INFANTIL M_DOS_MARQUES POTIM MASCULINO, 87 ( TERROR ALVORADA POTIM FEMININO, 638 ( 1%)

0%)

112

Cluster 17 Mean/Mode: ACAO BAIRRO_DOS_VIEIRAS POTIM MASCULINO, 160 ( 0%) Cluster 18 Mean/Mode: DESENHO VISTA_ALEGRE POTIM MASCULINO, 250 ( 0%) Cluster 19 Mean/Mode: ACAO VILA_SAO_JOSE POTIM MASCULINO, 243 ( 0%) Cluster 20 Mean/Mode: DESENHO BARRANCO_ALTO POTIM MASCULINO, 136 ( 0%) Cluster 21 Mean/Mode: SUSPENSE CENTRO POTIM MASCULINO, 3106 ( 5%) Cluster 22 Mean/Mode: ROMANCE VISTA_ALEGRE POTIM MASCULINO, 20 ( 0%) Cluster 23 Mean/Mode: DRAMA CENTRO POTIM MASCULINO, 842 ( 1%) Cluster 24 Mean/Mode: TERROR BARRANCO_ALTO POTIM MASCULINO, 41 ( 0%) Cluster 25 Mean/Mode: CLIPES CENTRO POTIM MASCULINO, 162 ( 0%) Cluster 26 Mean/Mode: ACAO CHACARA_TROPICAL POTIM MASCULINO, 211 ( 0%) Cluster 27 Mean/Mode: COMEDIA JD_PARAIBA APARECIDA MASCULINO, 1415 ( 2%) Cluster 28 Mean/Mode: JOGO FREI_GALVAO POTIM MASCULINO, 50 ( 0%) Cluster 29 Mean/Mode: SUSPENSE FAZENDA POTIM MASCULINO, 29 ( 0%) Tabela 19: Resultado do teste T12 apresentado pelo WEKA.

TESTE T13 Nesta minerao de dados observou-se que: o gnero RELIGIOSO muito pouco alugado por Homens. Sugesto: comprar menos gneros RELIGIOSOS.
CLUSTERIZAO GENERO, SEXO, N LOCAES (%)

Cluster 0 Mean/Mode: Cluster 1 Mean/Mode: Cluster 2 Mean/Mode: Cluster 3 Mean/Mode: Cluster 4 Mean/Mode:

ACAO MASCULINO, 40405 ( 63%) COMEDIA MASCULINO, 7411 ( 11%) RELIGIOSO MASCULINO, 177 ( 0%)

DESENHO FEMININO, 11547 ( 18%) SUSPENSE MASCULINO, 4978 ( 8%)

Tabela 20: Resultado do teste T13 apresentado pelo WEKA.

113

Teste T14
Observou-se que o gnero DRAMA s foi assistido por quem mora no Centro, sendo que Mulheres alugaram 1773 vezes o gnero DRAMA, (3%) das locaes e Homens alugaram 792 vezes o gnero DRAMA, (1%) das locaes. Confirmando-se o que alguns autores afirmaram, observou-se que o algoritmo SimpleK-Means, usado nesta pesquisa, apresentou-se sensvel a grande dimenses, ou seja, muitos atributos sendo utilizados ao mesmo tempo na Minerao de Dados. Isto pode ser observado no Teste T14, onde o cluster 65 com o cliente 788, da coluna trs, indica ter 503 locaes, sendo que na realidade ele fez 340, conforme Tabela 22. Sendo assim no confivel fazer mais observaes neste Teste T14. Constata-se, portanto que imprescindvel a presena de um especialista no Domnio da Aplicao para escolher os atributos ideais para cada minerao de dados.
CLUSTERIZAO ID_FILME, GENERO, ID_CLIENTE, BAIRRO, CIDADE, SEXO,NLOCAES(%)
Cluster 0 Mode: 2863 ACAO 1616 VISTA_ALEGRE POTIM MASCULINO, 3294 ( 5%) Cluster 1 Mean/Mode: 2930 ACAO 2362 CENTRO POTIM MASCULINO, 10052 ( 16%) Cluster 2 Mean/Mode: 2956 COMEDIA 1643 CENTRO POTIM MASCULINO, 4420 ( 7%) Cluster 3 Mean/Mode: 61 RELIGIOSO 866 CENTRO POTIM MASCULINO, 204 ( 0%) Cluster 4 Mode: 2876 DESENHO 900 JD_PARAIBA APARECIDA FEMININO, 1106 ( 2%) Cluster 5 Mode: 668 SUSPENSE 2349 M_DOS_MARQUES POTIM MASCULINO, 1519 ( 2%) Cluster 6 Mean/Mode: 1383 DRAMA 2169 CENTRO POTIM FEMININO, 1773 ( 3%) Cluster 7 Mode: 1933 AVENTURA 1577 M_DOS_MARQUES POTIM MASCULINO, 1102 ( 2%) Cluster 8 Mode: 1272 TERROR 2487 M_DOS_MARQUES POTIM MASCULINO, 655 ( 1%) Cluster 9 Mean/Mode: 211 DESENHO 1361 CENTRO POTIM MASCULINO, 3431 ( 5%) Cluster 10 Mean/Mode: 1244 AVENTURA 497 CENTRO POTIM MASCULINO, 3322 ( 5%) Cluster 11 Mode: 2235 TERROR 2423 CHACARA_TROPICAL POTIM FEMININO, 402 ( 1%) Cluster 12 Mean/Mode: 2667 AVENTURA 1712 CENTRO POTIM MASCULINO, 41 ( 0%) Cluster 13 Mean/Mode: 1244 AVENTURA 2416 CENTRO POTIM FEMININO, 1712 ( 3%) Cluster 14 Mean/Mode: 2878 ACAO 2331 CENTRO POTIM MASCULINO, 174 ( 0%) Cluster 15 Mean/Mode: 1312 AVENTURA 2581 CENTRO POTIM MASCULINO, 225 ( 0%) Cluster 16

114

Mean/Mode: 315 PORNO 620 CENTRO POTIM MASCULINO, 3610 ( 6%) Cluster 17 Mean/Mode: 2599 ACAO 630 CENTRO POTIM MASCULINO, 268 ( 0%) Cluster 18 Mode: 1207 PORNO 715 PONTE_ALTA APARECIDA MASCULINO, 1115 ( 2%) Cluster 19 Mode: 483 COMEDIA 2652 FREI_GALVAO POTIM MASCULINO, 182 ( 0%) Cluster 20 Mean/Mode: 1113 SUSPENSE 1612 CENTRO POTIM MASCULINO, 3042 ( 5%) Cluster 21 Mean/Mode: 943 ACAO 35 CENTRO POTIM MASCULINO, 116 ( 0%) Cluster 22 Mode: 2220 COMEDIA 1610 VILA_SAO_JOSE POTIM FEMININO, 484 ( 1%) Cluster 23 Mode: 2930 ACAO 2093 PONTE_ALTA APARECIDA MASCULINO, 869 (1%) Cluster 24 Mean/Mode: 2778 DESENHO 2288 CENTRO POTIM MASCULINO, 71 ( 0%) Cluster 25 Mean/Mode: 1272 TERROR 2376 CENTRO POTIM MASCULINO, 1555 ( 2%) Cluster 26 Mode: 1188 AVENTURA 2155 SANTA_RITA APARECIDA FEMININO, 127 ( 0%) Cluster 27 Mean/Mode: 2333 DESENHO 819 CENTRO POTIM MASCULINO, 190 ( 0%) Cluster 28 Mean/Mode: 86 AVENTURA 107 CENTRO POTIM MASCULINO, 47 ( 0%) Cluster 29 Mean/Mode: 2220 COMEDIA 2102 CENTRO POTIM FEMININO, 1710 ( 3%) Cluster 30 Mean/Mode: 1696 DESENHO 865 CENTRO POTIM MASCULINO, 72 ( 0%) Cluster 31 Mean/Mode: 2930 ACAO 33 ALVORADA POTIM MASCULINO, 783 ( 1%) Cluster 32 Mean/Mode: 2218 DESENHO 2573 CENTRO POTIM MASCULINO, 23 ( 0%) Cluster 33 Mean/Mode: 2966 AVENTURA 347 CENTRO POTIM FEMININO, 182 ( 0%) Cluster 34 Mean/Mode: 393 AVENTURA 1121 CENTRO POTIM MASCULINO, 35 ( 0%) Cluster 35 Mean/Mode: 211 DESENHO 1539 CENTRO POTIM FEMININO, 1960 ( 3%) Cluster 36 Mean/Mode: 2386 PORNO 1068 CENTRO POTIM MASCULINO, 202 ( 0%) Cluster 37 Mean/Mode: 133 PORNO 484 CENTRO POTIM FEMININO, 1190 ( 2%) Cluster 38 Mean/Mode: 3009 SUSPENSE 2379 ALVORADA POTIM MASCULINO, 292 ( 0%) Cluster 39 Mean/Mode: 1017 AVENTURA 1473 CENTRO POTIM FEMININO, 69 ( 0%) Cluster 40 Mode: 400 SUSPENSE 1714 BARRANCO_ALTO POTIM FEMININO, 338 ( 1%) Cluster 41 Mean/Mode: 6390 COMEDIA 709 CENTRO POTIM MASCULINO, 40 ( 0%) Cluster 42 Mean/Mode: 811 DESENHO 2636 CENTRO POTIM MASCULINO, 51 ( 0%) Cluster 43 Mean/Mode: 46 PORNO 477 CENTRO POTIM FEMININO, 12 ( 0%) Cluster 44 Mean/Mode: 2485 PORNO 705 CENTRO POTIM MASCULINO, 60 ( 0%) Cluster 45 Mean/Mode: 1383 POLICIAL 1850 CENTRO POTIM MASCULINO, 254 ( 0%) Cluster 46 Mean/Mode: 2967 ACAO 2202 ALVORADA POTIM FEMININO, 789 ( 1%) Cluster 47 Mean/Mode: 463 PORNO 1225 CENTRO POTIM FEMININO, 14 ( 0%) Cluster 48 Mean/Mode: 2930 ACAO 84 CENTRO POTIM FEMININO, 3165 ( 5%) Cluster 49 Mean/Mode: 1626 SUSPENSE 31 CENTRO POTIM MASCULINO, 107 ( 0%) Cluster 50 Mean/Mode: 453 SUSPENSE 1331 CENTRO POTIM MASCULINO, 49 ( 0%) Cluster 51 Mean/Mode: 2213 DESENHO 1876 CENTRO POTIM MASCULINO, 94 ( 0%) Cluster 52 Mean/Mode: 1272 TERROR 702 CENTRO POTIM FEMININO, 701 ( 1%) Cluster 53 Mean/Mode: 18007 COMEDIA 1378 CENTRO POTIM FEMININO, 5 ( 0%) Cluster 54 Mean/Mode: 32 SUSPENSE 2004 CENTRO POTIM MASCULINO, 157 ( 0%)

115

Cluster 55 Mean/Mode: 1073 SUSPENSE 1000 ALVORADA POTIM FEMININO, 120 ( 0%) Cluster 56 Mean/Mode: 768 ACAO 2281 CENTRO POTIM MASCULINO, 183 ( 0%) Cluster 57 Mean/Mode: 531 AVENTURA 753 CENTRO POTIM MASCULINO, 94 ( 0%) Cluster 58 Mean/Mode: 668 SUSPENSE 1030 CENTRO POTIM FEMININO, 1486 ( 2%) Cluster 59 Mean/Mode: 2654 ACAO 745 CENTRO POTIM MASCULINO, 56 ( 0%) Cluster 60 Mean/Mode: 1481 PORNO 2035 CENTRO POTIM FEMININO, 22 ( 0%) Cluster 61 Mean/Mode: 2008 AVENTURA 1229 ALVORADA POTIM FEMININO, 87 ( 0%) Cluster 62 Mean/Mode: 2981 ACAO 1618 SANTA_CRUZ POTIM MASCULINO, 79 ( 0%) Cluster 63 Mode: 2859 GUERRA 2111 VILA_SAO_JOSE POTIM FEMININO, 89 ( 0%) Cluster 64 Mean/Mode: 1978 ACAO 1659 CENTRO POTIM FEMININO, 115 ( 0%) Cluster 65 Mode: 2567 PORNO 788 M_DOS_MARQUES POTIM MASCULINO, 503 ( 1%) Cluster 66 Mean/Mode: 1312 AVENTURA 1904 CENTRO POTIM FEMININO, 66 ( 0%) Cluster 67 Mean/Mode: 276 PORNO 2049 CENTRO POTIM MASCULINO, 7 ( 0%) Cluster 68 Mean/Mode: 1897 DESENHO 2542 CENTRO POTIM MASCULINO, 33 ( 0%) Cluster 69 Mode: 197 COMEDIA 1577 BARRANCO_ALTO POTIM MASCULINO, 308 ( 0%) Cluster 70 Mean/Mode: 10031 JOGO 1065 CENTRO POTIM MASCULINO, 249 ( 0%) Cluster 71 Mean/Mode: 1216 TERROR 2306 CENTRO POTIM MASCULINO, 65 ( 0%) Cluster 72 Mean/Mode: 2156 ACAO 1508 CENTRO POTIM FEMININO, 21 ( 0%) Cluster 73 Mean/Mode: 1001 CLIPES 916 CENTRO POTIM FEMININO, 103 ( 0%) Cluster 74 Mean/Mode: 587 ACAO 2024 BARRANCO_ALTO POTIM MASCULINO, 268 ( 0%) Cluster 75 Mean/Mode: 85 PORNO 285 CENTRO POTIM FEMININO, 9 ( 0%) Cluster 76 Mean/Mode: 1207 DRAMA 118 CENTRO POTIM MASCULINO, 792 ( 1%) Cluster 77 Mean/Mode: 303 AVENTURA 1740 CENTRO POTIM MASCULINO, 47 ( 0%) Cluster 78 Mean/Mode: 1650 ACAO 2668 CENTRO POTIM MASCULINO, 7 ( 0%) Cluster 79 Mean/Mode: 1204 ACAO 917 CENTRO POTIM MASCULINO, 187 ( 0%) Cluster 80 Mean/Mode: 1197 TERROR 1813 ALVORADA POTIM FEMININO, 70 ( 0%) Cluster 81 Mean/Mode: 1614 COMEDIA 1929 CENTRO POTIM FEMININO, 33 ( 0%) Cluster 82 Mean/Mode: 1204 ACAO 151 CENTRO POTIM FEMININO, 63 ( 0%) Cluster 83 Mean/Mode: 330 AVENTURA 1723 CENTRO POTIM MASCULINO, 172 ( 0%) Cluster 84 Mean/Mode: 2804 AVENTURA 732 CENTRO POTIM MASCULINO, 105 ( 0%) Cluster 85 Mean/Mode: 2129 SUSPENSE 2421 CENTRO POTIM MASCULINO, 65 ( 0%) Cluster 86 Mean/Mode: 1929 INFANTIL 809 CENTRO POTIM MASCULINO, 398 ( 1%) Cluster 87 Mean/Mode: 1461 PORNO 1383 CENTRO POTIM FEMININO, 59 ( 0%) Cluster 88 Mean/Mode: 1978 ACAO 1777 CENTRO POTIM MASCULINO, 176 ( 0%) Cluster 89 Mean/Mode: 2948 ACAO 405 CENTRO POTIM MASCULINO, 67 ( 0%) Cluster 90 Mean/Mode: 973 DESENHO 2055 CENTRO POTIM MASCULINO, 41 ( 0%) Cluster 91 Mean/Mode: 2697 DESENHO 2278 CENTRO POTIM MASCULINO, 65 ( 0%) Cluster 92 Mean/Mode: 2968 COMEDIA 1212 CENTRO POTIM MASCULINO, 84 ( 0%) Cluster 93

116

Mean/Mode: 1179 TERROR 355 CENTRO POTIM FEMININO, 30 ( 0%) Cluster 94 Mean/Mode: 2962 ACAO 1029 CENTRO POTIM MASCULINO, 45 ( 0%) Cluster 95 Mean/Mode: 174 CLIPES 307 CENTRO POTIM MASCULINO, 170 ( 0%) Cluster 96 Mean/Mode: 1913 COMEDIA 1440 CENTRO POTIM MASCULINO, 20 ( 0%) Cluster 97 Mean/Mode: 97 SUSPENSE 583 CENTRO POTIM MASCULINO, 46 ( 0%) Cluster 98 Mean/Mode: 2242 COMEDIA 335 CENTRO POTIM MASCULINO, 59 ( 0%) Cluster 99 Mode: 760 COMEDIA 2093 SANTA_RITA APARECIDA MASCULINO, 292 ( 0%)

Tabela 21: Resultado do teste T14 apresentado pelo WEKA.

3.3.3 Etapa de Ps-processamento Segundo Fayyad et al. (1996); Goldschmidt e Passos (2005) nesta etapa que abrange o tratamento do conhecimento obtido na Minerao de Dados e tem como objetivo explicar os resultados e facilitar, para o homem, a interpretao e a avaliao da utilidade do conhecimento descoberto . Em geral nesta etapa que o especialista em KDD e o especialista no Domnio da Aplicao avaliam os resultados obtidos e definem novas alternativas de investigao dos dados. 3.3.3.1 Respondendo as Hipteses e Explicando os Resultados Quais Filmes foram mais alugados? Quantas vezes?
HOMEM ARANHA

Filmes mais alugados


O SENHOR DOS ANEIS HARRY POTTER E A PEDRA FILOSOFAL

265 271 277 282 287 288 304

265

O ESCORPIAO REI

590
BLADE 2

489 378 325 321 307 309

VELOZES E FURIOSOS TRIPLO X BEIJO DO DRAGO A INTERPRETE XUXA E OS DUENDES SCOOBY DOO EFEITO COLATERAL JASON HOMEM ARANHA II A ERA DO GELO

Figura 33: Os 15 Filmes mais alugados com base nos testes realizados no Weka.

117

Quais Filmes foram menos alugados? Quantas vezes?

Filmes menos alugados

A BATALHA DE RIDD

TERRORISMO EM ATLANTA

4 12

3 9

A PRINCESA

NAPOLEO

FILADELPHIA

19

MARIO WORLD SUPER MAKING OF SEXY

Figura 34: Alguns Filmes menos alugados com base nos testes realizados no Weka.

O WEKA apresenta a relao dos gneros e o n de vezes que foram alugados.

Figura 35: Gneros de filmes apresentado pelo WEKA.

118

Quais os clientes que mais alugam filmes?


Colocao ID_Cliente 1 788 2 2004 3 1643 4 497 5 1361 6 638 7 1612 8 1340 9 2202 10 855 11 1125 12 2362 13 2169 14 84 15 1616 16 2349 17 355 18 2487 19 1030 20 2333 21 1614 22 1935 23 1740 24 379 25 226 26 1577 27 484 28 917 29 1068 30 2423 31 1542 32 2093 33 2288 34 1750 35 1777 36 83 37 900 38 630 39 799 40 347 41 2267 42 2400 43 753 44 616 45 1919 46 87 47 732 48 809 49 1539 50 2281 N de Locaes 340 336 334 315 304 286 282 269 262 259 252 252 251 244 240 234 225 219 216 216 215 214 211 208 207 207 206 203 202 202 198 198 191 190 187 185 183 182 180 177 176 176 172 169 169 168 166 166 165 165

Tabela 22: Colocao dos clientes que mais alugam filmes, segundo WEKA.

119

Quais os clientes que menos alugam filmes?


Colocao ID_Cliente 1 3831 2 73 3 420 4 409 5 29 6 3146 7 97 8 3051 9 62 10 247 11 333 12 1983 13 39 14 36 15 861 16 2434 17 70 18 2786 19 536 20 1510 21 265 22 2710 23 2439 24 2380 25 1203 26 136 27 2464 28 1378 29 2467 30 253 31 802 32 2624 33 977 34 234 35 1408 36 843 36 794 38 448 39 2521 40 2734 41 2165 42 1513 43 1802 44 889 45 1470 46 771 47 906 48 1398 49 88 50 322 N de Locaes 1 2 3 4 5 5 6 6 7 8 9 9 10 11 12 12 13 13 14 14 15 15 16 17 18 19 19 20 20 21 21 21 22 23 23 24 25 26 26 27 28 29 30 31 32 33 34 35 36 37

Tabela 23: Colocao dos clientes que menos alugam filmes, segundo WEKA.

Sugesto: Para os que menos alugam poderia ser enviada uma mala direta com promoes de filmes.

120

Quais os tipos de filmes (GNERO) so mais alugados? 514; 1% 547; 1% 669; 1% 718; 1% 939; 2% Generos mais alugados 966; 2% 1615; 3% 3470; 6% 17494; 27%

ACAO AVENTURA COMEDIA SUSPENSE DESENHO PORNO TERROR DRAMA ROMANCE GUERRA

6648; 11%

6648; 11% 7209; 12% 7411; 11%

INFANTIL

7584; 11%

FICCAO EROTICO JOGO

Figura 36: Gneros de filmes mais alugados, apresentado pelo WEKA.

Quais os tipos de filmes (Gnero) so menos alugados?


Generos menos alugados
TORCIDA SERTANEJO RACING PRESIDIO LUTA_LIVRE SHOW ROCK_NACIONAL LIVRO ESPORTE LUTA

Generos

CLASSICO BANG_BANG EVANGELICO BANDA RODEIO EPICO DOCUMENTARIO FUTEBOL FAROESTE RELIGIOSO MUSICAL BIBLICO WESTERN CLIPES POLICIAL JOGO

100

200

300

400

500

600

n de Vezes que foram alugadas

Figura 37: Gneros de filmes menos alugados, apresentado pelo WEKA.

121

Sugesto : Podem-se colocar os gneros mais alugados prximos uns dos outros e os gneros menos alugados, numa rea separada com promoes com o objetivo de ter uma maior rotatividade de locaes entre os gneros menos alugados.

Quais os bairros que mais alugam filmes? Resposta: Em 1 lugar o bairro onde se encontra a locadora, logo aps os bairros mais prximos, conforme mostra a figura 49.
661; 1% 786; 1% 895; 1% 1264; 2% 1361; 2% 1371; 2% 2066; 3% 2842; 5%
VISTA_ALEGRE CENTRO M_DOS_MARQUES ALVORADA

Filmes alugados por Bairro

3475; 6%

JD_PARAIBA BARRANCO_ALTO PONTE_ALTA VILA_SAO_JOSE

46726; 77%

CHACARA_TROPICAL BAIRRO_DOS_VIEIRAS

Figura 38: Bairros que mais alugam filmes.

Quem assiste mais filmes? O homem ou a mulher?

MASCULINO FEMININO

FEMININO; 18437; 29%

MASCULINO; 46081; 71%

Figura 39: Filmes mais alugados por Sexo.

122

Quais os bairros alugam menos filmes?

Bairros que menos alugam filmes.


700 647 600 500 400 300 200 100 0 1
Figura 40: Bairros que menos alugam filmes.

46 4

FREI_GALVAO SANTA_RITA ITAGUA FAZENDA VILA_SAO_PEDRO JOAO_NOGUEIRA SANTA_LUZIA PARQUE_SAO_FRANCISCO SANTA_CRUZ SAO_GERALDO MANTO_AZUL SAO_SEBASTIAO TIGRAO PEDREGULHO PARQUE_DAS_ARVORES JOAO_DANIEL ROSA_DE_OURO VILA_MARIANA SANTO_AFONSO VILA_MUNICIPAL_2 SAO_BENEDITO TAMANDARE AGUA_BRANCA PARQUE_SANTA_CLARA AROEIRA SANTA_TEREZINHA CAMPO_DO_GALVAO V_ALEGRE JD_PRIMAVERA RES_PALMEIRAS SAO_ROQUE VILA_OLIVIA JD_DO_VALE PARQUE_DAS_GARAS

Quais os gneros de filmes so mais assistidos por clientes que mais alugam?

Resposta: Conforme TESTE na tabela 15, com base nos clientes mapeados na tabela 22, os gneros de filmes mais alugados por clientes que mais alugam so: AO (26%), SUSPENSE (18%), AVENTURA (12%) e COMDIA (12%) e DESENHO (11%).

123

Quais os gneros de filmes so mais assistidos por clientes que menos alugam? Resposta: Com base nos clientes mapeados na tabela 23, fez-se uma amostragem de alguns clientes que menos alugam filmes e os gneros que eles mais assistem, considerando os clientes que alugaram mais de 9 filmes, tem-se:
ID_Cliente 39 36 70 536 265 136 253 234 1408 843 794 448 2521 2734 2165 1470 771 906 88 322 N de Fitas Alugadas 10 11 13 14 15 19 21 23 23 24 25 26 26 27 28 32 33 34 36 37 Gneros mais alugados ACAO COMEDIA ACAO, COMEDIA DESENHO SUSPENSE, DESENHO AVENTURA, SUSPENSE ACAO, SUSPENSE ACAO, AVENTURA DESENHO ACAO, AVENTURA AVENTURA, COMEDIA AVENTURA, SUSPENSE CLIPES, AVENTURA DESENHO ACAO, SUSPENSE ACAO, DESENHO ACAO, COMEDIA ACAO, AVENTURA COMEDIA, SUSPENSE ACAO, COMEDIA

Tabela 24: Gneros mais assistidos por clientes que menos alugam filmes.

Na figura 41 nota-se que o atributo SEXO tem uma tima separabilidade e visualizao em relao aos atributos ID_FILME, GNERO, ID_CLIENTE, BAIRRO e CIDADE, enquanto na figura 42 os outros atributos esto mais misturado, dificultando suas visualizaes.

124

Figura 41: Separabilidade dos clientes pelo atributo Sexo.

Figura 42: Separabilidade dos clientes pelo atributo Bairro.

125

CONSIDERAES FINAIS

Aps o desenvolvimento deste trabalho, podem ser feitas algumas consideraes: necessria muita pesquisa para obter-se um mtodo ideal para resolver um determinado problema e que seja capaz de atender a todos os requisitos desejveis para a tarefa de Clusterizao, principalmente com respeito aos requisitos relacionados escalabilidade, ao conhecimento prvio necessrio, robustez na presena de rudos e identificao do nmero apropriado de clusters. Nesta pesquisa foi possvel responder algumas hipteses e expectativas, como por exemplo, conseguiu-se saber quais os filmes mais e menos alugados, os clientes que mais e menos alugam por bairro, sexo e cidade, os gneros mais e menos alugados e quais os gneros preferidos dos clientes que mais e menos alugam. Em todas as mineraes realizadas, notou-se a ausncia, ou pouca freqncia, de locaes de alguns gneros como DRAMA, FAROESTE, BBLICO, CLIPES, ROMANCE, FICO entre outros. Com base nesta informao, a Locadora pode diminuir o nmero de compras deste tipo de filme. Aps ter-se levantado vrias hipteses, construdo alguns atributos e ao tentar manipular esses novos atributos construdos, mostrados na tabela 5, enriquecendo-os com informaes que pudessem gerar novos conhecimentos, expectativas e responder algumas hipteses, percebeu-se que no seria

126

possvel, pois o atributo DATAMOV (data da locao do filme) est totalmente inconsistente, conforme mostra a figura 25. Apesar da maioria das hipteses terem sido respondidas, algumas no puderam ser respondidas, tais como: - Em que pocas do ano alugam-se mais filmes? - Em que dias da semana se alugam mais filmes? - Em que pocas do ano determinados gneros so mais alugados? - Os filmes mais alugados eram dublados ou legendados? - Os filmes eram lanamentos quando foram alugados? - Os filmes estavam na promoo ou eram finais de semanas quando foram alugados? As respostas no foram possveis devido ao fato do atributo DATAMOV (data da locao) ter sido desprezado por inconsistncia, fato comentado anteriormente. O mtodo K-Means sensvel a clusters de tamanhos muito diferentes. Talvez isso explique a ausncia, ou pouca freqncia, de locaes de alguns gneros. A necessidade de o usurio ter que especificar k nmero de clusters, com antecedncia pode ser vista como uma desvantagem, pois o usurio ter que fazer vrias mineraes para achar o k nmero de clusters ideal para retornar a melhor Minerao de Dados, ou seja, que retorne o melhor Modelo de Conhecimento possvel. O mtodo K-Means sensvel a rudos, visto que um pequeno nmero de tais dados (rudos) podem influenciar, substancialmente, os resultados. Porm, o que pode parecer rudos para alguns, pode ser de grande

127

relevncia para outros. Por exemplo: rudos pode ser uma forma dos bancos verificarem fraudes nas transaes. Com base nesta pesquisa um especialista no Domnio da Aplicao pode fazer uma anlise detalhada dos resultados (conhecimentos

descobertos), conhecer o perfil dos clientes, suas preferncias e preparar um plano de ao para aumentar o faturamento da Vdeo Locadora.

DIFICULDADES ENCONTRADAS

Uma grande dificuldade encontrada foi durante a fase de Prprocessamento, onde percebeu-se a necessidade de uma poltica para que os desenvolvedores criem uma Interface nos sistemas de armazenamento de dados que permitam rotinas de crtica nas interfaces de entrada. Esta seria a melhor maneira de evitar a poluio dos dados, organizando a entrada dos dados de forma consistente para futuras utilizaes em Minerao de Dados, pois essas informaes so de grande valor para as organizaes. No entanto, nem sempre tais rotinas esto disponveis nos sistemas de armazenamento, o que dificulta bastante o Pr-processamento. Com a ausncia de um especialista no Domnio da Aplicao no processo de Minerao de Dados, principalmente na etapa de Psprocessamento, percebeu-se uma dificuldade em interpretar os modelos de conhecimentos (resultados da minerao), dificultando tambm as concluses e, principalmente, deixando talvez de enxergar alguns conhecimentos no explcitos, que para ele talvez fizesse sentido.

128

Um exemplo dessa dificuldade est na figura 32 que representa um resultado da Minerao de Dados em sua forma natural, ou seja, o formato que o software WEKA apresenta, cabendo ao especialista de KDD transform-lo, tendo como objetivo facilitar para o especialista no Domnio da Aplicao, a interpretao e a avaliao da utilidade do conhecimento descoberto. nesta etapa que o especialista em KDD e o especialista no Domnio da Aplicao avaliam juntos os resultados obtidos e fazem consideraes ou concluses. Durante vrios experimentos de Mineraes de dados sobre a base de dados, percebeu-se uma dificuldade em enxergar e interpretar os resultados, pois os mesmos parecem ser repetitivos, confirmando-se a necessidade da presena de um especialista no Domnio da Aplicao. Por isso passou-se ento a ter mais ateno nos resultados onde as porcentagens (%) so menos significativas, pois podem sugerir pontos fracos serem estudados e melhorados ou talvez nichos serem explorados, j que as porcentagens (%) mais expressivas, ao serem observadas, representam o

bvio e muitas vezes repetitivas, parecendo no acrescentar nenhum novo conhecimento. Observou-se uma dificuldade do algoritmo de Clusterizao em conseguir formar clusters (grupos) com clientes que tenham feito poucas locaes. Essa afirmao foi constatada quando se fez uma Minerao de

129

Dados com parmetros de N= 100 para clusters e S=100 para Seed, onde s foi encontrado um cliente da relao de clientes que menos alugam filmes, mapeados na tabela 23. Observou-se tambm uma dificuldade do algoritmo de Clusterizao em conseguir formar clusters com gneros poucos alugados. Essa afirmao constatada em todas as Mineraes de Dados feitas, mostradas nas tabelas de testes, onde raramente se encontra, por exemplo, os gneros DRAMA, FAROESTE, BBLICO, CLIPES, ROMANCE, FICO, entre outros. E por fim, terminar este trabalho com a certeza de que muitos conceitos foram aprendidos e os objetivos de conhecer vrias tcnicas, tarefas, mtodos e algoritmos de Clusterizao, escolher um e aplicar um sobre uma base de dados, interpretar os resultados e apresent-los de forma clara, foram alcanados.

TRABALHOS FUTUROS

Esse trabalho pode ser continuado para melhor estudar as tcnicas de KDD, as tarefas de Minerao de Dados e os algoritmos voltados estas tarefas, suas caractersticas, diferenas e principalmente suas utilidades, conhecer mais profundamente outros Algoritmo de Clusterizao, e tentar definir quais so mais apropriados para um determinado segmento do mercado, testando-os atravs de ferramentas disponveis no mercado, mostradas na tabela 2, e se possvel implement-los, melhorando seus pontos fracos.

130

REFERNCIAS BIBLIOGRFICAS E BIBLIOGRAFIAS

APTE, Chidanand; GROSSMAN, Edna et al. Probabilistc Estimation-based Data Mining for Discovering Insurance Risks IEEE Intelligent Systems & their aplications, Los Alamitos/CA, p. 49-58, nov./dec. 1999.

ARNOLD, Ken. Programando em Java. So Paulo/SP: Makron Books, 1997. BERRY, Michael J. A.; LINOFF, Gordon. Data Mining Techniques 2nd Edition: Wiley, 2004.

BRAGA, Antonio de Padua; CARVALHO, Andr Ponce de Leon; LUDERMIR, Teresa Bernardes. Redes Neurais Artificiais: Teoria e Aplicaes. Rio de Janeiro: Ed. LTC, 2000.

CARLANTONIO, Lando Mendona Di. Novas Metodologias para Clusterizao de Dados. 2001. 157 f. Dissertao (Mestrado em Cincias em Engenharia Civil) Universidade Federal do Rio de Janeiro: COPPE/UFRJ, Rio de Janeiro, 2001.

CARVALHO, Lus Alfredo Vidal de. Data Mining: a minerao de dados no marketing, medicina, economia, engenharia e administrao. So Paulo: Erica, 2001.

CHAN, Philip K.; FAN, Wei et al. Distributed Data Mining in Credit Card Fraud detection. IEEE Intelligent Systems & their applications, Los Alamitos/CA, p. 67-74, nov./dec. 1999.

DEITEL, H. M. Java: Como Programar. So Paulo/SP: Printice Hall, 2005.

ELMASRI, Ramez; NAVATHE, Shankant B. Fundamentals of Database Systems: Addison Wesley, 2000.

FAYYAD, Usama M. et al. Advances in knowledge Discovery and Data Mining. Menlo Park /CA: AAAI Press, 1996.

131

FREEMAN, James A.; SKAPURA, David M. Neural Networks: algorithm application and programming techniques. California: Ed. CNS, 1991.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data Mining: um guia prtico. Rio de Janeiro/RJ: Campus, 2005.

LEMAY, Laura. Aprenda Java em 21 dias. Rio de Janeiro/RJ: Campus, 1998.

PEDRYCZ, Witold. Kowledge-based clustering: from data to information granules. Edmonton /Canada: Wiley, 2005.

RESENDE, Solange Oliveira. Sistemas Aplicaes. Barueri/SP: Manole, 2003.

Inteligentes:

Fundamentos

SMITH, Elmi; ELOFF, Jan. Cognitive Fuzzy Modeling for Enhanced Risk Assessment in Health Care Institution. IEEE Intelligent Systems & their applications, Los Alamitos/CA, p. 69-75, mar./abr. 2000.

Souto, M. C. P. Weka: Aprendizado de Mquina. Site da faculdade UFRN. Disponvel em <http://www.dimap.ufrn.br/~marcilio/AM/course-AM.htm>. Acesso em 07 ago. 2006.

WITTEN, Ian H.; Frank, Eibe. Data Mining: practical machine learning tools and techniques with Java Implementations. San Francisco: Morgan Kaufmann Publishers, 1999.

WITTEN, Ian H.; FRANK, Eibe. Data Mining: practical machine learning tools and techniques with Java Implementations. San Francisco: Morgan Kaufmann Publishers, 2000.

S-ar putea să vă placă și