Documente Academic
Documente Profesional
Documente Cultură
MARING 2007
EMERSON RABELO
Dissertao apresentada ao Programa de Ps-Graduao em Cincia da Computao da Universidade Estadual de Maring, como requisito parcial para obteno do grau de Mestre em Cincia da Computao. Orientadora: Prof. Dr. Maria Madalena Dias
MARING 2007
Dados Internacionais de Catalogao-na-Publicao (CIP) (Biblioteca Central - UEM, Maring PR., Brasil)
R114a Rabelo, Emerson Avaliao de tcnicas de visualizao para minerao de dados / Emerson Rabelo. -- Maring : [s.n.], 2007. 103 p. : il. color., figs. Orientadora : Prof. Dr. Maria Madalena Dias. Dissertao (mestrado) - Universidade Estadual de Maring. Programa de Ps-graduao em Cincia da Computao, 2007. 1. Minerao de dados. 2. Visualizao de informao. I. Universidade Estadual de Maring. Programa de Ps-graduao em Cincia da Computao. II. Ttulo.
EMERSON RABELO
Dissertao apresentada ao Programa de Ps-Graduao em Cincia da Computao da Universidade Estadual de Maring, como requisito parcial para obteno do grau de Mestre em Cincia da Computao.
Aprovado em 05/09/2007
BANCA EXAMINADORA
Prof. Dr. Jlio Cesar Nievola Pontifcia Universidade Catlica do Paran PPGIa/PUCPR
AGRADECIMENTOS Agradeo primeiramente a Deus pela fora nos momentos de dificuldades e, pela luz que iluminou e guiou meus passos direcionando-me no caminho da aprendizagem. Agradeo a minha me Josefa Benites Rabelo, pela sua dedicao e amor e ao meu pai Valentim Rabelo, que sempre me mostrou por meio de atitudes o valor da humildade e do trabalho. O meu irmo que sempre esteve presente e disposto a me ajudar em qualquer momento. Agradeo a minha Esposa Juliana F. Rabelo por estar ao meu lado em todos os momentos de alegria e dificuldades, pois sem a sua presena com certeza seria muito mais difcil. Agradeo a Deus mais uma vez, por ter colocado no meu caminho uma pessoa maravilhosa que minha orientadora professora Maria Madalena Dias, pela oportunidade, profissionalismo, no medindo esforos no apoio para realizao deste trabalho compartilhando o seu conhecimento. Agradeo a todos os professores que, de forma direta ou indireta, contriburam para este trabalho, principalmente a professora Cllia Franco pelo valor dos seus conhecimentos, conselhos e sua disposio. Agradeo ao meu Primo Heber Rabelo pela ajuda na finalizao deste trabalho. Agradeo aos funcionrios do Departamento de informtica em especial a Maria Ins Davano pela ajuda e pacincia. A todos que direta ou indiretamente contriburam para a realizao deste trabalho.
RESUMO
Nas ltimas dcadas, o constante avano na rea de Tecnologia da Informao (TI) tem viabilizado o armazenamento de grandes quantidades de dados. Viabilidade fornecida pelo baixo custo de dispositivos de armazenando, fcil acesso Internet, existncia de sistemas de informao e de ferramentas de gerenciamento. Com essa exploso no volume de dados, surge a necessidade de novas pesquisas para encontrar formas eficazes e inteligentes na busca de informaes teis. A minerao de dados uma rea de pesquisa que tem contribudo na busca de conhecimentos implcitos que possam dar suporte tomada de deciso. Na verdade, a minerao de dados faz parte de uma rea mais ampla que descoberta de conhecimento em banco de dados (Knowledge Discovery in Database - KDD). O processo KDD envolve vrias atividades que so divididas em trs etapas principais: pr-processamento, minerao de dados e ps-processamento. Na etapa de ps-processamento, o usurio final precisa interagir com o sistema para analisar os resultados obtidos. No entanto, ainda existe dificuldade no entendimento desses resultados. A utilizao de tcnicas de visualizao de informao tem se mostrado um meio de promover esse entendimento. Assim, este trabalho apresenta uma avaliao de tcnicas de visualizao de informao para representao dos resultados obtidos com a aplicao de tcnicas de minerao de dados. Esta avaliao foi realizada de acordo com o mtodo conhecido como Avaliao de Caractersticas, tendo como resultado a anlise da eficcia da utilizao de tcnicas de visualizao de informao geomtricas e iconogrficas, principalmente em relao aos resultados obtidos com a aplicao do algoritmo K-mdias.
ABSTRACT
In the last few decades, constant advances in the field of Information Technology (IT) have enabled the storage of large quantities of data. This has been possible to the low costs of storage devices, easy access to the Internet, and the existence of information systems and management tools. With this surge in data volume, new researches become necessary in order to find efficient and intelligent methods when searching for useful information. Data mining is an area of research that has contributed in the search for implicit knowledge that can give support to decision-making. In reality, data mining is part of a broader field, Knowledge Discovery in Database (KDD). The KDD process involves several activities, which are divided into three main stages: data preparation, data mining and results analysis. In the results analysis stage, the final user needs to interact with the system in order to analyze the obtained results. However, there is much in difficulty in interpreting these results. The use of information visualization techniques has shown to be an effective way to promote better result interpretation. Thus, this study presents an evaluation of information visualization techniques for the display of results obtained through the application of data mining techniques. This evaluation was carried through in accordance with the known method as Evaluation of Characteristics, having as resulted the analysis of the effectiveness of the use of geometric and iconographic techniques of information visualization, mainly in relation to the results gotten with the application of the K-media algorithm.
LISTA DE ILUSTRAES
Figura 1.1 Processo de Desenvolvimento da Pesquisa ........................................................19 Figura 2.1 Processo KDD.....................................................................................................23 Figura 2.2 Associao entre conjunto de dados e classes ....................................................26 Figura 2.3 Algoritmo K-mdias ...........................................................................................31 Figura 2.4 Passos de execuo do algoritmo K-mdia.........................................................32 Figura 2.5 Processo simplificado de visualizao de informao auxiliada por computador ..................................................................................................................................................34 Figura 2.6 Modelo de referncia para visualizao .............................................................35 Figura 2.7 Exemplo de matriz de disperso .........................................................................38 Figura 2.8 Eixos da visualizao de disperso de dados 3D ................................................39 Figura 2.9 Exemplo de coordenadas paralelas com dados fictcios .....................................40 Figura 2.10 Exemplo de faces de chernoff...........................................................................41 Figura 2.11 Exemplo de um icone da visualizao Star Glyphs ..........................................42 Figura 2.12 Exemplo da visualizao de dados utilizando Star Glyphs...............................42 Figura 2.13 Exemplo de um icone da visualizao figura de aresta ....................................43 Figura 3.1 Ser humano como elemento central do processo KDD ......................................47 Figura 4.1a Coordenadas paralelas com 10.000 registros....................................................54 Figura 4.1b Coordenadas paralelas com 100.000 registros..................................................54 Figura 4.2a Disperso de dados tridimensional com 100 registros .....................................55 Figura 4.2b Disperso de dados tridimensional com 1.000 registros...................................55 Figura 4.2c Disperso de dados tridimensional com 10.000 registros .................................55 Figura 4.3a Faces de chernoff com 56 registros ..................................................................55 Figura 4.3b Faces de chernoff com 169 registros ................................................................55
Figura 4.4 Visualizao Figuras de aresta (Stick figure) .....................................................56 Figura 4.5a Coordenadas paralelas representando 100 registros com 10 atributos .............57 Figura 4.5b Coordenadas paralelas representando 100 registros com 34 atributos .............57 Figura 4.5c Coordenadas paralelas representando 100 registros com 100 atributos............57 Figura 4.6 Faces de chenorff com 15 atributos ....................................................................59 Figura 4.7a Coordenadas Star Glyphs com 10 atributos.....................................................59 Figura 4.7b Coordenadas Star Glyphs com 30 atributos.....................................................59 Figura 4.7c Coordenadas Star Glyphs com 80 atributos .....................................................59 Figura 4.7d Coordenadas Star Glyphs com 500 atributos...................................................59 Figura 4.8 Coordenadas Star Glyphs com 500 atributos.....................................................61 Figura 4.9 Matriz disperso de dado representando a base de dados mtcars....................64 Figura 4.10 Coordenadas paralelas representado base de dados mtcars...........................65 Figura 4.11 Matriz de Disperso Base de dados USarrests ...........................................66 Figura 4.12 Coordenadas paralelas - Base de dados USarrests ........................................67 Figura 4.13 Disperso de dados representando Correlao positiva, negativa e nula.........68 Figura 4.14 Correlao na visualizao de disperso de dados baseUSarrests ................68 Figura 4.15 Repr. de correlao positiva da visualizao de coordenadas paralelas ...........69 Figura 4.16 Repr. de correlao negativa da visualizao de coordenadas paralelas ..........69 Figura 4.17 Correlao e distribuio de valores em Coordenadas Paralelas......................69 Figura 5.1 Matriz de disperso (base de dados Uem/2005) .................................................76 Figura 5.2a Coordenadas paralelas representando 131 registros contendo valores nulos para o atributo sexo .........................................................................................................................77 Figura 5.2b Coordenadas paralelas representando 10 registros contendo valores nulos para o atributo sexo .........................................................................................................................77 Figura 5.3 Star Glyph representando os candidatos aprovados............................................78
Figura 5.4 Resultado do algoritmo K-mdias ......................................................................79 Figura 5.5 Coordenadas paralelas gerado pelo algoritmo K-means.....................................81 Figura 5.6 Coordenadas paralelas com destaque no eixo vertical que representa o atributo redao......................................................................................................................................82 Figura 5.7 Disperso de dados tridimensional representado resultado do algoritmo de agrupamento da base UEM-2005..........................................................................................83 Figura 5.8 Faces de chernof. Representando os Centrides dos grupos gerados pelo algoritmo K-mdias ..................................................................................................................84
LISTA DE TABELAS
Tabela 2.1 Tarefas e Mtodos de MD ..................................................................................29 Tabela 2.2 Visualizao de informao comparada visualizao cientfica......................34 Tabela 3.1 Tipo de dados para o atributo estado civil ..........................................................48 Tabela 3.2 Caractersticas de dados......................................................................................49 Quadro 4.1 Classificao da informao..............................................................................60 Quadro 4.2 Ranking dos atributos em relao percepo .................................................61 Tabela 4.1 Anlise de caractersticas das tcnicas de visualizao ......................................73
LISTA DE SIGLAS
SUMRIO
1 INTRODUO ............................................................................................................................................... 16 1.1 OBJETIVOS ............................................................................................................................................... 17 1.2 JUSTIFICATIVA ....................................................................................................................................... 18 1.3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA............................................................... 18
2.3.1 Tarefas de minerao de dados ............................................................................ 27 2.3.2 Tcnicas de minerao de dados .......................................................................... 28 2.3.3 Algoritmo de Agrupamento.................................................................................. 30
2.4 VISUALIZAO DE INFORMAO ..................................................................................................... 34
2.5 LINGUAGEM R......................................................................................................................................... 44 2.6 CONSIDERAES FINAIS...................................................................................................................... 45 3 ANLISE DE PARMETROS GERAIS PARA KDD ............................................................................... 47 3.1 INTRODUO .......................................................................................................................................... 47 3.2 FATOR HUMANO E DOMNIO DE APLICAO ................................................................................. 47 3.3 DOMNIO DE DADOS .............................................................................................................................. 48 3.4 CONSIDERAES FINAIS...................................................................................................................... 50 4 AVALIAO DE TCNICAS DE VISUALIZAO ................................................................................ 52 4.1 INTRODUO .......................................................................................................................................... 52 4.2 FONTES DE DADOS................................................................................................................................. 52 4.3 AVALIAO DAS CARACTERSTICAS ............................................................................................... 54
4.3.1 Escalabilidade ........................................................................................................ 54 4.3.2 Dimensionalidade .................................................................................................. 57 4.3.3 Tipos de dados........................................................................................................ 61 4.3.4 Interao................................................................................................................. 63 4.3.5 Interpretabilidade.................................................................................................. 65 4.3.6 Relacionamento entre os atributos....................................................................... 67 4.3.7 Correlao .............................................................................................................. 69
4.4 RESULTADOS E CONSIDERAES FINAIS .................................................................................... 72 5 APLICAO DE TCNICAS DE VISUALIZAO DE INFORMAO............................................. 76 5.1 VISUALIZAO DOS DADOS ORIGINAIS .......................................................................................... 76 5.2 VISUALIZAO DOS RESULTADOS DO ALGORITMO DE AGRUPAMENTO............................... 80 5.3 CONSIDERAE FINAIS ........................................................................................................................ 86 6 CONCLUSO E TRABALHOS FUTUROS ................................................................................................ 88 REFERNCIAS .................................................................................................................................................. 91 APNDICE A - ALGORITMOS DE AGRUPAMENTO................................................................................ 95 A.1 - ALGORITMO K-MDIAS EM PORTUGOL......................................................................................... 95 A.2 - FUNO DO ALGORITMO DE AGRUPAMENTO K-MDIA NA LINGUAGEM R........................ 96 APNDICE B - VISUALIZAO DE INFORMAO UTILIZANDO LINGUAGEM R........................ 98
B.1 - MATRIZ DE DISPERSO...................................................................................................................... 98 B.2 - DISPERSO DE DADOS TRIDIMENSIONAL (SCATTER PLOT 3D) ............................................... 99 B.3 - COORDENADAS PARALELAS.......................................................................................................... 101 B.4 - FACES DE CHERNOFF........................................................................................................................ 102 B.5 - STAR PLOT........................................................................................................................................... 103
16
1 INTRODUO
Diante de um cenrio com gigantesco acmulo de informaes, surge a necessidade de ferramentas computacionais apropriadas para gerenciar e analisar tais informaes. No mundo atual vem crescendo a participao dos computadores na sociedade em vrios ramos de atividades como econmica, cientfica, sade e social. Existem computadores prontos para armazenar o que foi efetuado, calculado, medido e decidido. No entanto, muitas decises so tomadas sem que haja conhecimento suficiente baseado em informaes provenientes dos dados acumulados em bases de dados de sistemas transacionais. Para atender este contexto, surge uma nova rea denominada Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Databases KDD), que uma rea da cincia da computao. A descoberta de conhecimento caracterizada como um processo complexo que tem por objetivo extrair conhecimento em grandes volumes de dado e composto por trs etapas principais: pr-processamento, minerao de dados e ps-processamento. A etapa de pr-processamento tem como objetivo a preparao dos dados para a aplicao de tcnicas de minerao de dados (MD). A etapa de minerao de dados realiza a busca efetiva por conhecimentos teis para suporte tomada de deciso. A etapa de ps-processamento abrange o tratamento e o entendimento dos conhecimentos obtidos na MD. Tal tratamento tem como objetivo viabilizar a avaliao da utilidade do conhecimento descoberto (FAYYAD; PIATESTKY; SHAPIRO, 1996a). Para facilitar o entendimento dos resultados da MD, necessrio o uso de tcnicas de visualizao de informao, que tem como objetivo possibilitar a introspeco de um conjunto de dados, fornecendo uma representao visual, evidenciando possveis fatos dentro do contexto de investigao (RODRIGUES, 2003). importante considerar no processo de visualizao, a escolha de qual tcnica deve ser empregada em determinada aplicao ou situao. O estudo de tcnicas de visualizao de informao em sistemas de KDD envolve as seguintes reas: Computao Grfica, Interface Humano-Computador, Banco de dados e MD.
17 As tcnicas de visualizao de informao tm por objetivo representar graficamente um determinado domnio de aplicao, de forma a explorar com alto desempenho o conhecimento deste domnio e a capacidade cognitiva do homem, facilitando a compreenso e a interpretao das informaes apresentadas, na busca de novos conhecimentos. Atualmente, existe certa dificuldade no entendimento e uso do conhecimento descoberto com a aplicao de tcnicas de minerao de dados. Esta dificuldade pode estar relacionada inexistncia de critrios de integrao de tcnicas visualizao de informao com tcnicas de minerao de dados. A utilizao mal empregada de tcnicas de visualizao em qualquer etapa do processo KDD pode gerar resultados insuficientes ou at mesmo incorretos, provenientes de erros de representao grfica. Na tentativa de sanar este tipo de problema, nesta pesquisa foi realizada a avaliao de tcnicas de visualizao de informao na representao de resultados obtidos com a aplicao de tcnicas de agrupamento.
1.1 OBJETIVOS
O objetivo geral avaliar tcnicas de visualizao de informao para proporcionar, aos desenvolvedores e utilizadores de sistemas de KDD, meios eficazes para a escolha de tcnicas adequadas na representao dos conhecimentos obtidos. Para atingir este objetivo, inicialmente foram identificadas caractersticas que influenciam na representao de informaes. Os objetivos especficos so: Apresentar os elementos tericos relacionados s tcnicas de minerao de dados e tcnicas de visualizao de informao; Selecionar caractersticas de tcnicas de visualizao capazes de conduzir escolha daquela mais adequada na representao de resultados obtidos na aplicao de tcnicas de agrupamento; Avaliar tcnicas de visualizao por meio das caractersticas selecionadas; Apresentar os resultados obtidos na MD utilizando tcnicas de visualizao, segundo as caractersticas selecionadas.
18
1.2 JUSTIFICATIVA
A busca de conhecimento em banco de dados abrange vrias reas de pesquisa, tais como: sistemas de informao, banco de dados, minerao de dados e visualizao de informao. A minerao de dados, que uma das etapas do processo KDD, utiliza vastos repositrios de dados (data warehouse - DW) para tentar descobrir se h algum conhecimento escondido entre os dados. Neste contexto, a rea de visualizao de informao, aliada minerao de dados, apresenta-se como um campo de estudo de grande utilidade. Esta agregao referenciada na literatura como minerao visual de dados (MVD), apresentada na Seo 2.4.1. A rea de visualizao de informao um campo emergente de pesquisa que se preocupa com a representao de informaes atravs de imagens grficas, que possam ser reconhecidas e facilitem o entendimento pelos seres humanos. O emprego da visualizao apropriada pode ajudar na capacidade de descoberta de padres, relacionamento de dados ou at mesmo resultados gerados por algoritmos utilizando tcnicas de minerao de dados. Porm, um mau emprego de tcnicas de visualizao pode comprometer o trabalho de descoberta de conhecimento. A avaliao realizada neste trabalho busca fornecer subsdios aos usurios e analistas de sistemas KDD na escolha da visualizao mais adequada. A sugesto sobre qual tcnica de visualizao de informao utilizar na descoberta de padres, relacionamento de dados e interpretao dos resultados gerados por algoritmos de minerao de dados, pode evitar erros na anlise desses resultados.
19 objeto de estudo, selecionam-se as variveis capazes de influenci-lo, definem-se as formas de controle e de observao dos efeitos que a varivel produz no objeto. A metodologia adotada neste trabalho fundamentada no estudo de diversas tecnologias, as principais so: descoberta de conhecimento em banco de dados (Knowledge Discovery in Database KDD), minerao de dados (Data Mining - MD), tcnicas de visualizao de informao e linguagem R.
20
KDD, MD, Tcnica de visualizao, Interao na visualizao.
Reviso da literatura
Estudo da ferramenta
Linguagem R
Mostrar o uso de tcnicas de visualizao de informao para representar resultados de minerao de dados
3) Identificao das caractersticas. Esta etapa visou a identificao de caractersticas relevantes das tcnicas de visualizao de informao, tendo como base as vantagens, desvantagens e limitaes de sua utilizao. Aps essa identificao, foi realizado um filtro para selecionar somente as caractersticas comuns a todas as tcnicas, sendo descartadas aquelas de carter particular (caracterstica referente somente a uma visualizao).
4) Estudo de ferramentas Nesta etapa foram feitas pesquisas sobre ferramentas para manipulao de dados, que executem algoritmos de MD e projetem tcnicas de visualizao.
21
5) Avaliao das tcnicas de visualizao na MD A avaliao a verificao da eficincia na capacidade de exibir informaes realmente relevantes que facilitem a anlise, interpretao e compreenso do conjunto de informaes. Nesta etapa foram utilizadas as caractersticas propostas neste trabalho, selecionadas bases de dados e avaliadas as tcnicas por meio de sua implementao na Linguagem R. 6) Uso de tcnicas de visualizao. Esta etapa consistiu nos seguintes passos: Selecionar uma base de dados real; Projetar a base de dados utilizando visualizao de informao e elaborar algumas interpretaes; Aplicar o algoritmo de MD em bases de dados; Apresentar o resultado do algoritmo de MD em algumas visualizaes de informao, identificar padres e interpretar os resultados;
Para realizao desses passos, foi utilizada a linguagem R e o resultado obtido na etapa anterior.
22 No quarto captulo descrita a avaliao realizada sobre as tcnicas de visualizao de informao. No quinto captulo mostrado o uso de tcnicas de visualizao de informao na anlise de dados e dos resultados obtidos na aplicao do algoritmo K-mdias, conforme as caractersticas avaliadas e descritas no captulo anterior. No sexto captulo so apresentadas a concluses e sugestes para trabalhos futuros.
23
KDD um processo, de vrias etapas, no trivial, interativo e iterativo, para identificao de padres compreensveis, vlidos, novos e potencialmente teis a partir de grandes conjuntos de dados. O termo Interativo indica a atuao do Homem para a realizao dos processos, sendo ele o responsvel por utilizar as ferramentas computacionais para anlise e interpretao dos dados. Para obter um resultado satisfatrio, necessrio muitas vezes repetir o processo de forma integral ou parcial, ou seja, o processo iterativo. A descoberta de conhecimento em base de dados o processo de extrao de conhecimento atravs de manipulao de dados. Feldens (1998 apud DIAS, 2001) define as seguintes etapas para KDD: Pr-processamento: Atividades que visam gerar uma representao conveniente para os algoritmos de minerao, a partir da base de dados. Inclui a seleo (automtica e/ou manual de atributos relevantes), amostragem, transformaes de representao, etc. Goldschmidt e Passos (2005) afirmam que esta etapa possui fundamental relevncia no processo KKD, e apresenta as seguintes funcionalidades para esta etapa: seleo de dados, limpeza dos dados, codificao dos dados, normalizao dos dados, construo de novos atributos e correo de prevalncia.
24 Minerao de dados: Aplicao de algoritmos de minerao aos dados prprocessados, ou seja, busca efetiva por conhecimentos teis a partir dos dados. Esta etapa detalhada na prxima seo. Ps-processamento: Seleo e ordenao das descobertas interessantes, mapeamentos de representao de conhecimento e gerao de relatrios. nesta etapa que o especialista em KDD e o especialista no domnio de aplicao avaliam os resultados obtidos e criam novas alternativas para novas investigaes de dados. Goldschmidt e Passos (2005) apresentam algumas operaes para a realizao desta etapa, tais como: simplificao do modelo de conhecimento, transformao do modelo de conhecimento e organizao e apresentao dos resultados. A Figura 2.1 ilustra um exemplo proposto por Fayyad, Piatestky e Smyth (1996a) que consiste em cinco passos bsicos: Seleo, Pr-Processamento, Transformao, Minerao de dados e Interpretao.
Figura 2.1: Processo KDD Fonte: adaptado de (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 29).
Seleo: os dados so escolhidos como um subconjunto de interesse, ou sumarizados em um subconjunto de amostragem. Os itens mais apropriados, segundo o analista, so escolhidos e prossegue-se com a descoberta de conhecimento. Pr-processamento: so utilizadas ferramentas para preparao dos dados visando deix-los em um formato mais apropriado para as prximas etapas. Aqui so tratadas distores, ausncia de dados ou, simplesmente, realizada uma reorganizao das informaes.
25
Transformao: os dados so processados e disponibilizados em uma forma diferente da original, mas ainda mantendo suas propriedades. O novo formato busca o melhor aproveitamento dos dados nas etapas seguintes. Como exemplo, tem-se a discretizao de dados, normalizao e reduo de dimensionalidade. Minerao de Dados: extrado conhecimento com o auxlio de mtodos computacionais capazes de revelar padres, estruturas, tendncias, etc. Diferentes mtodos podem ser usados em funo da natureza dos dados e das informaes que se desejam alcanar, como identificao de aglomerados, gerao de resumos e classificao. Interpretao: o resultado da minerao submetido apreciao do analista, que pode julgar necessrio refazer o processo, alterando uma ou todas as etapas anteriores. Podem ser utilizados outros conjuntos de interesse, outras tcnicas de pr-processamento/transformao ou ferramentas de MD adicionais. De uma forma geral, a complexidade que envolve o processo de KDD, decorre de diversos fatores que podem ser subdivididos em dois conjuntos (FAYYAD; PIATETSKY; SMYTH, 1996b): Fatores operacionais dificuldade de integrar diversos algoritmos especficos, manipulao de grande base de dados e tratamento dos resultados de forma ideal.
Fator de controle considera a complexidade de gerenciar e direcionar o processo KDD. Exemplos de dificuldades encontradas neste fator: formulao dos objetivos a serem alcanados, realizao do pr-processamento, seleo do algoritmo ideal para minerao de dados que satisfaa os objetivos, limitaes humanas, tais como:
o
capacidade limitada e memorizao de resultados, pois a cada momento surgem diversos resultados diferentes; dificuldade em interpretar resultados; conjugar tais interpretaes para tomada de deciso.
o o
Goldschmidt (2003) organiza as atividades realizadas na rea KDD em trs grandes grupos, que so:
26 Atividades voltadas ao desenvolvimento tecnolgico - abrange todas as iniciativas de concepo e desenvolvimento de recursos de apoio que possam ser utilizados na busca por novos conhecimentos em grandes bases de dados. Atividades de execuo de processos de KDD - refere-se s atividades voltadas busca efetiva de conhecimento em bases de dados. As ferramentas produzidas pelas atividades de desenvolvimento tecnolgico so utilizadas na execuo de KDD. Atividades envolvendo a aplicao de resultados obtidos em processos de KDD uma vez obtidos modelos de conhecimento teis a partir de grandes bases de dados, as atividades se voltam aplicao dos resultados no contexto em que foi realizado o processo de KDD. Exemplos comuns de aplicao de resultados so as alteraes em estratgias de negcios que tenham como objetivo procurar tirar proveito do conhecimento obtido. Tais alteraes podem variar desde o posicionamento de produtos nas gndolas de um mercado at polticas estratgicas corporativas.
27
X1 X2 X3 X4
Dados
Y1 Y2 Y3 Y4
Classes
Associao: procuram encontrar associaes entre conjunto de valores. Um exemplo clssico determinar quais produtos costumam serem colocados juntos em um carrinho de supermercado. Outra definio, A tarefa de associao pode ser considerada uma tarefa bem definida, determinstica e relativamente simples, que no envolve predio da mesma forma que a tarefa de classificao (FREITAS, 2000 apud DIAS, 2000, p. 10). Exemplo: determinar quais produtos geralmente so colocados juntos em um carrinho de supermercado. Regresso: esta tarefa similar tarefa de classificao. Fundamentalmente ela busca por funes que mapeiem os registros de um banco de dados. Exemplos (DIAS, 2001):
28 estimativa da probabilidade de um paciente sobreviver, dado o resultado de um conjunto de diagnstico de exames; definio do limite do carto de crdito para cada cliente em um banco; estimativa do nmero de filhos ou a renda total de uma famlia; previso da demanda de um consumidor para um novo produto.
Agrupamento: Usado para particionar os registros de uma base de dados em subconjuntos ou clusters1. Nesta tarefa, no h classes predefinidas, os registros so agrupados segundo algum critrio de semelhana. Exemplos (DIAS, 2001): agrupar clientes por regio do pas; agrupar clientes com comportamento de compra similar; agrupar sees de usurios Web para prever comportamento futuro de usurio.
Sumarizao: consiste em identificar e apresentar, de forma concisa e compreensvel, as principais caractersticas dos dados em um conjunto de dados (DIAS, 2001). Exemplo: identificar as caractersticas dos candidatos de um concurso pblico: So pessoas com faixa etria entre X e Y anos, possuem casa prpria e nvel superior completo. Exemplos: tabular o significado e desvios padro para todos os itens de dados; derivar regras de sntese.
Aps a seleo de qual tarefa utilizar, deve-se tambm escolher o algoritmo, pois para cada tarefa existem diferentes algoritmos, alguns simples e outros mais sofisticados, como os algoritmos que utilizam redes neurais.
cluster um grupo de entidades que tm caractersticas similares e que compartilham certas propriedades.
29 banco de dados, esta tcnica estabelece uma correlao estatstica entre os itens de dados (GOEBEL; GRUENWALD, 1999). Existem diversos algoritmos desenvolvidos para aplicao de descoberta de regras de associao, dentre eles (GOLDSCHMIDT; PASSOS, 2005): Apriori, DHP (Direct Hashing and Pruning, Partiition, DIC ( Dynamic Itemset Counting), Eclat, Maxclique e Cumalte.
rvores de Deciso Tcnica que utiliza a recursividade para particionamento da base de dados na construo de uma rvore de deciso. Cada n no terminal desta rvore representa um teste ou deciso sobre o item de dado (GOEBEL;GRUENWALD, 1999). Os algoritmos que implementam esta tcnica so: CART, CHAID, C5.0, Quest, ID-3, SLIQ, SPRINT (DIAS, 2001). Raciocnio Baseado em Casos Procura solucionar problemas fazendo uso direto de experincias e solues passadas, a distncia dos vizinhos d uma medida da exatido dos resultados (DIAS, 2001). Algoritmos que implementam esta tcnica: BIRCH, CLIQUE. Algoritmos Genticos Muito til para problemas que envolve otimizao
(GOLDSCHMIDT; PASSOS, 2005). Procedimento interativo para construo de hipteses sobre a depedencia entre as variveis (GOEBEL; GRUENWALD, 1999). Algoritmos que implementam esta tcnica (DIAS, 2001): Algoritmo Gentico Simples, CHC, Algoritmo de Hillis, GA-Nuggets, GA-PVMINER. Redes Neurais Artificiais segue analogia do funcionamento de um crebro humano formando neurnios artificiais conectados (GOEBEL; GRUENWALD, 1999). As redes neurais no supervisionados so os mais adequados para realizao tas tarefas de agrupamento (GOLDSCHMIDT; PASSOS, 2005). Algoritmos desenvolvidos para estas tcnicas: Perceptron, Rede MLP, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (DIAS, 2001). Goldschmidt e Passos (2005) apresentam um resumo das tarefas de KDD de acordo com as tcnicas e algoritmos, Tabela 2.1:
30 Tarefas Associao Classificao Regresso Sumarizao Agrupamento Mtodos de MD Basic, Apriori, DHP, Partition, DIC, ASCX-2P Redes neurais: C4.5, Rough sets, algortimo genticos (Ex: Rule Evolver), Cart, K-NN, Classificadores Bayesianos. Redes Neurais (Ex: Back Propagation). C4.5, Algoritmo Gentico (Ex: Rule Evolver) K-Means, K-Modes, K-Prototypes, Fuzzy K-Means, Algoritmo Genticos, Redes Neurais (Ex: Kohonen), Clarans.
Tabela 2.1: Tarefas e Mtodos de MD Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p.116).
Codificao de dados: operao de pr-processamento responsvel pela forma como os dados sero representados durante o processo KDD (GOLDSCHMIDT; PASSOS ,2005).
31 Para anlise de agrupamento existem diferentes critrios que medem a similaridade entre os registros, porm, para realizao deste trabalho foi utilizado o mtodo de agrupamento onde a distncia entre dois registros expressa pela distncia euclidiana na seguinte frmula:
Sendo, d - resultado do clculo (distncia); i , j representam os dois registros selecionados; p nmero de variveis (dimenso); No somente o mtodo que calcula a distncia entre registros que diferenciam os algoritmos de agrupamento, eles tambm podem ser diferenciados de acordo com o mtodo de formao, tais como: (Partio, Hierrquico, Baseado em modelo, Baseado em Grade e Baseado em Densidade). Este trabalho trata somente do algoritmo que utiliza o mtodo de partio (Kmdias). O mtodo de partio permite que os registros em anlise sejam movidos de um grupo para outro grupo em diferentes etapas que ocorrem no processamento do algoritmo, na tentativa de buscar de forma direta a diviso aproximadamente tima dos registros. De acordo com Goldschmidt e Passos (2005), o algoritmo mais popular para realizao da tarefa de agrupamento o K-mdias proposto em 1967 por J. MacQueen (DINIZ; LOUZADA NETO, 2000 apud PRASS 2004, p. 38) que utiliza o mtodo de partio. Este Algoritmo possui diversas variaes, tais como: K-modes, K-Prototypes e Kmedoids. Em geral estas variaes diferem no clculo da similaridade entre os grupos encontrados e o elemento ou na estratgia para calcular a mdia dos grupos. O algoritmo K-mdias faz uso de dados numricos, selecionando k elementos para formao inicial dos centrides (elementos centrais) do grupo. Esta seleo pode ser realizada das seguintes formas: Selecionando randomicamente k elementos. Selecionando os k primeiros elementos. Selecionar k elementos de tal forma que seus valores sejam bem diferentes.
32 Aps a seleo dos centrides, calculada a distncia de cada elemento (registro da base) em relao aos centrides, sendo considerada a menor distncia encontrada para efetuar o agrupamento. O processo termina somente quando todos os elementos estejam agrupados. A Figura 2.3 apresenta um resumo do funcionamento do algoritmo K-mdias:
Escolher k-centrides
Atualizar grupos
Sim
No
Apresentar grupos
A Figura 2.4 mostra um exemplo da execuo do algoritmo de agrupamento K-mdias, formando dois grupos, com os seguintes elementos: (4,7,8,2,5,3,9). Para definio dos centrides, podem ser utilizados os critrios citados acima, porm neste exemplo foram selecionados os dois primeiros elementos e, posteriormente, utilizou-se a mdia para a formao dos novos centrides.
33
a)
{8,2,5,3,9} grupo 1 (4) grupo2 (7)
Centride - 1 (4) Centride - 2 (7)
b)
{2,3,4,9} grupo 1 (4) grupo 2 (7, 8)
Centride - 1 (4) Centride - 2 (7,5)
c)
{5,3,9} grupo 1 (4,2) grupo 2 (7,8)
Centride - 1 (3) Centride - 2 (7,5)
d)
{3,9} grupo 1 (4,2,5) grupo 2 (7,8)
Centride - 1 (3,6) Centride - 2 (7,5)
e)
{9} grupo1(4,2,5,3) grupo2(7,8)
Centride - 1 (3,5) Centride - 2 (7,5)
f)
{} grupo1(4,2,5,3)grupo2(7,8,9)
Centride - 1 (3,5) Centride - 2 (8)
Descrio dos passos da execuo do algoritmo K-mdias da Figura 2.4: Os dois primeiros elementos do conjunto formaram dois grupos e foram utilizados como centrides. O prximo elemento selecionado e verifica-se qual centride tem o valor mais prximo ao seu valor, o elemento adicionado ao grupo e calculado o novo valor para o centride, assim por diante. Esgotados os elementos, termina-se o processo. Resultado: grupo 1 com os seguintes elementos (4,2,5,3) grupo 2 com os seguintes elementos (7,8,9). Este algoritmo apresenta atributos confiveis, porm foram identificados os seguintes problemas: No consegue determinar se h realmente apenas k grupos distintos (PINHEIRO, 2006) (este problema comum a todos algoritmos de agrupamento). O fato do usurio ter que especificar o nmero de grupos visto como uma desvantagem, sendo necessria a realizao de diversos experimentos (GOLDSCHMIDT; PASSOS, 2005). sensvel a rudos (outliers), j que pequena quantidade de dados inconsistentes ou diferentes, em relao ao conjunto de dados formado, pode influenciar substancialmente na formao dos grupos (CARLANTONIO, 2001).
34 No adequado para descobrir grupos com tamanhos muitos diferentes (CARLANTONIO, 2001). Exige que os dados sejam do tipo numrico ou binrio (HUANG, 1997).
Tarefa
Profundo entendimento dos fenmenos cientficos Busca, descoberta de relaes
Entrada
Dados fsicos, medidas, resultados de simulao Relaes, dados nofsicos, informao
Volume
Pequeno a volumoso
Pequeno a volumoso
Tabela 2.2: Visualizao de informao comparada visualizao cientfica. Fonte: adaptado de (GERSHON E EICK, 1997, p.29)
35 Visualizao de dados cientficos que provem de dados que correspondem a medidas associadas a objetos fsicos, fenmenos ou posio num domnio espacial. Um exemplo desta visualizao poderia ser um fluxo de ar sobre as asas de um avio, tendo informaes no formato de vetores 3D amostrado periodicamente em um experimento aeronutico, sendo este fenmeno representado atravs de flechas que indicam a direo do fluxo de ar posicionado em relao s asas do avio. Visualizao de informaes procura representar graficamente dados de um determinado domnio de aplicao. Exemplo deste tipo uma base de dados de pacientes de um hospital, com nome, sexo e nmero de internaes e consultas, data de nascimento e naturalidade. Estes dados so considerados abstratos e necessita de um mapeamento para representao grfica, assim poder ser revelada informao interessante para um determinado propsito. A Figura 2.5 demonstra um processo automatizado de visualizao de informao.
Figura 2.5: Adaptao do processo simplificado de visualizao de informaes auxiliada por computador. Fonte: Nascimento e Ferreira (2005, p. 1268).
Embora a visualizao de dados cientficos seja uma rea muito interessante, o foco desta proposta est na realizao de visualizao de informaes de dados abstratos. Entretanto, Rhyne (2003 apud SHIMABUKURU, 2004, p.12) questionam a necessidade de diferenciao entre visualizao cientfica e de informao em virtude do uso intercambiado das tcnicas de visualizao, particularmente em domnios emergentes, como visualizao geogrfica e visualizao em bioinformtica. A Figura 2.6 exibe graficamente um modelo de referncia para desenvolvimento de sistemas de visualizao de informao. A direo das setas da esquerda para direita representa a transformao dos dados brutos em transformaes visuais para interpretao humana. As
36 setas da direita para esquerda representam a modificao de cada etapa das transformaes e do mapeamento visual realizado pelo ser humano.
Figura 2.6: Modelo de referncia para visualizao Fonte: Adaptado (CARD; MACKINLAY, 1999, p.232).
37 Dados armazenados em banco de dados podem ser visualizados sob diferentes nveis de abstrao, podendo ser utilizadas diferentes combinaes de atributos. As formas visuais utilizadas podem ser cubos 3D, curvas, superfcies, grafos ligados e outras. Os resultados da minerao de dados podem ser visualizados por meio de formas visuais. Visualizar as etapas do KDD de forma que o usurio possa acompanhar o processo desde a extrao dos dados at a apresentao do resultado. Minerao de dados visual (VDM Visual Data Mining): Ferramentas de visualizao de informao podem ser utilizadas tanto para extrair conhecimentos quanto para a anlise dos resultados obtidos com a aplicao de alguma tcnica de minerao de dados. Em casos que envolvem grande volume de dados, o usurio pode selecionar pores da base de dados de interesse utilizando tcnicas de visualizao de informao, diminuindo assim a rdua tarefa exercida no entendimento dos resultados de MD para grande volume de dados.
38 As tcnicas de interao tm o intuito de facilitar o processo de compreenso dos dados, auxiliando o usurio na explorao e criando outras possibilidades de visualizao. A Figura 2.6 apresenta um modelo de visualizao de informao que permite a insero do humano na transformao dos dados, no mapeamento visual e na transformao das vises. As tcnicas de interao que podem ser utilizadas em tcnicas de visualizao so as seguintes: Projeo interativa: redefine as projees dinmicas geradas a partir de um conjunto multidimensional. Filtragem interativa: o usurio filtra a poro de dados mais interessante e efetua comparaes entre as mesmas. Zoom interativo: possibilidade de expandir ou diminuir os elementos de visualizao. Distoro interativa: a deformao dos elementos visuais de maneira que as propriedades visuais no sejam perdidas. Concluindo, a visualizao de informao, alm de transmitir conhecimentos, tem um grande potencial para receber comandos, tais como, por exemplo: controlar a quantidade de dados na tela, alterar a representao da visualizao e ajustar escalas. Keim e Kriegel (1996) descrevem tcnicas de visualizao de informao multidimensional agrupando-as nas categorias de tcnicas geomtricas, iconogrficas, hierrquicas e orientadas a pixel. No entanto, neste trabalho foram utilizadas somente as visualizaes pertencentes s tcnicas de visualizao de informao geomtricas e iconogrficas, que se demonstrou adequada para projeo do resultado do algoritmo de agrupamento. Essas tcnicas so descritas a seguir.
39
Matriz de Disperso
Esta visualizao a mais antiga, popular e muito utilizada para representao de dados de alta dimensionalidade em uma representao bidimensional (SHIMABUKURU, 2004; NASCIMENTO; FERREIRA, 2005). A matriz de disperso permite a visualizao do relacionamento entre os atributos. Para isto, esta visualizao projeta os atributos aos pares formando clulas associadas a dois atributos que so mapeados pelo eixo x (linha horizontal) e eixo y (linha vertical), conforme ilustrado na Figura 2.7, que foi gerada com auxlio da linguagem R (ferramenta discutida mais adiante). Para a projeo da visualizao da matriz de disperso so necessrias n(n-1)/2 clulas para representar uma base de dados com n atributos.
40
Figura 2.8: Eixos da visualizao de disperso de dados 3D - os registros so representados pelas esferas.
41
Coordenadas Paralelas
A visualizao de Coordenadas Paralelas, proposta por Inselberg e Dimsdale (1990), consiste em mapear um espao n-dimensional em uma estrutura bidimensional que utiliza n eixos eqidistantes denominados coordenadas (BENDIX; KOSARA; HAUSER, 2005; NASCIMENTO; FERREIRA, 2005). Os eixos verticais representam as dimenses ou atributos de dados. Uma linha representa cada item de dado conectado aos eixos com os seus respectivos valores, permitindo a viso de padres, conforme ilustrado na Figura 2.9. Os eixos verticais so padronizados em uma escala que varia do menor ao maior valor do atributo. Para representar uma base de dados com x atributos, x = (x1 ,x2 ,...,xn ), necessita-se a mesma quantidade de coordenadas, isto , a representao de x1 na coordenada 1, x2 na coordenada 2 e assim por diante at a representao de xn na coordenada n. Uma vantagem desta visualizao de informao a representao de todos os atributos em uma mesma visualizao, permitindo fazer interpretaes visuais entre os atributos, exemplo: a visualizao da Figura 2.9 permite observar que a maioria das pessoas relacionadas tem aproximadamente 30 anos, sendo a maior parte delas do sexo feminino, residentes na zona 7 e que obtiveram notas prximas a 10,0.
42
b) Tcnicas Iconogrficas
Estas tcnicas trabalham com objetos geomtricos com aparncia paramtrica que podem ser mapeados a atributos de uma base de dados (ESTIVALET; FREITAS, 2000). A idia mostrar as caractersticas essenciais de um domnio de dados, por meio de cones. Elas tambm so utilizadas para representaes multidimensionais e podem ser compostas por atributos geomtricos (forma, tamanho e orientao) e atributos de aparncia (cor e textura), que podem ser associados aos itens de dados em anlise. Algumas das visualizaes classificadas como tcnicas iconogrficas so: Faces de Chernoff, Star Glyphs e Figura de Arestas (Stick Figure).
Faces de Chernoff
Um dos primeiros trabalhos utilizando uma tcnica baseada em cones foi realizado por Chernoff (1973). Este autor observou que o ser humano tem sensibilidade a uma grande variedade de expresses faciais. Assim, ele sugeriu que cones pudessem ser representados por faces, associando suas propriedades (tais como as formas da boca, cabelo e olhos) com atributo de dados. Este tipo de visualizao denominado Faces de Chernoff. A Figura 2.10 mostra um exemplo de representao de Faces de Chernoff, que representam uma base de dados contendo notas dos alunos de uma escola. So exemplos do mapeamento de propriedades do cone com os atributos da base de dados: cores das faces associadas ao sexo (azul-masculino ou rosa-feminino); a curva da boca representando a situao (aprovado e reprovado); a quantidade de cabelos representando o valor das notas.
Figura 2.10: Exemplo de Faces de Chernoff Fonte: adaptado de (NASCIMENTO; FERREIRA , 2005, p. 1268).
43
Star Glyphs
Star Glyphs uma visualizao que combina coordenadas paralelas com cones (LEE; REILLY; BUTAVICIUS, 2003). Esta visualizao consiste na representao de p 2 atributos projetados em duas dimenses. Um crculo construdo para servir como referncia e do seu centro so projetadas linhas que representam os p atributos que emanam como raios formando uma estrela, como ilustrado na Figura 2.11. Para uma melhor observao, os raios so conectados com uma linha. O tamanho do raio representa o valor do atributo. (JOHNSON; WICHNER, 1982; NASCIMENTO; FERREIRA, 2005).
A Figura 2.12 ilustra a visualizao Star Glyphs representando a quantidade de atividades acadmicas de um grupo de professores. Cada estrela representa um professor, sendo os raios as diferentes atividades acadmicas que ele realiza. A extenso do raio ilustra a quantidade da atividade. Por meio desta visualizao possvel verificar quais professores tm um maior ou menor destaque, ou seja, realizam maior nmero ou menor nmero de atividades.
Figura 2.12: Exemplo da visualizao de dados utilizando Star Glyphs. Fonte: Nascimento e Ferreira (2005, p. 1301).
44
2.5 LINGUAGEM R
Foi necessrio pesquisar ferramentas para auxiliar na avaliao das tcnicas de visualizao, considerando a capacidade de exibir informaes que facilitem a anlise, interpretao e compreenso de um conjunto de informaes. Durante o desenvolvimento da pesquisa, verificou-se que as ferramentas avaliadas eram muito especficas para resoluo de determinados problemas e que para cada avaliao necessitaria usar uma nova ferramenta ou tentar adaptar uma j conhecida, tornando o trabalho dispendioso. Outra questo levada em considerao na escolha da ferramenta de visualizao foi o fato das informaes serem resultados da aplicao de algoritmos de minerao de dados. Seguindo este raciocnio, a Linguagem R foi escolhida por fornecer tanto funes que implementam algoritmos de minerao de dados quanto a possibilidade de gerao de visualizaes. R uma linguagem de programao especializada em computao com dados e ao mesmo tempo um ambiente para clculos estatsticos e gerador de grficos. Trata-se de uma
45 linguagem gratuita sob os termos da Licena Pblica Geral GNU 3, criada por Ross Ihaka e Robert Gentleman na universidade de Auckland em Nova Zelndia e atualmente mantida pela comunidade de desenvolvedores espalhada pelo mundo (THE R, 2007). A linguagem R, como qualquer outra linguagem de programao, permite a criao de novas funcionalidades utilizando a linguagem C. Isto , tem seu cdigo fonte aberto que pode ser estendido para outras linguagens de programao (Python, Perl e Java). Alm disso, possvel inserir funcionalidades da linguagem R em programas escritos em outras linguagens, fazendo com que diferentes linguagens possam utilizar o seu poder estatstico e de gerao de grficos. A instalao da linguagem R fornece um conjunto de pacotes (julgados pela sua importncia ou de uso comum) que so carregados quando a sua execuo. Esses pacotes contm as funcionalidades que foram desenvolvidas e disponibilizadas para a comunidade, porm, para realizao deste trabalho foi necessria a utilizao de outros pacotes que no esto presentes na instalao da linguagem. Geralmente, os algoritmos de minerao de dados geram resultados que necessitam de interpretao. Para que esses resultados sejam projetados, necessrio adapt-los aos formatos dos parmetros de entrada da funcionalidade de gerao de visualizao. A linguagem R contm diversos pacotes, dentre eles: manipulao de dados, algoritmo de MD e tcnicas de visualizao. Apesar de no existirem ligaes entre as funes existentes nos pacotes (por este motivo, a necessidade de adaptao para realizar a comunicao entre as funes), todo o trabalho realizado num mesmo ambiente. O termo ambiente refere-se categorizao de R como um sistema planejado e coerente, em vez de uma aglomerao de ferramentas especficas.
46 aplicao. No entanto, o uso desses algoritmos ainda requer mais aperfeioamento, pois muitas vezes o usurio necessita repetir o mesmo processo com parmetros diferentes que no podem ser alterados no meio da execuo. Isto pode ocorrer por falta ou uso inadequado de ferramentas de visualizao de informao. O uso adequado de tcnicas de visualizao de informao pode diminuir esta quantidade de ciclos de tentativas e erros. O entendimento dos processos KDD (conceitos bsicos e tcnicas) fornece subsdio para identificao das etapas nas quais possvel inserir tcnicas de visualizao de informao, por exemplo: selecionar uma visualizao adequada etapa de pr-processamento com o objetivo de facilitar a eliminao de redundncia, correo de erros e verificao de valores ausentes. Neste captulo foram apresentados conceitos referentes s reas de descoberta de conhecimento em banco de dados e minerao de dados e algumas visualizaes de informao, classificadas como tcnicas de projeo geomtricas e tcnicas iconogrficas, utilizadas na avaliao proposta neste trabalho. Alm disso, foi descrita sucintamente a Linguagem R que propiciou esta avaliao.
47
48
Meta
Insight
Consultas
Analise e Visualizao
Apresentao
Banco de dados
Dados processados
Sadas
Figura 3.1: Ser humano como elemento central do processo de KDD. Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p. 22).
Mesmo que o processo KDD seja automatizado, o fator humano essencial para o sucesso de sua realizao, porque ele que tem a compreenso do domnio dos dados (natureza, forma e contedo), sendo pr-requisito indispensvel na abstrao de qualquer conhecimento til. Na etapa de pr-processamento, por exemplo, necessrio o conhecimento sobre o domnio da aplicao e domnio de dados para facilitar a organizao, limpeza e seleo do conjunto de dados.
49
Tipo de dados Atributo Solteiro Casado Vivo Integer 0 1 2 Char S C V D String solteiro casado viuvo divorciado
Divorciado 3
O valor do atributo pode ser representado por dois tipos de dados (qualitativo e quantitativo), encontrados na maioria dos repositrios de dados de um sistema de informao. Os dados quantitativos so representados por valores numricos que podem ser de duas naturezas: discreta ou contnua. Os valores de natureza discreta referem-se s contagens, por exemplo: nmero de acidentes com veculos registrados por ms. Os valores de natureza contnua referem-se s representaes em escala, por exemplo: rea, volume, peso e velocidade. Os dados qualitativos so utilizados para nomear e atribuir rtulos, identificando caracterstica, qualidade e categoria do atributo, podem ser de natureza nominal ou ordinal. No h uma ordenao nos valores de natureza nominal, desta forma s possvel definir uma relao de igualdade ou diferena, por exemplo: estado civil (casado, divorciado, solteiro, vivo). Os valores de natureza ordinal possibilitam ordenar as categorias, por exemplo: nvel de escolaridade, temperatura (frio, morno e quente). Desta forma, os valores do atributo que representa estado civil, apresentando na Tabela 3.1, podem ser classificados como sendo qualitativos de natureza nominal, pois no possuem uma ordem entre seus valores. O tipo de dado tambm influencia na escolha da tcnica de minerao. Dias (2002) apresenta uma classificao das tcnicas de minerao de dados a serem aplicadas de acordo com as caractersticas dos dados existentes, conforme pode ser visto na Tabela 3.2.
50 Tcnicas de Minerao de Dados Variveis de So campos que apresentam valores de Descoberta de categorias um conjunto de possibilidades limitado e regras de associao predeterminado rvores de deciso Variveis numricas So aquelas que podem ser somadas e Raciocnio baseado ordenadas em casos (MBR) rvores de Deciso Muitos campos por Este pode ser um fator de deciso da rvores de deciso registro tcnica correta para uma aplicao especfica, uma vez que os mtodos de minerao de dados variam na capacidade de processar grandes nmeros de campos de entrada Variveis Caso em que desejado prever vrias Redes neurais dependentes variveis diferentes baseadas nos mltiplas mesmos dados de entrada Registro de Apresentam dificuldades na maioria das Descoberta de comprimento tcnicas de minerao de dados, mas regras de associao varivel existem situaes em que a transformao para registros de comprimento fixo no desejada Dados ordenados Apresentam dificuldades para todas as Rede neural cronologicamente tcnicas e, geralmente, requerem intervalar (timeaumento dos dados de teste com marcas delay) ou avisos, variveis de diferena etc. Descoberta de regras de associao Texto sem A maioria das tcnicas de minerao de Raciocnio baseado formatao dados incapaz de manipular texto sem em casos (MBR) formatao
Tabela 3.2: Caractersticas de dados. Fonte: Dias (2002, p. 1718).
Caracterstica
Descrio
51 atributo numa base de dados, sendo essencial o conhecimento do domnio de dados antes da realizao de qualquer etapa do processo de descoberta de conhecimento em banco de dados.
52
53
A seguir so descritas as bases de dados (encontradas na linguagem R) utilizadas neste trabalho: 1) USarrests Esta base contm dados estatsticos sobre as apreenses realizadas a cada 100.000 residentes dos estados do Estados Unidos da Amrica em 1973, referentes a assalto, assassinato e violao. Nela fornecida, tambm, a porcentagem da populao que vive em reas urbanas. Os atributos desta base so: Murder Nmero de apreenses por assassinato (a cada 100.000 residentes). Assault Nmero de apreenses por assalto (a cada 100.000 residentes). UrbanPop Porcentagem da populao urbana. Rape Nmero de apreenses por violao (a cada 100.000 residentes).
2)
Mtcars
Esta base contm dados sobre o consumo de combustvel e dez aspectos relacionados ao projeto e ao desempenho de 32 veculos produzidos nos anos de 1973-74. Os atributos desta base so: Mpg Consumo. Cyl - Nmero de cilindros. Disp - Cilindrada. Hp - Nmero de Cavalos\fora. Drat - Relao do eixo traseiro. Wt - V/S. Qsec Tempo para percorrer de milha. Am - Tipo de transmisso (0 = automtico, 1 = Manual). Gear - Nmero de engrenagens. Carb -Nmero de carburadores.
54
3)
Matrizes
Algumas matrizes foram criadas na linguagem R para representar bases de dados de alta escalabilidade e alta dimensionalidade. Na linguagem R, a criao de uma matriz realizada a partir da reorganizao de elementos de um vetor em linhas e colunas. Cada elemento da matriz representado como a seguir: [(posio da linha na matriz), (posio da coluna na matriz)]. Os valores dos elementos que compem a matriz foram determinados aleatoriamente usando funes da linguagem R.
4.3.1 Escalabilidade
Segundo Traina et al. (2002), escalabilidade refere-se tanto complexidade computacional sobre o nmero de registros numa relao, quanto sobre o nmero de atributos. A quantidade de registros que podem ser apresentados simultaneamente uma das limitaes nas tcnicas de visualizao. Com elevado nmero de registros, o resultado apresenta-se com considervel grau de desordem (RUNDENSTEINER et al., 2002).
55 Keim e Kriegel (1996) cita as limitaes de algumas tcnicas de visualizao em relao ao nmero de registros num conjunto de dados e afirma que a visualizao de coordenadas paralelas capaz de representar aproximadamente 1000 registros. Este autor afirma, tambm, que as tcnicas geomtricas rapidamente alcanam os limites do que pode ser considerado compreensvel. Isto ocorre devido ao fato de haver sobreposio dos registros mapeados em posies iguais ou prximas, apresentando borres, ou seja, regies totalmente preenchidas. Shimabukuru (2004) afirma que a visualizao de grandes volumes de dados requer a integrao da tcnica com operaes de interao adequadas, que possibilitem seleo e filtragem de itens de interesse. As regies totalmente preenchidas, borres das coordenadas paralelas, geram visualizaes incompreensveis. Porm, percebe-se que o uso de cores pode auxiliar na visualizao de padres. Para demonstrar este fato, matrizes com diferentes quantidades de registros foram criadas e utilizadas como parmetros de entrada na execuo do algoritmo k-mdias. Os resultados obtidos foram plotados nas tcnicas de coordenadas paralelas, onde as linhas representam os atributos da matriz e as cores representam os agrupamentos, como possvel constatar nas Figuras 4.1a e 4.1b. As cores se destacam como borres, possibilitando a visualizao dos padres de cada agrupamento. Como possvel verificar nas Figuras 4.1a e 4.1b, o aumento no nmero de registros de 10.000 para 100.000 gera borres que demonstram os padres. Neste exemplo, o algoritmo gerou trs grupos, mas, porm, dependendo do domnio da aplicao e da quantidade de registros, pode haver necessidade da criao de mais grupos e, conseqentemente, da utilizao de mais cores.
a) b)
Figura 4.1: Coordenadas paralelas a) 10.000 registros, b) 100.000 registros. (linguagem R).
56 Para reafirmar a dificuldade na visualizao de grande quantidade de registros com o uso de tcnicas geomtricas, as Figuras 4.2a, 4.2b e 4.2c mostram a visualizao de disperso de dados em projeo tridimensional (scatter plot 3D) de matrizes com tamanhos de 100, 1.000 e 10.000 linhas, respectivamente, e com cinco colunas. Nestas figuras possvel observar que, conforme o nmero de registros aumenta, a visualizao se torna incompreensvel.
a)
b)
c)
Figura 4.2: Disperso de dados tridimensional a) 100 registros, b) 1.000 registros, c) 10.000 registros - (linguagem R).
As tcnicas baseadas em cones possibilitam a representao de um nmero pequeno de registros devido ao tamanho dos elementos grficos (RODRIGUES, 2003). Das visualizaes classificadas como tcnicas iconogrficas, avaliadas neste trabalho, as faces de chernoff a visualizao que tem a maior limitao na questo escalabilidade, pois permite a representao apenas de uma pequena quantidade de registros, conforme pode ser visto nas Figuras 4.3a e 4.3b. Na avaliao desta tcnica foram utilizadas matrizes de diversos tamanhos, porm a quantidade mxima que permitiu uma visualizao interpretvel foi a matriz de 169X8, representando 169 registros com oito atributos.
57
a) b)
De acordo com Shimabukuru (2004), a visualizao figuras de arestas classificada como tcnica iconogrfica possibilita representar grandes volumes de dados. Esta tcnica de visualizao utiliza as duas dimenses da tela para mapear dois atributos de dados, com os demais atributos sendo mapeados para ngulos e/ou comprimentos de segmentos. Na Figura 4.4 representada a imagem composta de cones pertencentes a visualizao figura de arestas, gerada a partir de 5 imagens de satlite da regio dos Grandes Lagos, na qual diversas texturas so identificadas.
Figura 4.4: Visualizao figuras de aresta (Stick Figure) Fonte: Gri 2001 (SHIMABUKURO apud 2004, p. 21)
4.3.2 Dimensionalidade
Esta caracterstica est relacionada capacidade que as tcnicas de visualizao possuem na representao de atributos.
58
Keim (2002) cita que geralmente utilizada nas visualizaes de informao uma grande quantidade de registros e cada qual tem muitos atributos, por exemplo: uma experincia fsica pode ser descrita com cinco atributos ou centenas de atributos. O autor chama o termo atributo de dimenso e classifica os dados como unidimensional, bidimensional, multidimensional ou podem ser dados complexos como hipertexto ou redes (grafos). Tanto na rea cientfica quanto na engenharia e ainda no mundo dos negcios, a maioria dos dados da forma multidimensional, ou seja, conjuntos de dados que contm tipicamente mais que trs atributos (PUNTAR, 2003). As tcnicas de visualizao de informao tm a proposta de interpretar conjuntos de dados multidimensionais. Nessa interpretao, deve-se levar em conta a capacidade de percepo humana, ou seja, o limite conceitual da dimensionalidade que segundo Rodrigues (2003), pode estar entre baixo e alto. No entanto, no existe um consenso sobre o que pode ser considerado como baixa e alta dimensionalidade, podendo variar entre 5 e 10 atributos (BEYER et al., 1999; BERCHTOLD et al. 1998 apud RODRIGUES, 2003, p. 19), estar em torno de 34 atributos (OLIVEIRA; LEVKOWITZ, 2002 apud RODRIGUES, 2003, p. 19), ou mesmo estar acima de 100 atributos ( BHM; KRIEGEL, 2000 apud RODRIGUES, 2003, p. 19). Utilizando estes limites conceituais como base, foram criadas diversas matrizes com diferentes colunas (representando os atributos). Aps a criao, cada matriz foi plotada nas tcnicas de visualizao de informao utilizadas no trabalho. A literatura revisada unnime quando se trata das coordenadas paralelas para representao de dados multidimensionais (KEIM; KRIEGEL, 1996; WEGMAN; LUO, 1996; GERSHON; EICK, 1997; INSELBERG; DIMSDALE, 1990; RODRIGUES, 2003; SHIMABUKURU, 2004; NASCIMENTO; FERREIRA, 2005). Esta tcnica mapeia cada atributo a uma linha conectando pontos nos eixos. A Figura 4.5 exibe trs visualizaes da tcnica de coordenadas paralelas, com quantidades diferentes de atributos (10, 34 e 100 respectivamente) e com a mesma quantidade de registros. O limite de atributos que as coordenadas paralelas podem suportar est restrito resoluo da tela do computador. Conforme pode ser observado, o aumento de atributos causa borres que dificultam a visualizao ou at mesmo o reconhecimento de padres.
59
a ) b ) c )
Figura 4.5: Cordenadas paralelas: a) 10 atributos. b) 34 atributos. c) 100 atributos. Todas visualizaes representam 100 registros - (linguagem R).
Outra tcnica de projeo geomtrica de visualizao que tem a capacidade de representar alta dimensionalidade a matriz de disperso de dados. Shimabukuru (2004), afirma que disperso de dados a tcnica de visualizao de informao mais antiga e popular para a projeo de dados de alta dimensionalidade em uma representao visual bidimensional. Para a visualizao de disperso de dados tridimensional (scatter plots 3D), Ebert et al. (2000) sugere a possibilidade da utilizao de cones para representao dos atributos dos dados, permitindo dessa forma o aumento no nmero de dimenses que podem ser exploradas nesta visualizao. Utilizando esta sugesto, pode-se considerar que esta visualizao tem boa representao na caracterstica dimensionalidade. A tcnica de visualizao iconogrfica outra das mais utilizadas, onde as figuras so usadas como codificadores geomtricos, tirando partido dos seus atributos visualmente perceptveis como cor, forma e textura (LEVKOWITZ, 1991 apud RUSSO; GROS; ABEL, 1999, p. 4). As faces de chernoff, desenvolvida por Chernoff (1973), classificada como tcnica de visualizao iconogrfica, tambm pode ser utilizada para visualizar dados multidimensionais, partindo da capacidade do ser humano de conseguir distinguir caractersticas visuais. Embora esta tcnica seja muito til em exibir dados multidimensionais, os registros so apresentados separadamente, uma vez que eles no transmitem qualquer informao sobre os reais valores com as quais se relacionam. Porm, as faces de chernoff possuem a capacidade de ilustrar tendncias ou parte dos dados que devem ser colocados em evidncia (RUSSO; GROS; ABEL , 1999).
60 A Figura 4.6 ilustra a visualizao de faces de chernoff utilizando um matriz de 3 x 15 (trs registros e quinze atributos). Os atributos so representados pelas seguintes caractersticas: altura da face, largura da face, forma da face, altura da boca, largura da boca, curva do sorriso, altura dos olhos, largura dos olhos, altura do cabelo, largura do cabelo, estilo do cabelo, altura do nariz, largura do nariz, largura das orelhas e altura das orelhas. Na reviso bibliogrfica realizada no estabelecido um limite de quantidade de caractersticas que podem ser utilizadas nesta visualizao. Johnson e Wichner (1982) sugere at 18 atributos. Na linguagem R, a funo que projeta esta visualizao, chamada faces, possibilita a representao mxima de 15 atributos.
Outra tcnica de visualizao iconogrfica que trabalha com dados multidimensionais, semelhante s faces de chernoff, a visualizao star glyphs. Johnson e Wichner (1982) dizem que esta visualizao til para padronizar determinadas informaes e a utiliza para determinar similaridade nos agrupamentos. Lee, Reilly e Butavicius (2003) afirmam que as visualizaes faces de chernoff e star glyphs so pontos multidimensionais que usam espao dimensional til para detectar agrupamento e outliers. A visualizao star glyphs permite um maior nmero de atributos comparado com faces de chernoff, conforme pode ser visto na Figura 4.7, que mostra a possibilidade de representao de at aproximadamente 80 atributos (Figura 4.7c). No entanto, como mostra a Figura 4.7d, com uma grande quantidade de atributos possvel visualizar somente borres.
a) b) c) d)
Figura 4.7: Star glyphs - a) 10 atributos, b) 30 atributos, c) 80 atributos, d) 500 atributos. (linguagem R)
61
Alm das tcnicas de visualizao iconogrficas Faces de Chernoff e Star glyphs, existe a visualizao de Figura de arestas (Stick Figure) que, apesar de representar alta escalabilidade, possui certa limitao referente dimensionalidade, que da ordem de aproximadamente uma dezena (KEIM; KRIEGEL, 1996)
Entretanto, neste trabalho o enfoque est nos tipos de valores (aqui nomeado como tipos de dados) para avaliao destas caractersticas. No entanto, necessrio considerar tambm a natureza do domnio na classificao do tipo de dado. Assim, os tipos de dados podem ser classificados como (DOWNING; CLARK, 2002; SHIMAKURA, 2007): qualitativo nominal dados alfanumricos que no possuem ordem (ex.: marca de carros);
62 qualitativo ordinal dados alfanumricos que possuem ordem (ex.: frio, morno e quente); quantitativo discreto dados numricos (contnuo ou reais) que se referem a contagens (ex.: nmero de acidentes com veculos registrado no ms); quantitativo contnuo dados numricos (inteiros ou reais) que se referem a representaes em escala (ex.: rea, volume, peso e velocidade). Na realizao da avaliao das tcnicas de visualizao de informao utilizando a linguagem R, foi encontrado um problema em relao ao parmetro de entrada para o tipo de dado qualitativo, pois a linguagem R no permite este tipo de dado de entrada em algumas visualizaes de informao. Para solucionar este problema, foi realizada a operao de codificao, apresentada por Goldschmidt e Passos (2005), no qual os valores qualitativos foram substitudos por valores numricos. Das tcnicas de visualizao de informao avaliadas, todas permitem a representao de dados quantitativos (discreto e contnuo). No entanto, para dados qualitativos nominais, as tcnicas iconogrficas avaliadas no possibilitam boa representao. O uso de cores na visualizao faces de chernoff contribui para uma melhor representao em alguns atributos qualitativos nominais, como o caso, por exemplo, de sexo (M/F), estado civil (casado/solteiro/vivo) e Unidade Federal (PR/SP/MG...). A insero de propriedades de visualizao pode tornar mais efetiva4 a tcnica de visualizao de informao quando avaliada em relao caracterstica tipos de dados qualitativos. Mackinlay (1986) prope uma ordenao de prioridades na utilizao das propriedades de visualizao, considerando os mais perceptveis aos menos perceptveis em relao aos tipos de dados quantitativos e qualitativos (ordinais e nominais), conforme pode ser visto na Figura 4.8 e Quadro 4.2.
- A efetividade est relacionada facilidade de se compreender os dados apresentados. Para ser efetiva, uma visualizao deve ser de rpida percepo e induzir a uma quantidade menor de erros de interpretao do que outras formas de se visualizar os mesmos dados. (NASCIMENTO, 2005).
63
Quadro 4.2: Ranking dos atributos em relao percepo. Fonte: (Mackinlay, 1986, p. 125).
4.3.4 Interao
A interao consiste no dilogo entre usurio e a mquina, potencializando assim o poder elucidativo de uma determinada tcnica de visualizao, ou seja, a interao dinmica faz com que o usurio altere suas visualizaes de forma que suas metas possam ser alcanadas (VAZ; CARVALHO, 2004; RODRIGUES, 2003).
64
A avaliao da caracterstica de interao tem como objetivo verificar a possibilidade do uso de tcnicas de interao nas tcnicas de visualizao de informao selecionadas. Na realizao desta avaliao no foi possvel criar interaes utilizando a linguagem R por no ter sido encontrado um pacote com este objetivo. Entretanto, pode-se concluir que a tcnica de filtragem interativa e zoom interativo se aplicam s visualizaes selecionadas neste trabalho. A tcnica de zoom interativo permite comprimir e expandir elementos grficos da visualizao, demonstrando maior eficcia para as tcnicas de visualizao iconogrficas, como apresentado por Nascimento e Ferreira (2005) nos itens relacionados a seguir sobre possveis formas de interao usando tcnicas de visualizao iconogrficas e a visualizao de coordenadas paralelas. Formas de interao em tcnicas de visualizao iconogrficas: Possibilidades de modificao dinmica entre a associao do componente da visualizao com os atributos de dados. Controle sobre a quantidade de cones visualizados simultaneamente, alterando o tamanho do mesmo, por meio de zoom interativo. Os cones podem ser ordenados conforme a necessidade do usurio. Por meio de um simples clique no cone possvel ter acesso informao mais detalhada sobre o que o cone representa, com apoio do zoom interativo. Formas de interao em coordenadas paralelas: Possibilidade de incluir e excluir eixos verticais. Selecionar intervalos de interesse no eixo, destacando os intervalos com cores mais intensas, este processo simboliza filtragem dos dados e zoom interativo. A possibilidade de selecionar mais do que uma coordenada simultaneamente, criando um processo de filtragem que realiza operaes de unio, interseco ou complemento entre os registros (representado pelas linhas horizontais). Wegman e Luo (1996) realizaram um trabalho, ao qual exploraram dados multidimensionais em projees bidimensionais, utilizando a visualizao de coordenadas paralelas. Os autores redefiniram dinamicamente as projees geradas a partir de uma base multidimensional. A idia isolar os agrupamentos ou dados de interesse pintando estes conjuntos na visualizao.
4.3.5 Interpretabilidade
A rea de descoberta de conhecimento em base de dados tem como objetivo principal identificar dados, padres, modelos potencialmente teis que sejam, sobretudo, altamente interpretveis (FAYYAD; PIATETSKY; SMYTH, 1996a). Sendo assim, a caracterstica de interpretabilidade foi selecionada com o intuito de verificar a existncia ou no de facilidade na interpretao das informaes apresentadas utilizando as tcnicas de visualizao de informao selecionadas neste trabalho. Segundo Nascimento e Ferreira (2005), as tcnicas de visualizao de informao envolvem o sentido humano da viso e este tipo de percepo est relacionado a diversas reas, tais como psicologia, lingstica e artes visuais, e, ainda, a algumas subreas da computao, como viso computacional e interao humano-computador. No entanto, essas reas no so consideradas nesta avaliao. A matriz de disperso foi a primeira visualizao de informao avaliada em relao caracterstica de interpretabilidade, por ser esta caracterstica apontada por Shimabukuru (2004) como sendo uma das vantagens desta visualizao. A Figura 4.9 representa a visualizao de matriz de disperso com sete atributos da base de dados mtcars e com os trs grupos gerados pelo algoritmo K-mdias aplicado sobre esta base. Os grupos esto representados pela propriedade de visualizao cor (vermelho, preto e verde). Observando esta figura possvel interpretar que h uma clara diviso dos grupos determinada pelos valores do atributo nmero de cilindros cyl. Outra interpretao possvel diz respeito ao relacionamento entre os atributos, que torna visvel a similaridade e dissimilaridade entre eles.
66
Figura 4.9: Matriz disperso de dado representando a base de dados mtcars - (linguagem R).
Outra tcnica de projeo geomtrica avaliada foi a visualizao de coordenadas paralelas que projetam o relacionamento entre os atributos da base de dados em padres bidimensionais, permitindo interpretar caractersticas como a diferena na distribuio e correlao entre os atributos (INSELBERG; DIMSDALE, 1990; WEGMAN; LUO, 1996). A anlise da caracterstica de correlao entre atributos discutida na Seo 4.3.7. A Figura 4.10 representa a visualizao das coordenadas paralelas, demonstrando a distribuio dos registros com os atributos da base de teste mtcars e os grupos formados pelo algoritmo K-mdias por meio de cores (vermelho, verde e preto). Na Figura 4.10 possvel observar uma concentrao de cores nos eixos horizontais que cruzam com o eixo vertical do atributo cyl e que irradiam para os eixos verticais disp e hp. Pode-se concluir que os trs grupos gerados pelo algoritmo no contm valores iguais para os atributos cyl e disp e o nmero de cilindros (cyl) proporcional aos valores dos atributos disp e hp.
67
Figuras 4.10: Coordenadas paralelas representando a base de dados mtcars - (linguagem R).
Quanto s tcnicas iconogrficas, a visualizao faces de chernoff foi avaliada por possibilitar uma visualizao rpida e compacta de vrios cones simultaneamente, conforme afirmam Estivalet e Freitas (2000). Esta representao do domnio de dados eficiente, porm exige uma adaptao do usurio, visto que necessrio habituar-se interpretao de cada caracterstica visual existente de acordo com o mapeamento dos atributos (LEE; REILLY; BUTAVICIUS, 2003). Na avaliao das visualizaes selecionadas foi constatado que uma boa interpretao dos dados no depende s da tcnica utilizada, mas tambm do domnio de aplicao, entendimento do domnio de dados e conhecimento do usurio em relao s tcnicas de visualizao e aos domnios considerados.
68 utilizando formas e cores nos componentes de visualizao. Na Figura 4.11 as cores representam os grupos formados na execuo do algoritmo K-mdias.
Outra tcnica de projeo geomtrica de visualizao que mostra o relacionamento entre os atributos as coordenadas paralelas, representada na Figura 4.12. Ao gerar uma representao planar, transforma relaes multivariadas em padres bidimensionais (WEGMAN; LUO, 1996). De acordo com a resoluo disponvel e dimenso da tela, possvel visualizar muitos atributos. A relao entre os atributos encontra-se nos eixos verticais, quanto mais prximos os eixos melhor a visualizao da relao. Por exemplo, o atributo assault relacionado com o atributo urbanpop demonstrado atravs das posies das linhas horizontais que exibe o significado na relao conforme pode ser visto na Figura 4.12a. O relacionamento entre os atributos assault e rape que esto separados pelo atributo urbanpop, necessrio criar mentalmente a relao ou retirar o atributo, conforme a Figura 4.12b.
69
a)
b)
Quanto s tcnicas iconogrficas, no foi possvel determinar a existncia de relacionamentos, desta forma optou-se em no avaliar tal caracterstica.
4.3.7 Correlao
Correlao ou coeficiente de correlao fornece o grau de relacionamento entre duas variveis (DOWNING; CLARK, 2002). A correlao a associao ou interdependncia entre os atributos da base de dados, utilizada para demonstrar se existe uma relao ou no entre atributos de interesse. Quando se trata de correlao, a visualizao de disperso de dados a mais referenciada na literatura (CRESPO, 1999; DOWNING; CLARK, 2002), fornecendo uma medida de correlao positiva ou negativa de acordo com o sentido da disperso de dados. A visualizao de disperso de dados fornece uma nuvem de pontos em um plano cartesiano utilizando eixos (x,y), sendo muito til para identificar correlao linear (CRESPO, 1999). A correlao identificada na visualizao de acordo com a posio dos pontos, isto , se os pontos do diagrama tm como imagem uma reta ascedente ela linear positiva (ver Figura 4.13a), da mesma forma se os pontos formarem uma imagem como uma reta descendente, ela linear negativa (Figura 4.13b). Entretanto, se os pontos apresentam-se dispersos, no oferecendo uma imagem definida, conclui-se que no h relao entre os atributos em estudo (Figura 4.13c) (DOWNING; CLARK, 2002; CRESPO, 1999).
70
a) b) c)
Figura 4.13: Disperso de dados; a) Correlao positiva; b) Correlao negativa; c) Correlao nula.
Para demonstrar esta caracterstica, foi utilizada a base de teste USarrests na visualizao da matriz de disperso de dados com uma funo criada na linguagem R, que calcula a correlao, demonstra os valores calculados e constri linhas que acompanham a disperso (linhas vermelhas na Figura 4.14). Como pode ser observado nesta visualizao, o maior coeficiente de correlao encontrado est entre os atributos morte e assalto, identificado como correlao positiva, ou seja, o nmero de mortes aumenta conforme o nmero de assaltos tambm aumenta.
Figura 4.14: Correlao na visualizao de disperso de dados - base de dados USarrests. (Linguagem R)
Outra tcnica de projeo geomtrica avaliada foi a visualizao de coordenadas paralelas. Por meio de observao possvel verificar na Figura 4.15 a similaridade de comportamento entre os eixos que representam os registros, caracterizando assim a correlao positiva. J na Figura 4.16, possvel observar o contrrio, isto , a dissimilaridade do comportamento dos eixos que representam os registros, indicando a existncia de correlao negativa.
71
War (2002 apud SHIMABUKURU, 2003, 19), apresenta a evidncia de correlao, atravs do cruzamento entre as linhas horizontais, como pode ser observado na Figura 4.17 a existncia de uma correlao negativa entre os eixos 6 e 7 destacados em verde.
Figura 4.17: Correlao e distribuio de valores em Coordenadas Paralelas. Fonte: (WAR, 2002 apud SHIMABUKURU, 2003, p. 19).
72 Foram utilizadas as bases de teste na avaliao da visualizao de coordenadas paralelas com o objetivo de identificar a existncia de correlaes. No entanto, os resultados no foram satisfatrios, pois esta visualizao no demonstrou as correlaes existentes identificadas previamente pela visualizao disperso de dados, devido ao fato de haver sobreposio dos registros mapeados que apresentaram borres (ver Figura 4.5a). Quanto s tcnicas iconogrficas, no foi realizado qualquer tipo de avaliao pela impossibilidade de interpretao da visualizao da caracterstica de correlao.
73 Dimensionalidade: esta caracterstica foi avaliada de acordo com a quantidade de atributos possveis de serem projetados nas visualizaes de informao, sem causar a poluio visual ou borres. Abaixo apresentado o nmero de atributos para cada visualizao avaliada de acordo com a limitao do dispositivo utilizado neste trabalho: o Matriz de disperso: aproximadamente 15 atributos, considerando forma e cores. o Disperso de dados 3D: nesta visualizao trs atributos podem ser representados por trs eixos, adicionalmente podem ser utilizadas propriedades de visualizao (tais como: densidadade, cor, rea, volume, posio e etc.) na representao de outros atributos. Neste trabalho a projeo foi feita para aproximadamente cinco atributos. o Coordenadas paralelas: foi possvel projetar 35 atributos. o Star glyphs: aproximadamente 80 atributos. o Figura de arestas: esta visualizao tem alta dimensionalidade. o Faces de chernoff: foi possvel projetar aproximadamente 15 atributos de acordo com caractersticas da face. Tipos de dados: os tipos de dados quantitativos e qualitativos ordinais so projetados em todas as visualizaes de informao avaliadas, porm os tipos de dados qualitativos nominais apresentam dificuldade em sua representao nas tcnicas iconogrficas, onde necessrio o uso das propriedades de visualizao, por exemplo: cor e forma. Interao: foi constatado que existem diferentes tcnicas de interao que podem ser aplicadas s visualizaes de informao. Interpretabilidade: a matriz de disperso e disperso de dados tridimensional demonstraram fcil interpretao na avaliao. As coordenadas paralelas tambm facilitam a interpretao, porm dificultam a visualizao da relao entre atributos pelo fato de existirem coordenadas separadas. Para a interpretao das tcnicas iconogrficas necessrio o conhecimento das propriedades de visualizao consideradas, juntamente com o mapeamento realizado com os atributos. Nos casos
74 em que o objetivo do uso da visualizao encontrar padres, a visualizao Figura de aresta indicada. Relacionamento entre atributos: as tcnicas de projeo geomtrica permitem visualizar os relacionamentos entre atributos, sendo a matriz de disperso a visualizao de informao que melhor representa esta caracterstica. Correlao: a visualizao de disperso de dados a que melhor demonstra esta caracterstica. A partir da avaliao realizada, foi possvel criar a Tabela 4.1 (Analise de caractersticas de tcnicas de visualizao).
Caractersticas
Suporte a quantidade de dados (Escalabilidade) Suporte a quantidade de atributos (Dimensionalidade)
T I P O S D E D A D O S
Matriz Disperso
5 3
Representao de dados qualitativos nominais Representao de dados qualitativos ordinais Representao de dados quantitativos discretos Representao de dados quantitativos contnuos Representao de dados mistos (qualitativos e quantitativos) Interao Facilidade de interpretao (Interpretabilidade) Relacionamento entre os atributos Correlao
5 5 5 5 5
5 5 5 3 4
5 5 3 3 2
4 5 3 1 X
4 5 3 1 X
4 5 4 1 X
76
APLICAO
DE
TCNICAS
DE
VISUALIZAO
DE
INFORMAO
Neste capitulo demonstrado o uso de tcnicas de visualizao de informao na representao de dados e de resultados obtidos na aplicao de um algoritmo de agrupamento. O objetivo confirmar a avaliao realizada e apresentada no captulo anterior utilizando uma base de dados real. Tanto o algoritmo de agrupamento quanto as tcnicas de visualizao de informao apresentadas neste captulo utilizam recursos oferecidos pela linguagem R. Inicialmente, foi selecionada a base de dados para a experimentao. Optou-se pela base de candidatos da Universidade Estadual de Maring (UEM), contendo os resultados das provas referentes ao vestibular de inverno do ano de 2005, somente do curso de medicina, disponvel no endereo eletrnico www.cvu.uem.br. Esta base foi modificada num formato adequado para sua utilizao na linguagem R e contm 1598 registros representando os candidatos ao curso de medicina e 13 atributos, que so: idade, nota da prova de redao, nota da prova de geografia, nota da prova de historia, nota da prova de biologia, nota da prova de matemtica, nota da prova de portugus, nota da prova de lngua estrangeira, nota da prova de fsica, nota da prova de qumica, nota final (total), classificao do candidato e situao do candidato (aprovado, reprovado e desclassificado).
77 A visualizao de informao sobre dados originais pode, tambm, fornecer conhecimentos que daro suporte tomada de deciso, sem que haja necessidade da aplicao de uma tcnica de minerao de dados. Desta forma, antes de aplicar o algoritmo de agrupamento, foram utilizadas algumas tcnicas de visualizao com intuito de encontrar caractersticas da base de dados. De acordo com a Tabela 4.1 (resultado da anlise de caractersticas da tcnica de visualizao), descarta-se a visualizao faces de chernoff e star glyphs, pois a base de dados possui 1598 registros e estas visualizaes tm como caracterstica a baixa escalabilidade. Em contrapartida, as visualizaes matriz de disperso, coordenadas paralelas e figuras de arestas apresentam-se como as mais adequadas quanto escalabilidade e dimensionalidade. Como j avaliado no Captulo 4, as coordenadas paralelas demonstram-se teis na identificao de padres gerados por algoritmos de agrupamento com grande quantidade de registros, o que no ocorre na visualizao preliminar da base de dados (sem aplicao do algoritmo de agrupamento), sendo ineficiente com mais de 1000 registros. Considerando que a matriz de disperso obteve alta pontuao em todas as caractersticas avaliadas e apresentadas na Tabela 4.1, esta visualizao uma opo para projetar a base de dados original com todos os seus atributos e registros. Com a filtragem dos candidatos aprovados, diminui-se a escalabilidade, possibilitando o uso da visualizao de informao star glyphs. Assim, a seguir so apresentadas as anlises realizadas aplicando as tcnicas de visualizao geomtricas e iconogrficas, mais especificamente as visualizaes matriz de disperso e star glyphs. a) Projeo Geomtrica Como a matriz de disperso a visualizao que melhor consegue representar a correlao entre os atributos, a sua projeo foi realizada com nfase nesta caracterstica. A Figura 5.1 ilustra esta visualizao, onde possvel observar:
78 Os candidatos aprovados tm idade inferior a trinta anos, conforme mostra a relao entre os atributos idade e situao (1 - aprovado, 2 - desclassificado e 3 reprovado). Os atributos referentes s notas das provas tm alto grau de relacionamento linear positivo (correlao) entre si. Os atributos com maior grau de relacionamento (correlao) so as notas das provas de geografia e histria e as notas das provas de qumica e biologia. O atributo total de pontuao tem maior grau de relacionamento com os atributos referentes s notas das provas de qumica e biologia. O atributo idade apresenta correlao nula com os demais atributos.
Pelo fato da visualizao ter gerado borres, poderiam ser projetados somente aqueles atributos de maior interesse para facilitar o entendimento sobre a disperso dos dados. `
Com intuito de utilizar alguma visualizao de informao para verificar a existncia de inconsistncias em base de dados, foi includo o atributo sexo na base de candidatos da Universidade Estadual de Maring (UEM) com alguns valores nulos. Observando as Figuras 5.2a e 5.2b, possvel verificar uma inconsistncia nas bases de dados em relao ao atributo sexo que apresenta valor nulo para vrios registros. Assim, concluise que a visualizao de coordenadas paralelas consegue demonstrar existncia de atributos
79 com valores incorretos ou ausentes. Esta visualizao tambm pode fornecer uma idia da quantidade de registros que contm valores incorretos, por meio da quantidade de linhas que irradiam do atributo em questo, por exemplo, a Figura 5.2a representa uma base de dados com 8,2% de registros contendo valor nulo no atributo sexo, enquanto que a Figura 5.2b representa outra base de dados contendo apenas 0,62% de registros com valor nulo no atributo sexo, como pode ser visto nestas figuras. a) b)
Figura 5.2: Coordenadas paralelas: a) representando 131 registros contendo valores nulos para o atributo sexo, b) representando 10 registros contendo valores nulos para o atributo sexo - (linguagem R)
b) Tcnica Iconogrfica A Figura 5.3 ilustra a visualizao Star Glyphs onde foram projetados somente os candidatos aprovados. Nesta visualizao possvel realizar algumas consideraes sobre as pontuaes das provas de cada candidato em relao s pontuaes dos demais candidatos aprovados, tais como: O candidato nmero 6 possui os menores valores obtidos nas provas de matemtica, geografia, historia e fsica. Os candidatos 3 e 8 possuem as melhores notas na maioria das disciplinas. O candidato 12 obteve a menor nota em biologia e sua nota em portugus relativamente alta em relao s demais notas por ele obtidas. Os candidatos 3, 16, 19 e 20, obtiveram notas boas em todas as provas, enquanto que os demais candidatos apresentam pelo menos uma prova com nota baixa.
80
Por meio deste exemplo, foi possvel extrair algumas interpretaes. No entanto, a avaliao apresentada na Tabela 4.1 pontuou a caracterstica interpretabilidade para a visualizao Star Glyphs com valor trs, pela necessidade do uso do mapa representado na Figura 5.3.
5.2
VISUALIZAO AGRUPAMENTO
DOS
RESULTADOS
DO
ALGORITMO
DE
Aps a preparao da base de dados e o uso de visualizaes de informao sobre os dados originais, o algoritmo de agrupamento K-mdias foi selecionado por ser um dos mais referenciados na literatura e, tambm, pelo fato da maioria dos atributos existentes na base de dados ser do tipo quantitativo. Na linguagem R, a funo que implementa o algoritmo de agrupamento K-mdias se encontra na biblioteca amap e possui cinco parmetros de entrada. As linhas de cdigo utilizadas para carregar a biblioteca e executar a funo Kmeans so:
library(amap) Kmeans(x, centers, iter.max = 10, nstart = 1,method = " euclidean ")
81 Os parmetros da funo Kmeans so descritos a seguir: x - a estrutura de dados da base de dados de entrada, juntamente com o seu contedo (valores numricos dos atributos);
centers nmero desejado de grupos; inter.max nmero mximo de interaes que o algoritmo deve realizar. method medida de distncia a ser utilizada: "euclidean", "maximum","manhattan",
"canberra", "binary", "pearson"
ou "correlation.
A Figura 5.4 ilustra os resultados obtidos com a execuo do algoritmo K-mdias, que so divididos em quatro partes: 1. indica a quantidade de registros para cada grupo criado; 2. indica os centrides de cada atributo relacionado para cada grupo; 3. vetor do agrupamento que identifica o grupo criado para cada registro; 4. somatria da raiz quadrada por grupo.
1 2
Conforme pode ser observado na Figura 5.4, os resultados apresentados no do subsdios suficientes para a sua interpretao, sendo necessrio, portanto, o uso de tcnicas de
82 visualizao de informao. A seguir so demonstradas as visualizaes de informao utilizadas para representar esses resultados. a) Projeo Geomtrica De acordo com a avaliao realizada neste trabalho, a visualizao de coordenadas paralelas uma das tcnicas de projeo geomtrica que obtiveram boa pontuao referente caracterstica de escalabilidade, pelo fato de conseguir demonstrar padres nos resultados obtidos pelo algoritmo de agrupamento. Wegmam e Luo (1996) afirmam que a tarefa de agrupamento facilmente interpretada utilizando a representao de coordenadas paralelas. Observando a projeo do resultado do algoritmo na visualizao de coordenadas paralelas, ilustrada na Figura 5.5, possvel constatar a formao de padres nos quatro grupos gerados pelo algoritmo de agrupamento, como descritos a seguir: Grupo 1 (linhas pretas) grande maioria dos candidatos reprovados com o total de pontuao igual a zero. Grupo 2 (linhas vermelhas) grande maioria dos candidatos desclassificados com o total de pontuao inferior a aproximadamente 754 (metade do total de pontuao obtida pelo candidato classificado em primeiro lugar que foi 1508). Grupo 3 (linhas azuis) grande maioria dos candidatos desclassificados com o total de pontuao superior a aproximadamente 754. Grupo 4 (linhas verdes) - grupo de candidatos que obtiveram as melhores pontuaes.
Alm da identificao dos padres dos grupos, possvel identificar outras interpretaes na visualizao de coordenadas paralelas, por exemplo: A faixa etria da maioria dos candidatos inferior a aproximadamente 27 anos. Quase todos os candidatos do Grupo 1 (linhas pretas) obtiveram nota zero na redao, e neste mesmo grupo possvel verificar a existncia de candidatos que obtiveram notas com valores acima da mdia, sendo o grupo que apresenta a maior disperso em outras provas. Muitos candidatos do Grupo 1 zeraram a prova de lngua estrangeira, considerando que existe uma concentrao de linhas pretas no valor zero referente ao atributo LE (lngua estrangeira).
83 Existem candidatos que obtiveram boas notas na prova de redao, mas no esto agrupados no Grupo 4, pois possvel verificar na visualizao que h candidatos de outros grupos no topo da linha vertical que representa o atributo redao, conforme Figura 5.6. O Grupo 4 o grupo dos candidatos que obtiveram as melhores notas nas provas de biologia, qumica e portugus, como pode ser observado na concentrao de linhas verdes no topo das linhas verticais que representam os atributos referentes a estas provas. O destaque maior est na prova de qumica. Apesar dos candidatos do Grupo 4 terem obtido as melhores pontuaes no total geral, possvel observar que muitos deles obtiveram notas abaixo da mdia nas provas de matemtica, lngua estrangeira e fsica. Entre os candidatos com as melhores notas, poucos obtiveram notas com valores prximos ao valor mximo atingido na prova de matemtica, conforme pode ser observado na disperso existente na linha vertical que representa este atributo. Pode-se observar a existncia de candidatos do Grupo 2 com boas notas (acima da mdia) nas provas de redao, geografia, histria, lngua estrangeira e qumica e com notas abaixo da mdia na prova de matemtica.
Figuras 5.5: Coordenadas paralelas gerado pelo algoritmo K-means - (Linguagem R).
84
Figura 5.6: Coordenadas paralelas com destaque no eixo vertical que representa o atributo redao - (linguagem R).
As interpretaes realizadas na visualizao de coordenadas paralelas no se esgotaram, outras poderiam ser listadas de acordo com o conhecimento e o interesse sobre o tipo de informao a ser extrado pelo avaliador, por exemplo, o avaliador pode estar interessado apenas no grupo que representa os melhores candidatos. Assim, pode-se filtrar da base de dados os candidatos do Grupo 4 e serem gerados novos agrupamentos, ou at mesmo utilizar outras tarefas de minerao de dados (associaes, regresso, sumarizao ou classificao). Outra visualizao que apresentou boa escalabilidade para demonstrar padres de resultados do algoritmo de agrupamento a visualizao de disperso de dados tridimensional (Figuras 5.7), utilizando a propriedade cor para representar os grupos formados. De forma geral, observando o eixo referente ao atributo da prova de biologia das Figuras 5.7a e 5.7b, possvel constatar a separao das cores, sugerindo as seguintes interpretaes: O grupo de cor vermelha representa a maioria dos candidatos que obteve na prova de biologia nota inferior a aproximadamente 30 pontos. O grupo de cor verde representa a maioria dos candidatos que obteve na prova de biologia nota no intervalo aproximado entre 30 e 50 pontos. o grupo de cor azul representa a maioria dos candidatos que obteve na prova de biologia nota superior a aproximadamente 50 pontos; O grupo de cor preta representa a maioria dos candidatos que obteve nota zero para a prova de redao. Pode-se observar, tambm, na Figura 5.7a a existncia de correlao positiva entre a prova de qumica e a prova de biologia, j demonstrada pela Figura 5.1, e a separao dos grupos
85 (representados pelas cores) verificada pelo menor e maior valor do atributo da prova de qumica. Possibilitando as seguintes interpretaes: O grupo representado pela cor vermelha tem a maioria dos candidatos com a pontuao inferior ao grupo representado pela cor verde e azul. O grupo representado pela cor verde tem a maioria dos candidatos com a pontuao superior ao grupo representado pela cor vermelha e inferior ao grupo representado pela cor azul. O grupo representado pela cor azul tem a maioria dos candidatos com a pontuao superior aos grupos representados pelas cores verde e vermelha.
a)
b)
Figura 5.7: Disperso de dados tridimensional representando resultado do algoritmo de agrupamento da base UEM-2005 - (linguagem R).
No se esgotaram as possibilidades de identificao de outras interpretaes que podem ser realizadas, at porque, esta visualizao permite a sua projeo em diferentes ngulos. b) Tcnicas Iconogrficas De acordo com a avaliao das tcnicas de visualizao de informao que resultou na Tabela 4.1, as visualizaes faces de chernoff e Star Glyphs, tiveram baixa pontuao na caracterstica escalabilidade e maior pontuao para dimensionalidade. Considerando que a escabilidade analisada diz respeito quantidade de grupos, aps a aplicao de um algoritmo de agrupamento, e que os centrides representam os grupos criados, ou seja, para cada grupo
86 existe um centride que um conjunto de valores calculados para cada atributo, mantendo o mesmo nmero de atributos, possvel utilizar a visualizao faces de chernoff ou star grlyphs para representar os grupos. A Figura 5.8 ilustra a visualizao faces de chernoff representando os centrides dos quatros grupos gerados pelo algoritmo K-mdias, sendo que as variaes nos valores dos atributos determinam faces distintas. As alteraes que ocorrem nas faces so realizadas pelo mapeamento do atributo com as caractersticas de uma face (altura da face, altura da boca, altura dos olhos, largura do cabelo e etc...). A funo da Linguagem R que implementa a gerao da visualizao faces de chernoff no apresenta qualquer informao sobre como foi realizado o mapeamento de cada atributo com as propriedades da face. Com a realizao de alguns testes com o atributo total de pontuao, pode-se verificar que este atributo est relacionado com as propriedades relativas a cabelo. Somente a face quatro tem uma maior projeo do cabelo, sendo assim possvel afirmar que o Grupo 4 contm os candidatos aprovados e o Grupo 1 os candidatos reprovados.
Figura 5.8: Faces de chernof representando os centrides dos grupos gerados pelo algoritmo k-mdias - (linguagem R).
87 visualizaes foram utilizadas tendo como dados de entrada uma base de dados real e a sua anlise foi apresentada neste captulo. Por meio dessa anlise, foi possvel verificar a utilidade da avaliao das tcnicas de visualizao realizada e descrita no Captulo 4, principalmente em relao anlise de resultados obtidos na aplicao de um algoritmo de agrupamento que, por sua vez, pode ser usado na minerao de dados.
88
89 minerao de dados. Neste trabalho foram analisadas a tarefa de agrupamento e seis visualizaes de informao, classificadas em duas tcnicas de visualizao (projeo geomtrica e iconogrfica). Os resultados da avaliao realizada demonstraram o quanto cada tcnica de visualizao analisada pode contribuir no entendimento tanto de dados originais existentes nas bases de dados quanto de resultados obtidos com a aplicao de um algoritmo de agrupamento. Assim, pode-se concluir que o uso adequado de tcnicas de visualizao facilita a anlise de dados em geral de resultados da minerao de dados. A linguagem R, utilizada na aplicao do algoritmo de agrupamento e na gerao das visualizaes mostrou ser um recurso vivel apesar de fornecer um processo semi-automtico onde necessrio o envolvimento do analista na realizao de determinadas tarefas. Nesta linguagem existem diversas bibliotecas que contm algoritmos para realizao da tarefa de MD, por exemplo, a biblioteca R-WEKA que permite a utilizao dos algoritmos da ferramenta WEKA5. Porm, os resultados desses algoritmos, quando possvel, devem ser adaptados para a sua utilizao em outra funo que projeta visualizao. Como trabalhos futuros podem ser citados: Avaliao de outras tcnicas de visualizao, por exemplo: Tcnicas Orientadas a Pixel e Tcnicas Hierrquicas. Agregao de tcnicas de interao nas funcionalidades de visualizao existentes na linguagem R, por exemplo: zoom e filtragem interativa na visualizao de coordenadas paralelas. Construo de uma interface na linguagem R com recursos de manipulao, limpeza e tratamento da base de dados. Integrao das funcionalidades que implementam algoritmos de minerao de dados e tcnicas de visualizao de informao na linguagem R, como por exemplo, adaptar a sada da funo k-means (algoritmo de agrupamento) para a entrada da funo parcoord (visualizao de coordenadas paralelas).
Weka (Waikato Environment for Knowledge Analisys) ferramenta especifica para minerao de dados escrita em java. Contemplando conjuntos de algoritmos para realizao das tarefas de agrupamento, classificao e associao.
90 Elaborar uma avaliao contemplando outras tarefas de MD (classificao, associao, regresso e etc...), e verificar quais dentre as tcnicas de visualizao podem ser integradas s tarefas de MD.
91
REFERNCIAS
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules Between Sets of Itens in Large Databases. In: ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 1993, Washington, Proceedings... Washington, ACM, 1993. p. 207-216. BARIONI, M. C. N. Visualizao de operaes de juno em sistemas de bases de dados para minerao de dados. 2002. Dissertao (Mestrado)-Instituto de Cincias Matemticas e de Computao,Universidade de So Paulo, So Carlos, 2002. BENDIX, F.; KOSARA, R.; HAUSER H. Parallel sets: visual analysis of categorical data. In: IEEE SYMPOSIUM INFORMATION VISUALIZATION, 5., Washington, 2005, Proceedings... Washington: IEEE Computer Society, 2005. p. 133140. CARD, S. K.; MACKINLAY, J. D.; Shneiderman, B. Readings in information visualization: Using Vision to Think. San Francisco: Morgan Kaufmann, 1999. CARLANTONIO, L. M. Novas metodologia para clusterizao de dados. Dissertao (Mestrado)-Engenharia Civil, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001. CHERNOFF, H. The use of faces to represent points in K-Dimensional space graphically. Journal of the American Statistical Association, New York, v. 68, no. 342, p. 361-367, 1973. CHI, E. H.; RIEDL, J. T. An operator interaction framework for visualization spreadsheets. In: IEEE SYMPOSIUM INFORMATION VISUALIZATION, 1998, Washington, Proceedings... Washigton: IEEE Computer Society, 1998. p. 63-70. CRESPO, A. A. Estatiststica fcil. 17. ed. So Paulo: Saraiva, 1999. DIAS, M. M. Um modelo de formalizao do processo de sistema de descoberta de Conhecimento em banco de dados. 2001. Tese (Doutorado)-Ps Graduao em Engenharia de Produo, Universidade Federal de Santa Catarina. Florianpolis, Santa Catarina, 2001. DIAS, M. M. Parmetros na escolha de tcnicas e ferramentas de minerao de dados. Acta Scientiarum, Maring, v. 24, n. 6, p. 1715-1725, 2002. DOWNING, D.; CLARK, J. Estatstica aplicada. 2. ed. So Paulo: Saraiva, 2002. EBERT, D. S.; ROHRER, M. R.; SHAW D. C; PANDA P.; KUKLA M. J.; ROBERTS A.D. Procedural shape generation for multi-dimensional data visualization. Computers & Graphics, New York, v. 24, no. 3, p. 375-384, 2000. ESTIVALET, L. F.; FREITAS, C. M. D. S. O Uso de cones na visualizao de informaes. 2000. Dissertao (Mestrado)-Instituto de Informtica, Programa de Ps Graduao em Computao, Universidade Federal do Rio Grande do Sul, Porto Alegre. 2000.
92 FAYYAD, U. M.; PIATESTKY SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: an overview. In: FAYYAD, U. M. et al. (Ed.). Advances knowledge discovery and data mining. Menlo Park: AAAI, 1996a. p. 1-36. FAYYAD, U.; PIATETSKY S. G.; SMYTH, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, v. 39, no. 11, p. 27-35, 1996b. FEKETE, J.; PLAISANT, C. Interactive information visualization of a million items. In: IEEE SYMPOSIUM ON INFORMATION VISUALIZATION, 2., 2002, Boston. Proceedings... Boston: IEEE, 2002. p. 117. FREITAS, C. M. D. S. et al. Introduo visualizao de informaes. Revista de Informtica Terica e Aplicada, Porto Alegre, v. 8, n. 2, p. 143-158, 2001. GERSHON, N.; EICK, S. G. Information visualization. IEEE Computer Graphics and Applications, New York, v. 17, no. 4, p. 29-31, 1997. GOEBEL, M.; GRUENWALD, L. A Survey of Data Mining and Knowledge Discovery Software Tools. ACM SIGKDD Explorations, New York, v. 1, no. 1, p. 20-33, June. 1999. GOLDSCHMIDT, R. Assistncia inteligente orientao do processo de descoberta de conhecimento em bases de dados. 2003. Tese (Doutorado)-Programa de Ps-graduao em Engenharia Eltrica, Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2003. GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pratico. 1. ed. Rio de Janeiro: Campus, 2005. HUANG, Z.; Clustering Large Data Sets with Mixed Numeric and Categorical Values Proceedings First Pacific-Asia: Conf. Knowledge Discovery and Data Mining, 1997. pages 21-34 HRUSCHKA, E. R.; EBECKEN, N. F. F. A genetic algorithm for cluster analysis. Intelligent Data Analysis, Netherlands, v. 7, no.1, p.15-25, 2003. INSELBERG, A. DIMSDALE, B. Parallel coordinates: a tool for visualizing multidimensional geometry. In: CONFERENCE ON VISUALIZATION 90, 1., 1990, San Francisco. Proceedings Los Alamitos: IEEE Computer Society, 1990. p. 23-26. JOHNSON, A. R.; WICHNER, W. D. Applied multivariate statistical analysis. New Jersey: Prentice-Hall, 1982. KEIM, D. A.; KRIEGEL, H. P. Visualization techniques for mining large databases: a comparion. IEEE Transactions on Knowledge and Data Engineering, Los Alamitos, v. 8, no.6, p. 923-938, Dec. 1996. KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on Visualization and Computer Graphics, Los Alamitos, v. 8, no.1 p. 1-8, Jan. 2002.
93 KOSARA, R.; SAHLING, G.; HAUSER, H. Linking scientific and information visualization with interactive 3D scatterplots. In: INTERNATIONAL CONFERENCE IN CENTRAL EUROPE ON COMPUTER GRAPHICS, VISUALIZATION AND COMPUTER VISION SHORT COMMUNICATION. 12., 2004, Proceedings... p. 133140, 2004.
LEE, M. D.; REILLY, R. E.; BUTAVICIUS, M. A. An empirical evaluation of chernoff faces, star glyphs, and spatial visualizations for binary data. In: AUSTRALIAN SYMPOSIUM ON INFORMATION VISUALIZATION, 24., 2003, Australia. Proceedings... Austrlia, 2003. p.1-10. MACKINLAY, J. Automating the design of graphical presentations of relational information. ACM Transactions on Graphics, New York, v. 5, no.2, p. 110141. 1986. MENEZES, E. M.; SILVA, E. L. Metodologia da pesquisa e elaborao de dissertao. Santa Catarina: Ed. da UFSC, 2001. NASCIMENTO, H.; FERREIRA, C. Visualizao de Informao uma abordagem prtica. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAO, 25., 2005, So Leopoldo. Anais... So Leopoldo: Unisinos, 2005. p. 1262-1312. PFLEEGER, L. S. Engenharia de software teoria e pratica. 2. ed. So Paulo: Pearson Prentice Hall, 2004. PRASS, F. S. Estudo comparativo entre algoritmos de anlise de agrupamentos em data mining. 2004. Dissertao (Mestrado)-Ps-graduao em cincia da computao, Universidade Federal de Santa Catarina. Florianpolis, 2004. PINHEIRO, L. C. Mtodo de representao espacial de clustering. 2006. Dissertao (Mestrado)-Ps-Graduao em Informtica, Universidade Federal do Paran, Curitiba, 2006. PUNTAR, G. S. Mtodos e Visualizao de Grupamentos de Dados. 2003. Dissertao (Mestrado)-Ps Graduao em Engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2003. THE R projetc for statistical computing. Disponvel em: <http://www.r-project.org/.> Acesso em: 27 jun. 2007. RODRIGUES. J. F. Desenvolvimento de um framework para anlise visual de informao suportando data mining. 2003. Dissertao (Mestrado)-Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, So Carlos, 2003. RUNDENSTEINER, E. A. et al. XmdvTool: visual interactive data exploration and trend discovery of high-dimensional data sets. In: ACM SIGOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA. 2002, Madison. Proceedigns... Madison: ACM, 2002. p. 631.
94 RUSSO, S. C.; GROS, P.; ABEL, P. Visualizao tridimensional de grandes volumes de informao. In: CONGRESSO LUSO-MOAMBICANO DE ENGENHARIA, 1999. Maputo. Proceedigns... Maputo: Eurocom, 1999. p. 73-87. v. 2. SHIMABUKURU, H. M. Visualizao temporal em uma plataforma software extensvel e adaptvel. 2004. Tese (Doutorado)-Instituto de Cincia Matemtica e de Computao. Universidade de So Paulo, So Carlos, 2004. SHIMAKURA, E. S. Tipo de dados Disponvel <http://leg.ufpr.br/~shimakur/CE001/node7.html>. Acesso em 20 mar. 2007. em:
TRAINA, A. J. M.; BARIONI C. M.; BOTELHO E.; FALOUSTSOS C.; RAZENTE H. et al. Data visualization in RDBMS. In: IASTED INTL. CONFERENCE ON INFORMATION SYSTEMS AND DATABASES. 2002, Tquio. Proceedings... Anaheim: ACTA, 2002. p. 264-269. v. 1. VAZ, F. R. CARVALHO, L. C. Visualizao de informao. Instituto de Informtica, Universidade Federal de Gois, Gois, 2004. Relatrio Tcnico. WEGMAN, E. J.; LUO, Q. High Dimensional clustering using parallel coordinates and the grand tour. Computing Science and Statistics, v. 28, p. 352-360, 1996. WONG, P.C. Visual data mining. IEEE Computer Graphics and Applications, Los Alamitos, v.19, no.5, p. 20-21, Sep./Oct. 1999.
95
96
Exemplos de cdigo:
# fonte: documentao do R > x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2), matrix (rnorm (100, mean = 1, sd = 0.3), ncol = 2)) > colnames(x) <- c("x", "y") > (cl <- kmeans(x, 2)) > plot(x, col = cl$cluster) > points(cl$centers, col = 1:2, pch = 8, cex=2)
#agrupamento da base de dados USArrests > library(amap) > x = USArrests # carrega o pacote em memria # atribuir a base de dados numa varivel
> x
>
cl<-Kmeans(x,5,method
"euclidean")
#Agrupar
os
elementos
97
# agrupar base de dados uem > library(amap) #carregar pacote na memria > library(Rweka) #carregar pacote do weka > x<-read.arff('D:/uem_medicina.arff') #carregar a base de dados uem que esta formato de leitura do WEKA> > cl<-Kmeans(x,5,method = "euclidean") # agrupar a base > cl #exibir agrupamento
98
Exemplos de cdigos:
#fonte: documentao do R > plot(cars) > lines(lowess(cars)) > plot(sin, -pi, 2*pi) ## Distribuio discreta > plot(table(rpois(100,5)), type = "h", col = "red", lwd=10, main="rpois(100,lambda=5)")
Projeo da visualizao da matriz de disperso representado o resultado do algoritmo kmedias aplicado na base de dados USArrests
#Projeo da Figura 4.11 (matriz de disperso) > x = USArrests #carregar a base > cl<-Kmeans(x,5,method = "euclidean") # agrupar os registros
99
> plot(x,col=cl$cluster) # projetar visualiao
#projeo da Figura 4.14 (matriz de disperso com destaque para caracterstica correlao) > ma_correlacao <- function(a,b, digits=2, prefix="", cex.cor) {funo para exibio da matriz} { u <- par("u"); on.exit(par(u)) par(u = c(0, 1, 0, 1)) r <- abs(cor(a,b)) txt <- format(c(r, 0.123456789), digits=digits)[1] txt <- paste(prefix, txt, sep="") if(missing(cex.cor)) cex <- 0.8/strwidth(txt) test <- cor.test(a,b) Signif <- symnum(test$p.value, corr = FALSE, na = FALSE, cutpoints = c(0, 0.001, 0.01, 0.05, 0.1, 1), symbols = c("***", "**", "*", ".", " ")) text(0.5, 0.5, txt, cex = cex * r) text(.8, .8, Signif, cex=cex, col=2) } >pairs(USArrests, lower.panel= panel.smooth,upper.panel= ma_correlacao)
Parmetros: x fonte de dados, caso utilize este parmetros somente como coordenada necessrio utilizar o parmetro y e z; y, z coordenada y e z;
color propriedade cor; pch uso de simbolos; main titulo da visualizao; sub sub-titulo da visualizao; xlim, ylim, zlim limites para as coordenadas;
100
xlab, ylab, zlab ttulos para os eixos; scale.y determinao escalas; angle projeo em diferentes ngulos; axis valor lgico que indica a remoo dos eixos; tick.marks tracejadas; label.tick.marks valor lgico para exibir layout dos valores das linhas tracejadas; valor lgico que permite a remoo das linhas
grid valor lgico que indica se as linhas devem ser visualizadas; Box valor lgica que indica a presena de um cubo na visualizao
Exemplos de cdigos:
#fonte: documentao do R #visualizao da figura b.1 Mistura de cores > library(scatterplot3d)# carregar pacote > cc <- colors() > crgb <- t(col2rgb(cc)) > par(xpd = TRUE) > rr <- scatterplot3d(crgb, color = cc, box = FALSE, angle = 24, xlim = c(-50, 300), ylim = c(-50, 300), zlim = c(-50, 300)) > cubedraw(rr) > rbc <- rainbow(201) > Rrb <- t(col2rgb(rbc)) > rR <- scatterplot3d(Rrb, color = rbc, box = FALSE, angle = 24, xlim = c(-50, 300), ylim = c(-50, 300), zlim = c(-50, 300)) > cubedraw(rR) > rR$points3d(Rrb, col = rbc, pch = 16)
Figura b.1 Visualizao disperso de dados 3d Representando um cubo com mistura de cores- Fonte: Documentao R
101
# projeo da Figura 5.7: Disperso de dados tridimensional representando resultado do algoritmo de agrupamento da base UEM2005. x <- read.table('D:/base_de_teste/uem_2005.txt') # carregar a base de dados uem > y <- x[-4]... # selecionar os atributos de interesse > cl<-Kmeans(x,5,method = "euclidean") # agrupar a base > library(scatterplot3d)# carregar pacote > scatterplot3d(y, color=cl$cluster,type="h",angle=55, scale.y=0.7, pch=16, main="scatterplot3d 5") #Projeo da base de dados
Parmetros: x base de dados; col propriedade cor (vetor); lty tipo de linhas (vetor); var.label valor lgico que indica a necessidade de layout.
Exemplos:
# Projeo da Figuras 5.5: Coordenadas paralelas gerado pelo algoritmo K-means utilizando a base de dados uem/2005. > x <- read.table('D:/base_de_teste/uem_2005.txt') #carregar a base de dados uem > y <- x[-4]... # selecionar os atributos de interesse > cl<-Kmeans(x,5,method = "euclidean") #agrupar a base > parcoord((x), col = cl$cluster)
102
cl<-Kmeans(x,3,method = "euclidean") parcoord((x), col = cl$cluster)
Parametros: xy x representa os registros e y os atributos (fonte de dados); which.row valor lgico que permite a permutao na linhas; fill se este valor verdadeiro somente os atributos da base mapeado nas propriedades da face sofrem transformao; Nrow nmero de colunas da face; Scale- valor lgico que permite normalizar a escala das propriedades da face; Main titulo da visualizao; Labels valor lgico que determina a projeo do layout para cada cone.
Exemplos:
#fonte: documentao do R figura b.2
faces(rbind(1:3,5:3,3:5,5:7)) data(longley) faces(longley[1:9,]) set.seed(17) faces(matrix(sample(1:1000,128,),16,8),main="random faces")
103
Exemplos:
# Projeo da Figuras f.2: representa a faces de chernoff com todos os registros da base de dados USArrests, o nmero acima da face, significa a qual grupo cada face pertence, agrupamento gerado pelo algoritmo k-means. > library(amap) > library (TeachingDemos) > x = USArrests > cl<-Kmeans(x,5,method = "euclidean") > faces(cl$centers) > faces(x,labels=matrix(cl$cluster))
Figura F.2 Faces de Chernoff, representando todos os registros da base de dados USArrests, com o layout (nmero) representando o nmero do grupo a qual pertence.
Paramtros:
104 x- fonte de dados (matriz ou data frame) full parmetro lgico, para o valor True projeo realizada em todo o circulo, caso contrario projetado na metade do circulo scale parmetro lgico, para o valor true os dados so projetado numa escala de 0 a 1. Radius - parmetro lgico, habilita e desabilita os eixos emitidos, deixando apenas as retas que conectam as pontas dos eixos. Labels layout de cada icone. nrow,ncol Numero de linhas e colunas len - tamanho dos eixos.
Exemplo:
# Visualizao da Figura 5.3 > x <- read.table('D:/base_de_teste/uem_2005.txt') #carregar a base de dados uem > library(graphics)# carregar biblioteca na memria > y <- x[-13] #retirar o atributo class > stars(y, key.loc = c(8, 2.5),main = "analise dos candidatos cluster" , flip. Labels=FALSE) #projetar visualizao
# Visualizao da Figura 4.7a > stars(b,len = 0.8, key.loc = c(9, 1.5),draw.segments = TRUE)