Sunteți pe pagina 1din 104

EMERSON RABELO

AVALIAO DE TCNICAS DE VISUALIZAO PARA MINERAO DE DADOS

MARING 2007

EMERSON RABELO

AVALIAO DE TCNICAS DE VISUALIZAO PARA MINERAO DE DADOS

Dissertao apresentada ao Programa de Ps-Graduao em Cincia da Computao da Universidade Estadual de Maring, como requisito parcial para obteno do grau de Mestre em Cincia da Computao. Orientadora: Prof. Dr. Maria Madalena Dias

MARING 2007

Dados Internacionais de Catalogao-na-Publicao (CIP) (Biblioteca Central - UEM, Maring PR., Brasil)
R114a Rabelo, Emerson Avaliao de tcnicas de visualizao para minerao de dados / Emerson Rabelo. -- Maring : [s.n.], 2007. 103 p. : il. color., figs. Orientadora : Prof. Dr. Maria Madalena Dias. Dissertao (mestrado) - Universidade Estadual de Maring. Programa de Ps-graduao em Cincia da Computao, 2007. 1. Minerao de dados. 2. Visualizao de informao. I. Universidade Estadual de Maring. Programa de Ps-graduao em Cincia da Computao. II. Ttulo.

CDD 21.ed. 006.312

EMERSON RABELO

AVALIAO DE TCNICAS DE VISUALIZAO PARA MINERAO DE DADOS

Dissertao apresentada ao Programa de Ps-Graduao em Cincia da Computao da Universidade Estadual de Maring, como requisito parcial para obteno do grau de Mestre em Cincia da Computao.

Aprovado em 05/09/2007

BANCA EXAMINADORA

Profa. Dra. Maria Madalena Dias Universidade Estadual de Maring DIN/UEM

Profa. Dra. Cllia Franco Universidade Estadual de Maring DIN/UEM

Prof. Dr. Jlio Cesar Nievola Pontifcia Universidade Catlica do Paran PPGIa/PUCPR

AGRADECIMENTOS Agradeo primeiramente a Deus pela fora nos momentos de dificuldades e, pela luz que iluminou e guiou meus passos direcionando-me no caminho da aprendizagem. Agradeo a minha me Josefa Benites Rabelo, pela sua dedicao e amor e ao meu pai Valentim Rabelo, que sempre me mostrou por meio de atitudes o valor da humildade e do trabalho. O meu irmo que sempre esteve presente e disposto a me ajudar em qualquer momento. Agradeo a minha Esposa Juliana F. Rabelo por estar ao meu lado em todos os momentos de alegria e dificuldades, pois sem a sua presena com certeza seria muito mais difcil. Agradeo a Deus mais uma vez, por ter colocado no meu caminho uma pessoa maravilhosa que minha orientadora professora Maria Madalena Dias, pela oportunidade, profissionalismo, no medindo esforos no apoio para realizao deste trabalho compartilhando o seu conhecimento. Agradeo a todos os professores que, de forma direta ou indireta, contriburam para este trabalho, principalmente a professora Cllia Franco pelo valor dos seus conhecimentos, conselhos e sua disposio. Agradeo ao meu Primo Heber Rabelo pela ajuda na finalizao deste trabalho. Agradeo aos funcionrios do Departamento de informtica em especial a Maria Ins Davano pela ajuda e pacincia. A todos que direta ou indiretamente contriburam para a realizao deste trabalho.

As invenes so sobretudo os resultados de um trabalho teimoso


Alberto Santos Dumont ( 1873-1932)
{inventor do avio e do relgio de pulso}

RESUMO
Nas ltimas dcadas, o constante avano na rea de Tecnologia da Informao (TI) tem viabilizado o armazenamento de grandes quantidades de dados. Viabilidade fornecida pelo baixo custo de dispositivos de armazenando, fcil acesso Internet, existncia de sistemas de informao e de ferramentas de gerenciamento. Com essa exploso no volume de dados, surge a necessidade de novas pesquisas para encontrar formas eficazes e inteligentes na busca de informaes teis. A minerao de dados uma rea de pesquisa que tem contribudo na busca de conhecimentos implcitos que possam dar suporte tomada de deciso. Na verdade, a minerao de dados faz parte de uma rea mais ampla que descoberta de conhecimento em banco de dados (Knowledge Discovery in Database - KDD). O processo KDD envolve vrias atividades que so divididas em trs etapas principais: pr-processamento, minerao de dados e ps-processamento. Na etapa de ps-processamento, o usurio final precisa interagir com o sistema para analisar os resultados obtidos. No entanto, ainda existe dificuldade no entendimento desses resultados. A utilizao de tcnicas de visualizao de informao tem se mostrado um meio de promover esse entendimento. Assim, este trabalho apresenta uma avaliao de tcnicas de visualizao de informao para representao dos resultados obtidos com a aplicao de tcnicas de minerao de dados. Esta avaliao foi realizada de acordo com o mtodo conhecido como Avaliao de Caractersticas, tendo como resultado a anlise da eficcia da utilizao de tcnicas de visualizao de informao geomtricas e iconogrficas, principalmente em relao aos resultados obtidos com a aplicao do algoritmo K-mdias.

Palavras-Chave: Descoberta de conhecimento em banco de dados. Visualizao de informao. Minerao de dados.

ABSTRACT
In the last few decades, constant advances in the field of Information Technology (IT) have enabled the storage of large quantities of data. This has been possible to the low costs of storage devices, easy access to the Internet, and the existence of information systems and management tools. With this surge in data volume, new researches become necessary in order to find efficient and intelligent methods when searching for useful information. Data mining is an area of research that has contributed in the search for implicit knowledge that can give support to decision-making. In reality, data mining is part of a broader field, Knowledge Discovery in Database (KDD). The KDD process involves several activities, which are divided into three main stages: data preparation, data mining and results analysis. In the results analysis stage, the final user needs to interact with the system in order to analyze the obtained results. However, there is much in difficulty in interpreting these results. The use of information visualization techniques has shown to be an effective way to promote better result interpretation. Thus, this study presents an evaluation of information visualization techniques for the display of results obtained through the application of data mining techniques. This evaluation was carried through in accordance with the known method as Evaluation of Characteristics, having as resulted the analysis of the effectiveness of the use of geometric and iconographic techniques of information visualization, mainly in relation to the results gotten with the application of the K-media algorithm.

Keywords: Knowledge Discovery in Database. Information visualization. Data mining.

LISTA DE ILUSTRAES

Figura 1.1 Processo de Desenvolvimento da Pesquisa ........................................................19 Figura 2.1 Processo KDD.....................................................................................................23 Figura 2.2 Associao entre conjunto de dados e classes ....................................................26 Figura 2.3 Algoritmo K-mdias ...........................................................................................31 Figura 2.4 Passos de execuo do algoritmo K-mdia.........................................................32 Figura 2.5 Processo simplificado de visualizao de informao auxiliada por computador ..................................................................................................................................................34 Figura 2.6 Modelo de referncia para visualizao .............................................................35 Figura 2.7 Exemplo de matriz de disperso .........................................................................38 Figura 2.8 Eixos da visualizao de disperso de dados 3D ................................................39 Figura 2.9 Exemplo de coordenadas paralelas com dados fictcios .....................................40 Figura 2.10 Exemplo de faces de chernoff...........................................................................41 Figura 2.11 Exemplo de um icone da visualizao Star Glyphs ..........................................42 Figura 2.12 Exemplo da visualizao de dados utilizando Star Glyphs...............................42 Figura 2.13 Exemplo de um icone da visualizao figura de aresta ....................................43 Figura 3.1 Ser humano como elemento central do processo KDD ......................................47 Figura 4.1a Coordenadas paralelas com 10.000 registros....................................................54 Figura 4.1b Coordenadas paralelas com 100.000 registros..................................................54 Figura 4.2a Disperso de dados tridimensional com 100 registros .....................................55 Figura 4.2b Disperso de dados tridimensional com 1.000 registros...................................55 Figura 4.2c Disperso de dados tridimensional com 10.000 registros .................................55 Figura 4.3a Faces de chernoff com 56 registros ..................................................................55 Figura 4.3b Faces de chernoff com 169 registros ................................................................55

Figura 4.4 Visualizao Figuras de aresta (Stick figure) .....................................................56 Figura 4.5a Coordenadas paralelas representando 100 registros com 10 atributos .............57 Figura 4.5b Coordenadas paralelas representando 100 registros com 34 atributos .............57 Figura 4.5c Coordenadas paralelas representando 100 registros com 100 atributos............57 Figura 4.6 Faces de chenorff com 15 atributos ....................................................................59 Figura 4.7a Coordenadas Star Glyphs com 10 atributos.....................................................59 Figura 4.7b Coordenadas Star Glyphs com 30 atributos.....................................................59 Figura 4.7c Coordenadas Star Glyphs com 80 atributos .....................................................59 Figura 4.7d Coordenadas Star Glyphs com 500 atributos...................................................59 Figura 4.8 Coordenadas Star Glyphs com 500 atributos.....................................................61 Figura 4.9 Matriz disperso de dado representando a base de dados mtcars....................64 Figura 4.10 Coordenadas paralelas representado base de dados mtcars...........................65 Figura 4.11 Matriz de Disperso Base de dados USarrests ...........................................66 Figura 4.12 Coordenadas paralelas - Base de dados USarrests ........................................67 Figura 4.13 Disperso de dados representando Correlao positiva, negativa e nula.........68 Figura 4.14 Correlao na visualizao de disperso de dados baseUSarrests ................68 Figura 4.15 Repr. de correlao positiva da visualizao de coordenadas paralelas ...........69 Figura 4.16 Repr. de correlao negativa da visualizao de coordenadas paralelas ..........69 Figura 4.17 Correlao e distribuio de valores em Coordenadas Paralelas......................69 Figura 5.1 Matriz de disperso (base de dados Uem/2005) .................................................76 Figura 5.2a Coordenadas paralelas representando 131 registros contendo valores nulos para o atributo sexo .........................................................................................................................77 Figura 5.2b Coordenadas paralelas representando 10 registros contendo valores nulos para o atributo sexo .........................................................................................................................77 Figura 5.3 Star Glyph representando os candidatos aprovados............................................78

Figura 5.4 Resultado do algoritmo K-mdias ......................................................................79 Figura 5.5 Coordenadas paralelas gerado pelo algoritmo K-means.....................................81 Figura 5.6 Coordenadas paralelas com destaque no eixo vertical que representa o atributo redao......................................................................................................................................82 Figura 5.7 Disperso de dados tridimensional representado resultado do algoritmo de agrupamento da base UEM-2005..........................................................................................83 Figura 5.8 Faces de chernof. Representando os Centrides dos grupos gerados pelo algoritmo K-mdias ..................................................................................................................84

LISTA DE TABELAS

Tabela 2.1 Tarefas e Mtodos de MD ..................................................................................29 Tabela 2.2 Visualizao de informao comparada visualizao cientfica......................34 Tabela 3.1 Tipo de dados para o atributo estado civil ..........................................................48 Tabela 3.2 Caractersticas de dados......................................................................................49 Quadro 4.1 Classificao da informao..............................................................................60 Quadro 4.2 Ranking dos atributos em relao percepo .................................................61 Tabela 4.1 Anlise de caractersticas das tcnicas de visualizao ......................................73

LISTA DE SIGLAS

KDD MD IHC VDM DW UEM

Knowledge Discovery in Databases Minerao de Dados Interao Humano-Computador

Visual Data Mining Data Warehouse Universidade Estadual de Maring

SUMRIO

1 INTRODUO ............................................................................................................................................... 16 1.1 OBJETIVOS ............................................................................................................................................... 17 1.2 JUSTIFICATIVA ....................................................................................................................................... 18 1.3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA............................................................... 18

1.3.1 Processo de Desenvolvimento da Pesquisa .......................................................... 19


1.4 ORGANIZAO DO TRABALHO .......................................................................................................... 21 2 FUNDAMENTAO TORICA.................................................................................................................. 23 2.1 INTRODUO .......................................................................................................................................... 23 2.2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD).............................................. 23 2.3 MINERAO DE DADOS........................................................................................................................ 26

2.3.1 Tarefas de minerao de dados ............................................................................ 27 2.3.2 Tcnicas de minerao de dados .......................................................................... 28 2.3.3 Algoritmo de Agrupamento.................................................................................. 30
2.4 VISUALIZAO DE INFORMAO ..................................................................................................... 34

2.4.1 Minerao Visual de Dados .................................................................................. 36 2.4.2 Tcnicas de Visualizao de Informao............................................................. 37

2.5 LINGUAGEM R......................................................................................................................................... 44 2.6 CONSIDERAES FINAIS...................................................................................................................... 45 3 ANLISE DE PARMETROS GERAIS PARA KDD ............................................................................... 47 3.1 INTRODUO .......................................................................................................................................... 47 3.2 FATOR HUMANO E DOMNIO DE APLICAO ................................................................................. 47 3.3 DOMNIO DE DADOS .............................................................................................................................. 48 3.4 CONSIDERAES FINAIS...................................................................................................................... 50 4 AVALIAO DE TCNICAS DE VISUALIZAO ................................................................................ 52 4.1 INTRODUO .......................................................................................................................................... 52 4.2 FONTES DE DADOS................................................................................................................................. 52 4.3 AVALIAO DAS CARACTERSTICAS ............................................................................................... 54

4.3.1 Escalabilidade ........................................................................................................ 54 4.3.2 Dimensionalidade .................................................................................................. 57 4.3.3 Tipos de dados........................................................................................................ 61 4.3.4 Interao................................................................................................................. 63 4.3.5 Interpretabilidade.................................................................................................. 65 4.3.6 Relacionamento entre os atributos....................................................................... 67 4.3.7 Correlao .............................................................................................................. 69

4.4 RESULTADOS E CONSIDERAES FINAIS .................................................................................... 72 5 APLICAO DE TCNICAS DE VISUALIZAO DE INFORMAO............................................. 76 5.1 VISUALIZAO DOS DADOS ORIGINAIS .......................................................................................... 76 5.2 VISUALIZAO DOS RESULTADOS DO ALGORITMO DE AGRUPAMENTO............................... 80 5.3 CONSIDERAE FINAIS ........................................................................................................................ 86 6 CONCLUSO E TRABALHOS FUTUROS ................................................................................................ 88 REFERNCIAS .................................................................................................................................................. 91 APNDICE A - ALGORITMOS DE AGRUPAMENTO................................................................................ 95 A.1 - ALGORITMO K-MDIAS EM PORTUGOL......................................................................................... 95 A.2 - FUNO DO ALGORITMO DE AGRUPAMENTO K-MDIA NA LINGUAGEM R........................ 96 APNDICE B - VISUALIZAO DE INFORMAO UTILIZANDO LINGUAGEM R........................ 98

B.1 - MATRIZ DE DISPERSO...................................................................................................................... 98 B.2 - DISPERSO DE DADOS TRIDIMENSIONAL (SCATTER PLOT 3D) ............................................... 99 B.3 - COORDENADAS PARALELAS.......................................................................................................... 101 B.4 - FACES DE CHERNOFF........................................................................................................................ 102 B.5 - STAR PLOT........................................................................................................................................... 103

16

1 INTRODUO
Diante de um cenrio com gigantesco acmulo de informaes, surge a necessidade de ferramentas computacionais apropriadas para gerenciar e analisar tais informaes. No mundo atual vem crescendo a participao dos computadores na sociedade em vrios ramos de atividades como econmica, cientfica, sade e social. Existem computadores prontos para armazenar o que foi efetuado, calculado, medido e decidido. No entanto, muitas decises so tomadas sem que haja conhecimento suficiente baseado em informaes provenientes dos dados acumulados em bases de dados de sistemas transacionais. Para atender este contexto, surge uma nova rea denominada Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Databases KDD), que uma rea da cincia da computao. A descoberta de conhecimento caracterizada como um processo complexo que tem por objetivo extrair conhecimento em grandes volumes de dado e composto por trs etapas principais: pr-processamento, minerao de dados e ps-processamento. A etapa de pr-processamento tem como objetivo a preparao dos dados para a aplicao de tcnicas de minerao de dados (MD). A etapa de minerao de dados realiza a busca efetiva por conhecimentos teis para suporte tomada de deciso. A etapa de ps-processamento abrange o tratamento e o entendimento dos conhecimentos obtidos na MD. Tal tratamento tem como objetivo viabilizar a avaliao da utilidade do conhecimento descoberto (FAYYAD; PIATESTKY; SHAPIRO, 1996a). Para facilitar o entendimento dos resultados da MD, necessrio o uso de tcnicas de visualizao de informao, que tem como objetivo possibilitar a introspeco de um conjunto de dados, fornecendo uma representao visual, evidenciando possveis fatos dentro do contexto de investigao (RODRIGUES, 2003). importante considerar no processo de visualizao, a escolha de qual tcnica deve ser empregada em determinada aplicao ou situao. O estudo de tcnicas de visualizao de informao em sistemas de KDD envolve as seguintes reas: Computao Grfica, Interface Humano-Computador, Banco de dados e MD.

17 As tcnicas de visualizao de informao tm por objetivo representar graficamente um determinado domnio de aplicao, de forma a explorar com alto desempenho o conhecimento deste domnio e a capacidade cognitiva do homem, facilitando a compreenso e a interpretao das informaes apresentadas, na busca de novos conhecimentos. Atualmente, existe certa dificuldade no entendimento e uso do conhecimento descoberto com a aplicao de tcnicas de minerao de dados. Esta dificuldade pode estar relacionada inexistncia de critrios de integrao de tcnicas visualizao de informao com tcnicas de minerao de dados. A utilizao mal empregada de tcnicas de visualizao em qualquer etapa do processo KDD pode gerar resultados insuficientes ou at mesmo incorretos, provenientes de erros de representao grfica. Na tentativa de sanar este tipo de problema, nesta pesquisa foi realizada a avaliao de tcnicas de visualizao de informao na representao de resultados obtidos com a aplicao de tcnicas de agrupamento.

1.1 OBJETIVOS
O objetivo geral avaliar tcnicas de visualizao de informao para proporcionar, aos desenvolvedores e utilizadores de sistemas de KDD, meios eficazes para a escolha de tcnicas adequadas na representao dos conhecimentos obtidos. Para atingir este objetivo, inicialmente foram identificadas caractersticas que influenciam na representao de informaes. Os objetivos especficos so: Apresentar os elementos tericos relacionados s tcnicas de minerao de dados e tcnicas de visualizao de informao; Selecionar caractersticas de tcnicas de visualizao capazes de conduzir escolha daquela mais adequada na representao de resultados obtidos na aplicao de tcnicas de agrupamento; Avaliar tcnicas de visualizao por meio das caractersticas selecionadas; Apresentar os resultados obtidos na MD utilizando tcnicas de visualizao, segundo as caractersticas selecionadas.

18

1.2 JUSTIFICATIVA
A busca de conhecimento em banco de dados abrange vrias reas de pesquisa, tais como: sistemas de informao, banco de dados, minerao de dados e visualizao de informao. A minerao de dados, que uma das etapas do processo KDD, utiliza vastos repositrios de dados (data warehouse - DW) para tentar descobrir se h algum conhecimento escondido entre os dados. Neste contexto, a rea de visualizao de informao, aliada minerao de dados, apresenta-se como um campo de estudo de grande utilidade. Esta agregao referenciada na literatura como minerao visual de dados (MVD), apresentada na Seo 2.4.1. A rea de visualizao de informao um campo emergente de pesquisa que se preocupa com a representao de informaes atravs de imagens grficas, que possam ser reconhecidas e facilitem o entendimento pelos seres humanos. O emprego da visualizao apropriada pode ajudar na capacidade de descoberta de padres, relacionamento de dados ou at mesmo resultados gerados por algoritmos utilizando tcnicas de minerao de dados. Porm, um mau emprego de tcnicas de visualizao pode comprometer o trabalho de descoberta de conhecimento. A avaliao realizada neste trabalho busca fornecer subsdios aos usurios e analistas de sistemas KDD na escolha da visualizao mais adequada. A sugesto sobre qual tcnica de visualizao de informao utilizar na descoberta de padres, relacionamento de dados e interpretao dos resultados gerados por algoritmos de minerao de dados, pode evitar erros na anlise desses resultados.

1.3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA


Esta pesquisa pode ser classificada como aplicada com procedimentos tcnicos experimentais. Menezes e Silva (2001, p. 20) classificam a pesquisa de natureza aplicada da seguinte forma: objetiva gerar conhecimento para aplicar prticas dirigidas soluo de problemas especficos. Do ponto de vista de procedimento tcnico experimental: determina-se um

19 objeto de estudo, selecionam-se as variveis capazes de influenci-lo, definem-se as formas de controle e de observao dos efeitos que a varivel produz no objeto. A metodologia adotada neste trabalho fundamentada no estudo de diversas tecnologias, as principais so: descoberta de conhecimento em banco de dados (Knowledge Discovery in Database KDD), minerao de dados (Data Mining - MD), tcnicas de visualizao de informao e linguagem R.

1.3.1 Processo de Desenvolvimento da Pesquisa


As principais etapas de pesquisa desta dissertao foram: reviso da literatura versando sobre KDD, MD, algoritmos de MD, tcnicas visualizao; definio das caractersticas das tcnicas de visualizao, avaliao das tcnicas de visualizao utilizando as caractersticas levantadas, aplicao da tcnica de visualizao em conjunto com minerao de dados e resultados alcanados. A Figura 1.1 representa as etapas do processo de desenvolvimento da pesquisa. Nesta Figura, esquerda esto relacionados s principais etapas da pesquisa e direita os elementos envolvidos em cada etapa. Atravs destas etapas foi possvel criar um ambiente de avaliao. 1) Reviso da Literatura A reviso da literatura englobou conceitos e caractersticas do processo KDD, minerao de dados, tcnicas de visualizao (projees geomtricas e iconogrficas) e tcnicas de interao. 2) Estudo e Seleo de Algoritmo de MD Nesta etapa foram estudados alguns algoritmos de agrupamento (K-mdias, Kmedoid, entre outros) e selecionado o algoritmo K-mdias, que um algoritmo amplamente utilizado na implementao da tarefa de agrupamento.

20
KDD, MD, Tcnica de visualizao, Interao na visualizao.

Reviso da literatura

Estudo e seleo de Algoritmo de MD

Selecionar o algoritmo de agrupamento. (K-Mdias, K-medoid Agnes, DBscan)

Identificao das caractersticas

Identificar caractersticas comuns a todas as tcnicas de visualizao de informao

Estudo da ferramenta

Linguagem R

Avaliao das tcnicas de visualizao

Avaliao das tcnicas de visualizao por meio das caractersticas comuns.

Uso de tcnicas de visualizao na MD

Mostrar o uso de tcnicas de visualizao de informao para representar resultados de minerao de dados

Figura 1.1: Processo de Desenvolvimento da Pesquisa.

3) Identificao das caractersticas. Esta etapa visou a identificao de caractersticas relevantes das tcnicas de visualizao de informao, tendo como base as vantagens, desvantagens e limitaes de sua utilizao. Aps essa identificao, foi realizado um filtro para selecionar somente as caractersticas comuns a todas as tcnicas, sendo descartadas aquelas de carter particular (caracterstica referente somente a uma visualizao).

4) Estudo de ferramentas Nesta etapa foram feitas pesquisas sobre ferramentas para manipulao de dados, que executem algoritmos de MD e projetem tcnicas de visualizao.

21

5) Avaliao das tcnicas de visualizao na MD A avaliao a verificao da eficincia na capacidade de exibir informaes realmente relevantes que facilitem a anlise, interpretao e compreenso do conjunto de informaes. Nesta etapa foram utilizadas as caractersticas propostas neste trabalho, selecionadas bases de dados e avaliadas as tcnicas por meio de sua implementao na Linguagem R. 6) Uso de tcnicas de visualizao. Esta etapa consistiu nos seguintes passos: Selecionar uma base de dados real; Projetar a base de dados utilizando visualizao de informao e elaborar algumas interpretaes; Aplicar o algoritmo de MD em bases de dados; Apresentar o resultado do algoritmo de MD em algumas visualizaes de informao, identificar padres e interpretar os resultados;

Para realizao desses passos, foi utilizada a linguagem R e o resultado obtido na etapa anterior.

1.4 ORGANIZAO DO TRABALHO


Alm deste captulo que apresenta a introduo, objetivos, justificativa e metodologia de desenvolvimento da pesquisa, este trabalho dividido em mais cinco captulos: No segundo captulo apresentada a fundamentao terica dos conceitos relativos ao processo KDD, minerao de dados, s tcnicas de visualizao de informao e ferramenta utilizada. No terceiro captulo so descritos os parmetros gerais (fator humano e domnio de dados), necessrios na realizao do processo KDD.

22 No quarto captulo descrita a avaliao realizada sobre as tcnicas de visualizao de informao. No quinto captulo mostrado o uso de tcnicas de visualizao de informao na anlise de dados e dos resultados obtidos na aplicao do algoritmo K-mdias, conforme as caractersticas avaliadas e descritas no captulo anterior. No sexto captulo so apresentadas a concluses e sugestes para trabalhos futuros.

23

2 FUNDAMENTAO TORICA 2.1 INTRODUO


Neste captulo so apresentados os principais conceitos tericos necessrios para o desenvolvimento deste trabalho, que so: processo KDD; minerao de dados; mtodos de agrupamento e algoritmo K-mdias; tcnicas de visualizao de informao e a linguagem R que foi a ferramenta utilizada neste trabalho.

2.2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)


O termo KDD foi formalizado em 1989 para atender os processos referentes busca de conhecimento a partir de bases de dados. Uma das definies mais populares foi proposta em 1996 por um grupo de pesquisadores (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 30):

KDD um processo, de vrias etapas, no trivial, interativo e iterativo, para identificao de padres compreensveis, vlidos, novos e potencialmente teis a partir de grandes conjuntos de dados. O termo Interativo indica a atuao do Homem para a realizao dos processos, sendo ele o responsvel por utilizar as ferramentas computacionais para anlise e interpretao dos dados. Para obter um resultado satisfatrio, necessrio muitas vezes repetir o processo de forma integral ou parcial, ou seja, o processo iterativo. A descoberta de conhecimento em base de dados o processo de extrao de conhecimento atravs de manipulao de dados. Feldens (1998 apud DIAS, 2001) define as seguintes etapas para KDD: Pr-processamento: Atividades que visam gerar uma representao conveniente para os algoritmos de minerao, a partir da base de dados. Inclui a seleo (automtica e/ou manual de atributos relevantes), amostragem, transformaes de representao, etc. Goldschmidt e Passos (2005) afirmam que esta etapa possui fundamental relevncia no processo KKD, e apresenta as seguintes funcionalidades para esta etapa: seleo de dados, limpeza dos dados, codificao dos dados, normalizao dos dados, construo de novos atributos e correo de prevalncia.

24 Minerao de dados: Aplicao de algoritmos de minerao aos dados prprocessados, ou seja, busca efetiva por conhecimentos teis a partir dos dados. Esta etapa detalhada na prxima seo. Ps-processamento: Seleo e ordenao das descobertas interessantes, mapeamentos de representao de conhecimento e gerao de relatrios. nesta etapa que o especialista em KDD e o especialista no domnio de aplicao avaliam os resultados obtidos e criam novas alternativas para novas investigaes de dados. Goldschmidt e Passos (2005) apresentam algumas operaes para a realizao desta etapa, tais como: simplificao do modelo de conhecimento, transformao do modelo de conhecimento e organizao e apresentao dos resultados. A Figura 2.1 ilustra um exemplo proposto por Fayyad, Piatestky e Smyth (1996a) que consiste em cinco passos bsicos: Seleo, Pr-Processamento, Transformao, Minerao de dados e Interpretao.

Figura 2.1: Processo KDD Fonte: adaptado de (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 29).

Seleo: os dados so escolhidos como um subconjunto de interesse, ou sumarizados em um subconjunto de amostragem. Os itens mais apropriados, segundo o analista, so escolhidos e prossegue-se com a descoberta de conhecimento. Pr-processamento: so utilizadas ferramentas para preparao dos dados visando deix-los em um formato mais apropriado para as prximas etapas. Aqui so tratadas distores, ausncia de dados ou, simplesmente, realizada uma reorganizao das informaes.

25

Transformao: os dados so processados e disponibilizados em uma forma diferente da original, mas ainda mantendo suas propriedades. O novo formato busca o melhor aproveitamento dos dados nas etapas seguintes. Como exemplo, tem-se a discretizao de dados, normalizao e reduo de dimensionalidade. Minerao de Dados: extrado conhecimento com o auxlio de mtodos computacionais capazes de revelar padres, estruturas, tendncias, etc. Diferentes mtodos podem ser usados em funo da natureza dos dados e das informaes que se desejam alcanar, como identificao de aglomerados, gerao de resumos e classificao. Interpretao: o resultado da minerao submetido apreciao do analista, que pode julgar necessrio refazer o processo, alterando uma ou todas as etapas anteriores. Podem ser utilizados outros conjuntos de interesse, outras tcnicas de pr-processamento/transformao ou ferramentas de MD adicionais. De uma forma geral, a complexidade que envolve o processo de KDD, decorre de diversos fatores que podem ser subdivididos em dois conjuntos (FAYYAD; PIATETSKY; SMYTH, 1996b): Fatores operacionais dificuldade de integrar diversos algoritmos especficos, manipulao de grande base de dados e tratamento dos resultados de forma ideal.

Fator de controle considera a complexidade de gerenciar e direcionar o processo KDD. Exemplos de dificuldades encontradas neste fator: formulao dos objetivos a serem alcanados, realizao do pr-processamento, seleo do algoritmo ideal para minerao de dados que satisfaa os objetivos, limitaes humanas, tais como:
o

capacidade limitada e memorizao de resultados, pois a cada momento surgem diversos resultados diferentes; dificuldade em interpretar resultados; conjugar tais interpretaes para tomada de deciso.

o o

Goldschmidt (2003) organiza as atividades realizadas na rea KDD em trs grandes grupos, que so:

26 Atividades voltadas ao desenvolvimento tecnolgico - abrange todas as iniciativas de concepo e desenvolvimento de recursos de apoio que possam ser utilizados na busca por novos conhecimentos em grandes bases de dados. Atividades de execuo de processos de KDD - refere-se s atividades voltadas busca efetiva de conhecimento em bases de dados. As ferramentas produzidas pelas atividades de desenvolvimento tecnolgico so utilizadas na execuo de KDD. Atividades envolvendo a aplicao de resultados obtidos em processos de KDD uma vez obtidos modelos de conhecimento teis a partir de grandes bases de dados, as atividades se voltam aplicao dos resultados no contexto em que foi realizado o processo de KDD. Exemplos comuns de aplicao de resultados so as alteraes em estratgias de negcios que tenham como objetivo procurar tirar proveito do conhecimento obtido. Tais alteraes podem variar desde o posicionamento de produtos nas gndolas de um mercado at polticas estratgicas corporativas.

2.3 MINERAO DE DADOS


Conforme j citado a minerao de dados pode ser considerada como uma parte do processo de KDD. Goldschmidt e Passos (2005) afirmam que este a principal etapa. Segundo Shimabukuru (2004), estima-se que a MD represente de 15% a 25% do processo de KDD. Nessa etapa que compreende a aplicao de algoritmo para extrair e ser capaz de identificar padres, estruturas, tendncias e revelar novidades que sejam teis e de interesse do usurio, vrios mtodos podem ser usados em funo da natureza dos dados e das informaes que se desejam alcanar. Minerao de dados tambm pode ser definida como a descoberta de informaes teis a partir de um conjunto de dados. Para a obteno dessas informaes, necessria a utilizao de tcnicas e tarefas de busca por relacionamentos e padres existentes entre os dados (DIAS, 2001). Nas prximas sees so descritas resumidamente as principais tarefas e tcnicas de MD.

27

2.3.1 Tarefas de minerao de dados


As tarefas correspondem aos problemas que podem ser tratados pela minerao de dados. As tarefas mais comuns so: Classificao: uma das tarefas mais importantes e populares conhecidas. Ela busca uma funo que permite associar corretamente cada registro (x) (Figura 2.2) de um banco de dados a um nico rtulo categrico de (y) chamado de classe. Exemplo: num levantamento de regies com probabilidade de existncia de mosquito da dengue. Sendo possvel criar classes de baixa, mdio e alto risco de contaminao. Exemplos (DIAS, 2001): Classificar pedidos de crdito. Identificar pedidos de seguros fraudulentos. Identificar a melhor forma de tratamento de um paciente.

X1 X2 X3 X4
Dados

Y1 Y2 Y3 Y4
Classes

Figura 2.2: Associao entre conjunto de dados e classes.

Associao: procuram encontrar associaes entre conjunto de valores. Um exemplo clssico determinar quais produtos costumam serem colocados juntos em um carrinho de supermercado. Outra definio, A tarefa de associao pode ser considerada uma tarefa bem definida, determinstica e relativamente simples, que no envolve predio da mesma forma que a tarefa de classificao (FREITAS, 2000 apud DIAS, 2000, p. 10). Exemplo: determinar quais produtos geralmente so colocados juntos em um carrinho de supermercado. Regresso: esta tarefa similar tarefa de classificao. Fundamentalmente ela busca por funes que mapeiem os registros de um banco de dados. Exemplos (DIAS, 2001):

28 estimativa da probabilidade de um paciente sobreviver, dado o resultado de um conjunto de diagnstico de exames; definio do limite do carto de crdito para cada cliente em um banco; estimativa do nmero de filhos ou a renda total de uma famlia; previso da demanda de um consumidor para um novo produto.

Agrupamento: Usado para particionar os registros de uma base de dados em subconjuntos ou clusters1. Nesta tarefa, no h classes predefinidas, os registros so agrupados segundo algum critrio de semelhana. Exemplos (DIAS, 2001): agrupar clientes por regio do pas; agrupar clientes com comportamento de compra similar; agrupar sees de usurios Web para prever comportamento futuro de usurio.

Sumarizao: consiste em identificar e apresentar, de forma concisa e compreensvel, as principais caractersticas dos dados em um conjunto de dados (DIAS, 2001). Exemplo: identificar as caractersticas dos candidatos de um concurso pblico: So pessoas com faixa etria entre X e Y anos, possuem casa prpria e nvel superior completo. Exemplos: tabular o significado e desvios padro para todos os itens de dados; derivar regras de sntese.

Aps a seleo de qual tarefa utilizar, deve-se tambm escolher o algoritmo, pois para cada tarefa existem diferentes algoritmos, alguns simples e outros mais sofisticados, como os algoritmos que utilizam redes neurais.

2.3.2 Tcnicas de minerao de dados


As tarefas de minerao de dados so desempenhadas por tcnicas de minerao de dados e diferentes tcnicas servem para diferentes propsitos (HARRISON, 1998). A seguir so descritas de forma sucinta as tcnicas de minerao de dados normalmente utilizadas: Descoberta de Regras de Associao introduzida por Agrawal, Imielinski e Swamil (1993), identifica conjuntos de itens que ocorrem simultaneamente e de forma freqente em
1

cluster um grupo de entidades que tm caractersticas similares e que compartilham certas propriedades.

29 banco de dados, esta tcnica estabelece uma correlao estatstica entre os itens de dados (GOEBEL; GRUENWALD, 1999). Existem diversos algoritmos desenvolvidos para aplicao de descoberta de regras de associao, dentre eles (GOLDSCHMIDT; PASSOS, 2005): Apriori, DHP (Direct Hashing and Pruning, Partiition, DIC ( Dynamic Itemset Counting), Eclat, Maxclique e Cumalte.

rvores de Deciso Tcnica que utiliza a recursividade para particionamento da base de dados na construo de uma rvore de deciso. Cada n no terminal desta rvore representa um teste ou deciso sobre o item de dado (GOEBEL;GRUENWALD, 1999). Os algoritmos que implementam esta tcnica so: CART, CHAID, C5.0, Quest, ID-3, SLIQ, SPRINT (DIAS, 2001). Raciocnio Baseado em Casos Procura solucionar problemas fazendo uso direto de experincias e solues passadas, a distncia dos vizinhos d uma medida da exatido dos resultados (DIAS, 2001). Algoritmos que implementam esta tcnica: BIRCH, CLIQUE. Algoritmos Genticos Muito til para problemas que envolve otimizao

(GOLDSCHMIDT; PASSOS, 2005). Procedimento interativo para construo de hipteses sobre a depedencia entre as variveis (GOEBEL; GRUENWALD, 1999). Algoritmos que implementam esta tcnica (DIAS, 2001): Algoritmo Gentico Simples, CHC, Algoritmo de Hillis, GA-Nuggets, GA-PVMINER. Redes Neurais Artificiais segue analogia do funcionamento de um crebro humano formando neurnios artificiais conectados (GOEBEL; GRUENWALD, 1999). As redes neurais no supervisionados so os mais adequados para realizao tas tarefas de agrupamento (GOLDSCHMIDT; PASSOS, 2005). Algoritmos desenvolvidos para estas tcnicas: Perceptron, Rede MLP, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (DIAS, 2001). Goldschmidt e Passos (2005) apresentam um resumo das tarefas de KDD de acordo com as tcnicas e algoritmos, Tabela 2.1:

30 Tarefas Associao Classificao Regresso Sumarizao Agrupamento Mtodos de MD Basic, Apriori, DHP, Partition, DIC, ASCX-2P Redes neurais: C4.5, Rough sets, algortimo genticos (Ex: Rule Evolver), Cart, K-NN, Classificadores Bayesianos. Redes Neurais (Ex: Back Propagation). C4.5, Algoritmo Gentico (Ex: Rule Evolver) K-Means, K-Modes, K-Prototypes, Fuzzy K-Means, Algoritmo Genticos, Redes Neurais (Ex: Kohonen), Clarans.
Tabela 2.1: Tarefas e Mtodos de MD Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p.116).

2.3.3 Algoritmo de Agrupamento


Tcnicas de agrupamento so empregadas para dividir os registros de uma base em subconjuntos, de tal forma que os registros que compartilham o conjunto tenham similaridades entre si e sejam distintos dos registros armazenados em outros conjuntos. As medidas de similaridades so pr-estabelecidas. Definio formal para agrupamento no fuzzy de acordo com Hruschka e Ebecken (2003), determina que um conjunto com n registros X = {X1, X2, ..., Xn}, onde Xi p um vetor de dimenso p que pode ser agrupado em k subconjuntos disjuntos C={C1,C2,....,CK}, desde que as seguintes condies sejam respeitadas: A unio dos subconjuntos forma o conjunto original - C1 C2 C3 ... Ck = X. Um registro no pode pertencer a mais de um subconjunto - Ci Cj = {}, i j, 1 i k e 1 j k. Cada subconjunto deve ter ao menos um objeto - Ci {}, i, 1 i k. Um algoritmo ideal que implementa a tarefa de agrupamento deve ser capaz de lidar com os atributos categricos, numricos e ordinais. Quando o algoritmo no atende a estes requisitos necessrio efetuar uma codificao de dados2.

Codificao de dados: operao de pr-processamento responsvel pela forma como os dados sero representados durante o processo KDD (GOLDSCHMIDT; PASSOS ,2005).

31 Para anlise de agrupamento existem diferentes critrios que medem a similaridade entre os registros, porm, para realizao deste trabalho foi utilizado o mtodo de agrupamento onde a distncia entre dois registros expressa pela distncia euclidiana na seguinte frmula:

Sendo, d - resultado do clculo (distncia); i , j representam os dois registros selecionados; p nmero de variveis (dimenso); No somente o mtodo que calcula a distncia entre registros que diferenciam os algoritmos de agrupamento, eles tambm podem ser diferenciados de acordo com o mtodo de formao, tais como: (Partio, Hierrquico, Baseado em modelo, Baseado em Grade e Baseado em Densidade). Este trabalho trata somente do algoritmo que utiliza o mtodo de partio (Kmdias). O mtodo de partio permite que os registros em anlise sejam movidos de um grupo para outro grupo em diferentes etapas que ocorrem no processamento do algoritmo, na tentativa de buscar de forma direta a diviso aproximadamente tima dos registros. De acordo com Goldschmidt e Passos (2005), o algoritmo mais popular para realizao da tarefa de agrupamento o K-mdias proposto em 1967 por J. MacQueen (DINIZ; LOUZADA NETO, 2000 apud PRASS 2004, p. 38) que utiliza o mtodo de partio. Este Algoritmo possui diversas variaes, tais como: K-modes, K-Prototypes e Kmedoids. Em geral estas variaes diferem no clculo da similaridade entre os grupos encontrados e o elemento ou na estratgia para calcular a mdia dos grupos. O algoritmo K-mdias faz uso de dados numricos, selecionando k elementos para formao inicial dos centrides (elementos centrais) do grupo. Esta seleo pode ser realizada das seguintes formas: Selecionando randomicamente k elementos. Selecionando os k primeiros elementos. Selecionar k elementos de tal forma que seus valores sejam bem diferentes.

32 Aps a seleo dos centrides, calculada a distncia de cada elemento (registro da base) em relao aos centrides, sendo considerada a menor distncia encontrada para efetuar o agrupamento. O processo termina somente quando todos os elementos estejam agrupados. A Figura 2.3 apresenta um resumo do funcionamento do algoritmo K-mdias:
Escolher k-centrides

Calcular distncia dos grupos

Selecionar a menor distncia

Atribuir objeto ao grupos

Atualizar grupos

Houve mudana na configurao dos grupos ?

Sim

No
Apresentar grupos

Figura 2.3: Algoritmo K-mdias Fonte: Goldschmidt e Passos (2005, p. 104)

A Figura 2.4 mostra um exemplo da execuo do algoritmo de agrupamento K-mdias, formando dois grupos, com os seguintes elementos: (4,7,8,2,5,3,9). Para definio dos centrides, podem ser utilizados os critrios citados acima, porm neste exemplo foram selecionados os dois primeiros elementos e, posteriormente, utilizou-se a mdia para a formao dos novos centrides.

33

a)
{8,2,5,3,9} grupo 1 (4) grupo2 (7)
Centride - 1 (4) Centride - 2 (7)

b)
{2,3,4,9} grupo 1 (4) grupo 2 (7, 8)
Centride - 1 (4) Centride - 2 (7,5)

c)
{5,3,9} grupo 1 (4,2) grupo 2 (7,8)
Centride - 1 (3) Centride - 2 (7,5)

d)
{3,9} grupo 1 (4,2,5) grupo 2 (7,8)
Centride - 1 (3,6) Centride - 2 (7,5)

e)
{9} grupo1(4,2,5,3) grupo2(7,8)
Centride - 1 (3,5) Centride - 2 (7,5)

f)
{} grupo1(4,2,5,3)grupo2(7,8,9)
Centride - 1 (3,5) Centride - 2 (8)

Figura 2.4: Passos de execuo do algoritmo k-mdia.

Descrio dos passos da execuo do algoritmo K-mdias da Figura 2.4: Os dois primeiros elementos do conjunto formaram dois grupos e foram utilizados como centrides. O prximo elemento selecionado e verifica-se qual centride tem o valor mais prximo ao seu valor, o elemento adicionado ao grupo e calculado o novo valor para o centride, assim por diante. Esgotados os elementos, termina-se o processo. Resultado: grupo 1 com os seguintes elementos (4,2,5,3) grupo 2 com os seguintes elementos (7,8,9). Este algoritmo apresenta atributos confiveis, porm foram identificados os seguintes problemas: No consegue determinar se h realmente apenas k grupos distintos (PINHEIRO, 2006) (este problema comum a todos algoritmos de agrupamento). O fato do usurio ter que especificar o nmero de grupos visto como uma desvantagem, sendo necessria a realizao de diversos experimentos (GOLDSCHMIDT; PASSOS, 2005). sensvel a rudos (outliers), j que pequena quantidade de dados inconsistentes ou diferentes, em relao ao conjunto de dados formado, pode influenciar substancialmente na formao dos grupos (CARLANTONIO, 2001).

34 No adequado para descobrir grupos com tamanhos muitos diferentes (CARLANTONIO, 2001). Exige que os dados sejam do tipo numrico ou binrio (HUANG, 1997).

2.4 VISUALIZAO DE INFORMAO


No mundo contemporneo, a facilidade de coletar e armazenar informaes se tornou uma tarefa de certo modo trivial, mas quando se trata de extrair conhecimentos em grandes bases de dados esta tarefa torna-se complexa. Desta forma muitos pesquisadores tm se motivado a descobrir recursos, mtodos e tcnicas para facilitar a descoberta de conhecimento e, tambm, o entendimento desses conhecimentos. As tcnicas de visualizao de informao podem ser usadas para facilitar esse entendimento. Elas baseiam-se na capacidade humana de percepo e cognio. A interao do ser humano faz parte do processo que envolve visualizao de informao. O sistema de percepo humano analisa eventos complexos com rapidez, reconhece automaticamente propriedades no usuais e, ao mesmo tempo, desconsidera propriedades sem interesse. Combinando aspectos de computao grfica, interao humano-computador (IHC) e minerao de dados, possvel criar um modelo de visualizao de informao em modo grfico para que o usurio, utilizando sua viso, consiga interpretar as informaes de forma rpida. No tendo o mesmo efeito se fosse apresentado no formato original (tabelas). Na literatura foram encontrados dois ramos que tratam as visualizaes de informao: visualizao de dados cientficos e visualizao de informao (RODRIGUES, 2003). A Tabela 2.2 ilustra as diferenas entre os parmetros das tcnicas de visualizao de informao e cientifica.
Usurio
Visualizao cientifica Especializado, altamente tcnico Visualizao de informao Usurio comum, especializado e altamente tcnico

Tarefa
Profundo entendimento dos fenmenos cientficos Busca, descoberta de relaes

Entrada
Dados fsicos, medidas, resultados de simulao Relaes, dados nofsicos, informao

Volume
Pequeno a volumoso

Pequeno a volumoso

Tabela 2.2: Visualizao de informao comparada visualizao cientfica. Fonte: adaptado de (GERSHON E EICK, 1997, p.29)

35 Visualizao de dados cientficos que provem de dados que correspondem a medidas associadas a objetos fsicos, fenmenos ou posio num domnio espacial. Um exemplo desta visualizao poderia ser um fluxo de ar sobre as asas de um avio, tendo informaes no formato de vetores 3D amostrado periodicamente em um experimento aeronutico, sendo este fenmeno representado atravs de flechas que indicam a direo do fluxo de ar posicionado em relao s asas do avio. Visualizao de informaes procura representar graficamente dados de um determinado domnio de aplicao. Exemplo deste tipo uma base de dados de pacientes de um hospital, com nome, sexo e nmero de internaes e consultas, data de nascimento e naturalidade. Estes dados so considerados abstratos e necessita de um mapeamento para representao grfica, assim poder ser revelada informao interessante para um determinado propsito. A Figura 2.5 demonstra um processo automatizado de visualizao de informao.

Figura 2.5: Adaptao do processo simplificado de visualizao de informaes auxiliada por computador. Fonte: Nascimento e Ferreira (2005, p. 1268).

Embora a visualizao de dados cientficos seja uma rea muito interessante, o foco desta proposta est na realizao de visualizao de informaes de dados abstratos. Entretanto, Rhyne (2003 apud SHIMABUKURU, 2004, p.12) questionam a necessidade de diferenciao entre visualizao cientfica e de informao em virtude do uso intercambiado das tcnicas de visualizao, particularmente em domnios emergentes, como visualizao geogrfica e visualizao em bioinformtica. A Figura 2.6 exibe graficamente um modelo de referncia para desenvolvimento de sistemas de visualizao de informao. A direo das setas da esquerda para direita representa a transformao dos dados brutos em transformaes visuais para interpretao humana. As

36 setas da direita para esquerda representam a modificao de cada etapa das transformaes e do mapeamento visual realizado pelo ser humano.

Figura 2.6: Modelo de referncia para visualizao Fonte: Adaptado (CARD; MACKINLAY, 1999, p.232).

2.4.1 Minerao Visual de Dados


A integrao de tcnicas de minerao de dados e visualizao de informao referenciada na literatura como minerao visual de dados (Visual Data Mining - VDM), ocorrendo um balanceamento entre o processo automtico e o interativo (WONG, 1999; KEIM, 2002; SHIMABUKURU, 2004). A Minerao Visual de Dados aproxima o usurio e o processo de descoberta de conhecimento em termos de tcnicas de visualizao eficientes, capacidade de interao e transferncia de conhecimento. A visualizao de informao no capaz de substituir as tcnicas convencionais de MD, mas existem possibilidades nicas que no podem ser desprezadas, ou seja, as duas tcnicas unidas podem potencializar enormemente a explorao de informao, observando que a utilizao intercalada pode causar penalidades relativas s deficincias e limitaes de cada uma (WONG, 1999). O mesmo autor define duas formas de integrao das tcnicas de visualizao, que so: Acoplamento forte, onde a visualizao e o processo analtico so integrados em uma nica ferramenta, aproveitando os pontos fortes de cada uma das reas. Acoplamento fraco, onde as reas so simplesmente intercaladas, possibilitando um aproveitamento parcial do potencial de cada uma delas no uso em conjunto. De acordo com Han e Kamber (2000 apud BARIONI, 2002, p. 22), a visualizao e minerao de dados so processos que podem ser integrados das seguintes formas:

37 Dados armazenados em banco de dados podem ser visualizados sob diferentes nveis de abstrao, podendo ser utilizadas diferentes combinaes de atributos. As formas visuais utilizadas podem ser cubos 3D, curvas, superfcies, grafos ligados e outras. Os resultados da minerao de dados podem ser visualizados por meio de formas visuais. Visualizar as etapas do KDD de forma que o usurio possa acompanhar o processo desde a extrao dos dados at a apresentao do resultado. Minerao de dados visual (VDM Visual Data Mining): Ferramentas de visualizao de informao podem ser utilizadas tanto para extrair conhecimentos quanto para a anlise dos resultados obtidos com a aplicao de alguma tcnica de minerao de dados. Em casos que envolvem grande volume de dados, o usurio pode selecionar pores da base de dados de interesse utilizando tcnicas de visualizao de informao, diminuindo assim a rdua tarefa exercida no entendimento dos resultados de MD para grande volume de dados.

2.4.2 Tcnicas de Visualizao de Informao


As tcnicas de visualizao de informao podem ser utilizadas como mecanismos que auxiliam a compreenso dos resultados da minerao de dados. A seguir so descritas as tcnicas de visualizaes de informao selecionadas. Antes, porm, so feitos alguns comentrios relativos ao conceito de foco/contexto e de tcnicas de interao (RUSSO; GROS; ABEL, 1999; NASCIMENTO; FERREIRA, 2005). O conceito foco\contexto apresenta uma viso geral dos dados a serem visualizados, mas destacando uma regio de interesse (foco) atravs de uma ampliao. Exemplos de tcnica que utilizam estes conceitos: Fish-eye e Browser Hiperblico. o Fish-eye - consiste numa representao de uma lente que aumenta os objetos que esto prximos, enquanto mostra os objetos circundantes com menos detalhes. o Browser Hiperblico utilizado nas tcnicas de visualizao que representam rvores, auxiliando a explorao das hierarquias.

38 As tcnicas de interao tm o intuito de facilitar o processo de compreenso dos dados, auxiliando o usurio na explorao e criando outras possibilidades de visualizao. A Figura 2.6 apresenta um modelo de visualizao de informao que permite a insero do humano na transformao dos dados, no mapeamento visual e na transformao das vises. As tcnicas de interao que podem ser utilizadas em tcnicas de visualizao so as seguintes: Projeo interativa: redefine as projees dinmicas geradas a partir de um conjunto multidimensional. Filtragem interativa: o usurio filtra a poro de dados mais interessante e efetua comparaes entre as mesmas. Zoom interativo: possibilidade de expandir ou diminuir os elementos de visualizao. Distoro interativa: a deformao dos elementos visuais de maneira que as propriedades visuais no sejam perdidas. Concluindo, a visualizao de informao, alm de transmitir conhecimentos, tem um grande potencial para receber comandos, tais como, por exemplo: controlar a quantidade de dados na tela, alterar a representao da visualizao e ajustar escalas. Keim e Kriegel (1996) descrevem tcnicas de visualizao de informao multidimensional agrupando-as nas categorias de tcnicas geomtricas, iconogrficas, hierrquicas e orientadas a pixel. No entanto, neste trabalho foram utilizadas somente as visualizaes pertencentes s tcnicas de visualizao de informao geomtricas e iconogrficas, que se demonstrou adequada para projeo do resultado do algoritmo de agrupamento. Essas tcnicas so descritas a seguir.

a) Tcnicas de Projees Geomtricas


As visualizaes existentes nessa tcnica tentam gerar projees bidimensional e tridimensional em base de dados multidimensionais, com intuito de revelar informaes de interesse. Dentre estas tcnicas encontram-se: matriz de disperso, grfico de disperso de dados em trs dimenses (Scatter plot 3D) e coordenadas paralelas.

39

Matriz de Disperso
Esta visualizao a mais antiga, popular e muito utilizada para representao de dados de alta dimensionalidade em uma representao bidimensional (SHIMABUKURU, 2004; NASCIMENTO; FERREIRA, 2005). A matriz de disperso permite a visualizao do relacionamento entre os atributos. Para isto, esta visualizao projeta os atributos aos pares formando clulas associadas a dois atributos que so mapeados pelo eixo x (linha horizontal) e eixo y (linha vertical), conforme ilustrado na Figura 2.7, que foi gerada com auxlio da linguagem R (ferramenta discutida mais adiante). Para a projeo da visualizao da matriz de disperso so necessrias n(n-1)/2 clulas para representar uma base de dados com n atributos.

Figura 2.7: Exemplo de matriz de disperso - (linguagem R)

40

Grfico de Disperso de Dados 3D - (Scatter Plot 3d)


Esta visualizao consiste em projetar registros de uma base de dados representados por pontos num plano e os atributos representados por eixos. sendo a posio dos pontos dependente dos eixos que formam as dimenses da visualizao (KOSARA; SAHLING; HAUSER, 2004). Grfico de disperso de dados uma visualizao popular e muito conhecida utilizada para mapear dados multidimensionais utilizando coordenadas (FEKETE; PLAISANT, 2002). Esta visualizao em trs dimenses projeta, num espao tridimensional, o relacionamento de trs atributos da base de dados, representado pelas coordenadas X, Y e Z, conforme ilustrado na Figura 2.8. Um dos intuitos desta visualizao revelar os dados de maneira experimental a fim de determinar os pontos de concordncia (KOSARA; SAHLING; HAUSER, 2004). Este mtodo grfico muito eficiente para determinar se existe uma relao, padro ou tendncia entre variveis. Esta visualizao permite a insero de propriedades visuais (cor, tamanho, forma, orientao e etc...), aumentando desta forma o nmero de atributos que podem ser representados.

Figura 2.8: Eixos da visualizao de disperso de dados 3D - os registros so representados pelas esferas.

41

Coordenadas Paralelas
A visualizao de Coordenadas Paralelas, proposta por Inselberg e Dimsdale (1990), consiste em mapear um espao n-dimensional em uma estrutura bidimensional que utiliza n eixos eqidistantes denominados coordenadas (BENDIX; KOSARA; HAUSER, 2005; NASCIMENTO; FERREIRA, 2005). Os eixos verticais representam as dimenses ou atributos de dados. Uma linha representa cada item de dado conectado aos eixos com os seus respectivos valores, permitindo a viso de padres, conforme ilustrado na Figura 2.9. Os eixos verticais so padronizados em uma escala que varia do menor ao maior valor do atributo. Para representar uma base de dados com x atributos, x = (x1 ,x2 ,...,xn ), necessita-se a mesma quantidade de coordenadas, isto , a representao de x1 na coordenada 1, x2 na coordenada 2 e assim por diante at a representao de xn na coordenada n. Uma vantagem desta visualizao de informao a representao de todos os atributos em uma mesma visualizao, permitindo fazer interpretaes visuais entre os atributos, exemplo: a visualizao da Figura 2.9 permite observar que a maioria das pessoas relacionadas tem aproximadamente 30 anos, sendo a maior parte delas do sexo feminino, residentes na zona 7 e que obtiveram notas prximas a 10,0.

Ana Maria Joo Ricardo Paula Ktia Carla Flavia Nome

Acima 60 50 40 F 30 20 Idade Sexo Zona 7 0 Bairro Nota M Zona 5 Centro Aeroporto


10,

7,5 5,0 2,5

Figura 2.9: Exemplo de Coordenadas Paralelas com dados fictcios.

42

b) Tcnicas Iconogrficas
Estas tcnicas trabalham com objetos geomtricos com aparncia paramtrica que podem ser mapeados a atributos de uma base de dados (ESTIVALET; FREITAS, 2000). A idia mostrar as caractersticas essenciais de um domnio de dados, por meio de cones. Elas tambm so utilizadas para representaes multidimensionais e podem ser compostas por atributos geomtricos (forma, tamanho e orientao) e atributos de aparncia (cor e textura), que podem ser associados aos itens de dados em anlise. Algumas das visualizaes classificadas como tcnicas iconogrficas so: Faces de Chernoff, Star Glyphs e Figura de Arestas (Stick Figure).

Faces de Chernoff
Um dos primeiros trabalhos utilizando uma tcnica baseada em cones foi realizado por Chernoff (1973). Este autor observou que o ser humano tem sensibilidade a uma grande variedade de expresses faciais. Assim, ele sugeriu que cones pudessem ser representados por faces, associando suas propriedades (tais como as formas da boca, cabelo e olhos) com atributo de dados. Este tipo de visualizao denominado Faces de Chernoff. A Figura 2.10 mostra um exemplo de representao de Faces de Chernoff, que representam uma base de dados contendo notas dos alunos de uma escola. So exemplos do mapeamento de propriedades do cone com os atributos da base de dados: cores das faces associadas ao sexo (azul-masculino ou rosa-feminino); a curva da boca representando a situao (aprovado e reprovado); a quantidade de cabelos representando o valor das notas.

Figura 2.10: Exemplo de Faces de Chernoff Fonte: adaptado de (NASCIMENTO; FERREIRA , 2005, p. 1268).

43

Star Glyphs
Star Glyphs uma visualizao que combina coordenadas paralelas com cones (LEE; REILLY; BUTAVICIUS, 2003). Esta visualizao consiste na representao de p 2 atributos projetados em duas dimenses. Um crculo construdo para servir como referncia e do seu centro so projetadas linhas que representam os p atributos que emanam como raios formando uma estrela, como ilustrado na Figura 2.11. Para uma melhor observao, os raios so conectados com uma linha. O tamanho do raio representa o valor do atributo. (JOHNSON; WICHNER, 1982; NASCIMENTO; FERREIRA, 2005).

Figura 2.11: Exemplo de um cone da visualizao Star Glyphs.

A Figura 2.12 ilustra a visualizao Star Glyphs representando a quantidade de atividades acadmicas de um grupo de professores. Cada estrela representa um professor, sendo os raios as diferentes atividades acadmicas que ele realiza. A extenso do raio ilustra a quantidade da atividade. Por meio desta visualizao possvel verificar quais professores tm um maior ou menor destaque, ou seja, realizam maior nmero ou menor nmero de atividades.

Figura 2.12: Exemplo da visualizao de dados utilizando Star Glyphs. Fonte: Nascimento e Ferreira (2005, p. 1301).

44

Figura de Arestas (Stick Figure)


Consiste em segmentos de linhas denominados ramos que possuem trs parmetros: ngulo, intensidade e comprimento. Estes parmetros podem ser utilizados para representar os atributos de dados. As ligaes dos ramos formam um cone. A Figura 2.13 ilustra um exemplo de cone da visualizao Figura de Arestas.

Figura 2.13: Exemplo de um cone da visualizao figura de arestas.

2.5 LINGUAGEM R
Foi necessrio pesquisar ferramentas para auxiliar na avaliao das tcnicas de visualizao, considerando a capacidade de exibir informaes que facilitem a anlise, interpretao e compreenso de um conjunto de informaes. Durante o desenvolvimento da pesquisa, verificou-se que as ferramentas avaliadas eram muito especficas para resoluo de determinados problemas e que para cada avaliao necessitaria usar uma nova ferramenta ou tentar adaptar uma j conhecida, tornando o trabalho dispendioso. Outra questo levada em considerao na escolha da ferramenta de visualizao foi o fato das informaes serem resultados da aplicao de algoritmos de minerao de dados. Seguindo este raciocnio, a Linguagem R foi escolhida por fornecer tanto funes que implementam algoritmos de minerao de dados quanto a possibilidade de gerao de visualizaes. R uma linguagem de programao especializada em computao com dados e ao mesmo tempo um ambiente para clculos estatsticos e gerador de grficos. Trata-se de uma

45 linguagem gratuita sob os termos da Licena Pblica Geral GNU 3, criada por Ross Ihaka e Robert Gentleman na universidade de Auckland em Nova Zelndia e atualmente mantida pela comunidade de desenvolvedores espalhada pelo mundo (THE R, 2007). A linguagem R, como qualquer outra linguagem de programao, permite a criao de novas funcionalidades utilizando a linguagem C. Isto , tem seu cdigo fonte aberto que pode ser estendido para outras linguagens de programao (Python, Perl e Java). Alm disso, possvel inserir funcionalidades da linguagem R em programas escritos em outras linguagens, fazendo com que diferentes linguagens possam utilizar o seu poder estatstico e de gerao de grficos. A instalao da linguagem R fornece um conjunto de pacotes (julgados pela sua importncia ou de uso comum) que so carregados quando a sua execuo. Esses pacotes contm as funcionalidades que foram desenvolvidas e disponibilizadas para a comunidade, porm, para realizao deste trabalho foi necessria a utilizao de outros pacotes que no esto presentes na instalao da linguagem. Geralmente, os algoritmos de minerao de dados geram resultados que necessitam de interpretao. Para que esses resultados sejam projetados, necessrio adapt-los aos formatos dos parmetros de entrada da funcionalidade de gerao de visualizao. A linguagem R contm diversos pacotes, dentre eles: manipulao de dados, algoritmo de MD e tcnicas de visualizao. Apesar de no existirem ligaes entre as funes existentes nos pacotes (por este motivo, a necessidade de adaptao para realizar a comunicao entre as funes), todo o trabalho realizado num mesmo ambiente. O termo ambiente refere-se categorizao de R como um sistema planejado e coerente, em vez de uma aglomerao de ferramentas especficas.

2.6 CONSIDERAES FINAIS


Analisando os diferentes objetivos dos algoritmos para executar as tarefas de minerao de dados, pode-se concluir que seus resultados podem colaborar em diversos domnios de
A GNU (Licena Pblica Geral) - Garante a liberdade de compartilhamento e alterao de software de livre distribuio.
3

46 aplicao. No entanto, o uso desses algoritmos ainda requer mais aperfeioamento, pois muitas vezes o usurio necessita repetir o mesmo processo com parmetros diferentes que no podem ser alterados no meio da execuo. Isto pode ocorrer por falta ou uso inadequado de ferramentas de visualizao de informao. O uso adequado de tcnicas de visualizao de informao pode diminuir esta quantidade de ciclos de tentativas e erros. O entendimento dos processos KDD (conceitos bsicos e tcnicas) fornece subsdio para identificao das etapas nas quais possvel inserir tcnicas de visualizao de informao, por exemplo: selecionar uma visualizao adequada etapa de pr-processamento com o objetivo de facilitar a eliminao de redundncia, correo de erros e verificao de valores ausentes. Neste captulo foram apresentados conceitos referentes s reas de descoberta de conhecimento em banco de dados e minerao de dados e algumas visualizaes de informao, classificadas como tcnicas de projeo geomtricas e tcnicas iconogrficas, utilizadas na avaliao proposta neste trabalho. Alm disso, foi descrita sucintamente a Linguagem R que propiciou esta avaliao.

47

3 ANLISE DE PARMETROS GERAIS PARA KDD 3.1 INTRODUO


De acordo com Fayyad, Piatestky e Smyth (1996a), para cada etapa do processo KDD (prprocessamento, minerao de dados e ps-processamento), existem vrias opes que podem ser selecionadas. Essas opes esto relacionadas a fator humano, domnio de aplicao e domnio de dados. Assim, neste captulo apresentada uma discusso sobre estes fatores.

3.2 FATOR HUMANO E DOMNIO DE APLICAO


A presena humana na escolha e combinao das opes de cada etapa do processo KDD essencial devido, principalmente, a sua intuio, experincia anterior e conhecimentos para analisar, interpretar, direcionar e combinar estratgias a serem realizadas. Fayyad, Piatestky e Smyth (1996a) e Goldschmidt e Passos (2005) consideram o especialista no domnio de aplicao como um dos principais componentes necessrios para melhor compreenso do processo KDD. Goebel e Gruenwald (1999) relacionam fatores humanos necessrios a cada etapa do processo KDD. Eles so classificados como: especialista em minerao de dados, em KDD, no domnio da aplicao e usurios finais (engenheiros, gerentes, administradores, etc.). Obviamente a existncia de profissionais diferentes nestes estgios exige demandas diferentes e trazem pr-requisitos diferentes. Geralmente, os usurios finais no tm capacidade de efetuar uma anlise complexa nos dados, mas naturalmente eles tm um grande conhecimento do domnio da aplicao. De forma geral, o ser humano que executa a difcil tarefa de orientar e executar o processo KDD, conforme ilustrado na Figura 3.1. Goldschmidt e Passos (2005) apresentam o especialista em KDD como pessoa ou grupo de pessoas experientes para direcionar a execuo do processo, que define o que, como e quando deve ser realizada cada ao. O especialista em KDD interage com o especialista no domnio de aplicao.

48

Meta

Insight

Consultas

Analise e Visualizao

Apresentao

Banco de dados

Dados processados

Sadas

Figura 3.1: Ser humano como elemento central do processo de KDD. Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p. 22).

Mesmo que o processo KDD seja automatizado, o fator humano essencial para o sucesso de sua realizao, porque ele que tem a compreenso do domnio dos dados (natureza, forma e contedo), sendo pr-requisito indispensvel na abstrao de qualquer conhecimento til. Na etapa de pr-processamento, por exemplo, necessrio o conhecimento sobre o domnio da aplicao e domnio de dados para facilitar a organizao, limpeza e seleo do conjunto de dados.

3.3 DOMNIO DE DADOS


Um exemplo sobre a necessidade do conhecimento do domnio de dados o fato de no ser possvel fazer uma classificao utilizando somente o tipo de dados que foi determinado para o atributo (integer, float, string, char, boolean e etc), pois necessrio ter o conhecimento do seu valor. Este o caso do atributo que representa o estado civil, onde pode no existir um padro do tipo de dado que deve ser utilizado, podendo ser representado de vrias formas, conforme a Tabela 3.1 abaixo:

49

Tipo de dados Atributo Solteiro Casado Vivo Integer 0 1 2 Char S C V D String solteiro casado viuvo divorciado

Divorciado 3

Tabela 3.1: Tipo de dados para o atributo estado civil.

O valor do atributo pode ser representado por dois tipos de dados (qualitativo e quantitativo), encontrados na maioria dos repositrios de dados de um sistema de informao. Os dados quantitativos so representados por valores numricos que podem ser de duas naturezas: discreta ou contnua. Os valores de natureza discreta referem-se s contagens, por exemplo: nmero de acidentes com veculos registrados por ms. Os valores de natureza contnua referem-se s representaes em escala, por exemplo: rea, volume, peso e velocidade. Os dados qualitativos so utilizados para nomear e atribuir rtulos, identificando caracterstica, qualidade e categoria do atributo, podem ser de natureza nominal ou ordinal. No h uma ordenao nos valores de natureza nominal, desta forma s possvel definir uma relao de igualdade ou diferena, por exemplo: estado civil (casado, divorciado, solteiro, vivo). Os valores de natureza ordinal possibilitam ordenar as categorias, por exemplo: nvel de escolaridade, temperatura (frio, morno e quente). Desta forma, os valores do atributo que representa estado civil, apresentando na Tabela 3.1, podem ser classificados como sendo qualitativos de natureza nominal, pois no possuem uma ordem entre seus valores. O tipo de dado tambm influencia na escolha da tcnica de minerao. Dias (2002) apresenta uma classificao das tcnicas de minerao de dados a serem aplicadas de acordo com as caractersticas dos dados existentes, conforme pode ser visto na Tabela 3.2.

50 Tcnicas de Minerao de Dados Variveis de So campos que apresentam valores de Descoberta de categorias um conjunto de possibilidades limitado e regras de associao predeterminado rvores de deciso Variveis numricas So aquelas que podem ser somadas e Raciocnio baseado ordenadas em casos (MBR) rvores de Deciso Muitos campos por Este pode ser um fator de deciso da rvores de deciso registro tcnica correta para uma aplicao especfica, uma vez que os mtodos de minerao de dados variam na capacidade de processar grandes nmeros de campos de entrada Variveis Caso em que desejado prever vrias Redes neurais dependentes variveis diferentes baseadas nos mltiplas mesmos dados de entrada Registro de Apresentam dificuldades na maioria das Descoberta de comprimento tcnicas de minerao de dados, mas regras de associao varivel existem situaes em que a transformao para registros de comprimento fixo no desejada Dados ordenados Apresentam dificuldades para todas as Rede neural cronologicamente tcnicas e, geralmente, requerem intervalar (timeaumento dos dados de teste com marcas delay) ou avisos, variveis de diferena etc. Descoberta de regras de associao Texto sem A maioria das tcnicas de minerao de Raciocnio baseado formatao dados incapaz de manipular texto sem em casos (MBR) formatao
Tabela 3.2: Caractersticas de dados. Fonte: Dias (2002, p. 1718).

Caracterstica

Descrio

3.4 CONSIDERAES FINAIS


Neste captulo foi discutida a importncia do papel humano para a conduo do processo de descoberta de conhecimento em banco de dados e a necessidade da participao humana ser especializada, pois influenciam desde a definio dos objetivos da execuo do processo at a avaliao dos resultados. Conclui-se que no possvel criar qualquer tipo de classificao de tcnicas de minerao de dados e de visualizao de informao utilizando somente o tipo de dado definido para um

51 atributo numa base de dados, sendo essencial o conhecimento do domnio de dados antes da realizao de qualquer etapa do processo de descoberta de conhecimento em banco de dados.

52

4 AVALIAO DE TCNICAS DE VISUALIZAO 4.1 INTRODUO


Neste captulo apresentada uma avaliao de tcnicas de visualizao de informao baseada nas caractersticas gerais definidas neste trabalho e aqui descritas. Essas caractersticas foram identificadas de acordo com a literatura pesquisada e tendo como enfoque o uso dessas tcnicas para visualizao de resultados obtidos com a aplicao de tcnicas de minerao de dados. Nesta avaliao elegeu-se a tcnica de avaliao de anlise de caractersticas, conforme descrita em Pfleeger (2004), que consiste em relacionar as caractersticas importantes de mtodos, processos ou ferramentas e atribuir pontuaes de 1 (no satisfaz) at 5 (satisfaz completamente), neste caso a representao visual de tcnicas de visualizao de informao. Esta avaliao possibilitar a melhor escolha sobre quais tcnicas de visualizao utilizar, fazendo um estreitamento do leque de opes existentes. Nas prximas sees, as fontes de dados utilizadas na avaliao so descritas sucintamente e apresentada a avaliao realizada utilizando a Linguagem R.

4.2 FONTES DE DADOS


Na avaliao das tcnicas de visualizao de informao foram utilizadas bases de dados que fornecem condies especficas para cada caracterstica avaliada, por exemplo: Para avaliar a capacidade das tcnicas de visualizao de informao em relao caracterstica de escalabilidade, necessrio utilizar uma base de grande volume de dados. Para avaliar a capacidade das tcnicas de visualizao de informao em relao caracterstica de dimensionalidade, torna-se necessrio o uso de uma base de dados com diferentes quantidades de atributos. As caractersticas referentes escalabilidade, dimensionalidade e outras so descritas nas prximas sees.

53

A seguir so descritas as bases de dados (encontradas na linguagem R) utilizadas neste trabalho: 1) USarrests Esta base contm dados estatsticos sobre as apreenses realizadas a cada 100.000 residentes dos estados do Estados Unidos da Amrica em 1973, referentes a assalto, assassinato e violao. Nela fornecida, tambm, a porcentagem da populao que vive em reas urbanas. Os atributos desta base so: Murder Nmero de apreenses por assassinato (a cada 100.000 residentes). Assault Nmero de apreenses por assalto (a cada 100.000 residentes). UrbanPop Porcentagem da populao urbana. Rape Nmero de apreenses por violao (a cada 100.000 residentes).

2)

Mtcars

Esta base contm dados sobre o consumo de combustvel e dez aspectos relacionados ao projeto e ao desempenho de 32 veculos produzidos nos anos de 1973-74. Os atributos desta base so: Mpg Consumo. Cyl - Nmero de cilindros. Disp - Cilindrada. Hp - Nmero de Cavalos\fora. Drat - Relao do eixo traseiro. Wt - V/S. Qsec Tempo para percorrer de milha. Am - Tipo de transmisso (0 = automtico, 1 = Manual). Gear - Nmero de engrenagens. Carb -Nmero de carburadores.

54
3)

Matrizes

Algumas matrizes foram criadas na linguagem R para representar bases de dados de alta escalabilidade e alta dimensionalidade. Na linguagem R, a criao de uma matriz realizada a partir da reorganizao de elementos de um vetor em linhas e colunas. Cada elemento da matriz representado como a seguir: [(posio da linha na matriz), (posio da coluna na matriz)]. Os valores dos elementos que compem a matriz foram determinados aleatoriamente usando funes da linguagem R.

4.3 AVALIAO DAS CARACTERSTICAS


Dentre as tcnicas de visualizao pesquisadas, pode-se destacar um grupo de caractersticas comuns a todas, que so: Escalabilidade - nmero de registros. Dimensionalidade nmero de atributos. Tipos de dados classificao de dados como qualitativos e quantitativos. Interatividade possibilidade de insero de tcnicas de interao. Interpretabilidade facilidade de extrair informao. Relacionamento entre atributos. Correlao grau de relacionamento entre os atributos. Por meio destas caractersticas foi possvel gerar as pontuaes atribudas s visualizaes de informao que compem este trabalho, a saber: tcnicas geomtricas e tcnicas iconogrficas.

4.3.1 Escalabilidade
Segundo Traina et al. (2002), escalabilidade refere-se tanto complexidade computacional sobre o nmero de registros numa relao, quanto sobre o nmero de atributos. A quantidade de registros que podem ser apresentados simultaneamente uma das limitaes nas tcnicas de visualizao. Com elevado nmero de registros, o resultado apresenta-se com considervel grau de desordem (RUNDENSTEINER et al., 2002).

55 Keim e Kriegel (1996) cita as limitaes de algumas tcnicas de visualizao em relao ao nmero de registros num conjunto de dados e afirma que a visualizao de coordenadas paralelas capaz de representar aproximadamente 1000 registros. Este autor afirma, tambm, que as tcnicas geomtricas rapidamente alcanam os limites do que pode ser considerado compreensvel. Isto ocorre devido ao fato de haver sobreposio dos registros mapeados em posies iguais ou prximas, apresentando borres, ou seja, regies totalmente preenchidas. Shimabukuru (2004) afirma que a visualizao de grandes volumes de dados requer a integrao da tcnica com operaes de interao adequadas, que possibilitem seleo e filtragem de itens de interesse. As regies totalmente preenchidas, borres das coordenadas paralelas, geram visualizaes incompreensveis. Porm, percebe-se que o uso de cores pode auxiliar na visualizao de padres. Para demonstrar este fato, matrizes com diferentes quantidades de registros foram criadas e utilizadas como parmetros de entrada na execuo do algoritmo k-mdias. Os resultados obtidos foram plotados nas tcnicas de coordenadas paralelas, onde as linhas representam os atributos da matriz e as cores representam os agrupamentos, como possvel constatar nas Figuras 4.1a e 4.1b. As cores se destacam como borres, possibilitando a visualizao dos padres de cada agrupamento. Como possvel verificar nas Figuras 4.1a e 4.1b, o aumento no nmero de registros de 10.000 para 100.000 gera borres que demonstram os padres. Neste exemplo, o algoritmo gerou trs grupos, mas, porm, dependendo do domnio da aplicao e da quantidade de registros, pode haver necessidade da criao de mais grupos e, conseqentemente, da utilizao de mais cores.
a) b)

Figura 4.1: Coordenadas paralelas a) 10.000 registros, b) 100.000 registros. (linguagem R).

56 Para reafirmar a dificuldade na visualizao de grande quantidade de registros com o uso de tcnicas geomtricas, as Figuras 4.2a, 4.2b e 4.2c mostram a visualizao de disperso de dados em projeo tridimensional (scatter plot 3D) de matrizes com tamanhos de 100, 1.000 e 10.000 linhas, respectivamente, e com cinco colunas. Nestas figuras possvel observar que, conforme o nmero de registros aumenta, a visualizao se torna incompreensvel.

a)

b)

c)

Figura 4.2: Disperso de dados tridimensional a) 100 registros, b) 1.000 registros, c) 10.000 registros - (linguagem R).

As tcnicas baseadas em cones possibilitam a representao de um nmero pequeno de registros devido ao tamanho dos elementos grficos (RODRIGUES, 2003). Das visualizaes classificadas como tcnicas iconogrficas, avaliadas neste trabalho, as faces de chernoff a visualizao que tem a maior limitao na questo escalabilidade, pois permite a representao apenas de uma pequena quantidade de registros, conforme pode ser visto nas Figuras 4.3a e 4.3b. Na avaliao desta tcnica foram utilizadas matrizes de diversos tamanhos, porm a quantidade mxima que permitiu uma visualizao interpretvel foi a matriz de 169X8, representando 169 registros com oito atributos.

57
a) b)

Figura 4.3: Faces de Chernoff a) 56 registros b) 169 registros - (linguagem R).

De acordo com Shimabukuru (2004), a visualizao figuras de arestas classificada como tcnica iconogrfica possibilita representar grandes volumes de dados. Esta tcnica de visualizao utiliza as duas dimenses da tela para mapear dois atributos de dados, com os demais atributos sendo mapeados para ngulos e/ou comprimentos de segmentos. Na Figura 4.4 representada a imagem composta de cones pertencentes a visualizao figura de arestas, gerada a partir de 5 imagens de satlite da regio dos Grandes Lagos, na qual diversas texturas so identificadas.

Figura 4.4: Visualizao figuras de aresta (Stick Figure) Fonte: Gri 2001 (SHIMABUKURO apud 2004, p. 21)

4.3.2 Dimensionalidade
Esta caracterstica est relacionada capacidade que as tcnicas de visualizao possuem na representao de atributos.

58

Keim (2002) cita que geralmente utilizada nas visualizaes de informao uma grande quantidade de registros e cada qual tem muitos atributos, por exemplo: uma experincia fsica pode ser descrita com cinco atributos ou centenas de atributos. O autor chama o termo atributo de dimenso e classifica os dados como unidimensional, bidimensional, multidimensional ou podem ser dados complexos como hipertexto ou redes (grafos). Tanto na rea cientfica quanto na engenharia e ainda no mundo dos negcios, a maioria dos dados da forma multidimensional, ou seja, conjuntos de dados que contm tipicamente mais que trs atributos (PUNTAR, 2003). As tcnicas de visualizao de informao tm a proposta de interpretar conjuntos de dados multidimensionais. Nessa interpretao, deve-se levar em conta a capacidade de percepo humana, ou seja, o limite conceitual da dimensionalidade que segundo Rodrigues (2003), pode estar entre baixo e alto. No entanto, no existe um consenso sobre o que pode ser considerado como baixa e alta dimensionalidade, podendo variar entre 5 e 10 atributos (BEYER et al., 1999; BERCHTOLD et al. 1998 apud RODRIGUES, 2003, p. 19), estar em torno de 34 atributos (OLIVEIRA; LEVKOWITZ, 2002 apud RODRIGUES, 2003, p. 19), ou mesmo estar acima de 100 atributos ( BHM; KRIEGEL, 2000 apud RODRIGUES, 2003, p. 19). Utilizando estes limites conceituais como base, foram criadas diversas matrizes com diferentes colunas (representando os atributos). Aps a criao, cada matriz foi plotada nas tcnicas de visualizao de informao utilizadas no trabalho. A literatura revisada unnime quando se trata das coordenadas paralelas para representao de dados multidimensionais (KEIM; KRIEGEL, 1996; WEGMAN; LUO, 1996; GERSHON; EICK, 1997; INSELBERG; DIMSDALE, 1990; RODRIGUES, 2003; SHIMABUKURU, 2004; NASCIMENTO; FERREIRA, 2005). Esta tcnica mapeia cada atributo a uma linha conectando pontos nos eixos. A Figura 4.5 exibe trs visualizaes da tcnica de coordenadas paralelas, com quantidades diferentes de atributos (10, 34 e 100 respectivamente) e com a mesma quantidade de registros. O limite de atributos que as coordenadas paralelas podem suportar est restrito resoluo da tela do computador. Conforme pode ser observado, o aumento de atributos causa borres que dificultam a visualizao ou at mesmo o reconhecimento de padres.

59
a ) b ) c )

Figura 4.5: Cordenadas paralelas: a) 10 atributos. b) 34 atributos. c) 100 atributos. Todas visualizaes representam 100 registros - (linguagem R).

Outra tcnica de projeo geomtrica de visualizao que tem a capacidade de representar alta dimensionalidade a matriz de disperso de dados. Shimabukuru (2004), afirma que disperso de dados a tcnica de visualizao de informao mais antiga e popular para a projeo de dados de alta dimensionalidade em uma representao visual bidimensional. Para a visualizao de disperso de dados tridimensional (scatter plots 3D), Ebert et al. (2000) sugere a possibilidade da utilizao de cones para representao dos atributos dos dados, permitindo dessa forma o aumento no nmero de dimenses que podem ser exploradas nesta visualizao. Utilizando esta sugesto, pode-se considerar que esta visualizao tem boa representao na caracterstica dimensionalidade. A tcnica de visualizao iconogrfica outra das mais utilizadas, onde as figuras so usadas como codificadores geomtricos, tirando partido dos seus atributos visualmente perceptveis como cor, forma e textura (LEVKOWITZ, 1991 apud RUSSO; GROS; ABEL, 1999, p. 4). As faces de chernoff, desenvolvida por Chernoff (1973), classificada como tcnica de visualizao iconogrfica, tambm pode ser utilizada para visualizar dados multidimensionais, partindo da capacidade do ser humano de conseguir distinguir caractersticas visuais. Embora esta tcnica seja muito til em exibir dados multidimensionais, os registros so apresentados separadamente, uma vez que eles no transmitem qualquer informao sobre os reais valores com as quais se relacionam. Porm, as faces de chernoff possuem a capacidade de ilustrar tendncias ou parte dos dados que devem ser colocados em evidncia (RUSSO; GROS; ABEL , 1999).

60 A Figura 4.6 ilustra a visualizao de faces de chernoff utilizando um matriz de 3 x 15 (trs registros e quinze atributos). Os atributos so representados pelas seguintes caractersticas: altura da face, largura da face, forma da face, altura da boca, largura da boca, curva do sorriso, altura dos olhos, largura dos olhos, altura do cabelo, largura do cabelo, estilo do cabelo, altura do nariz, largura do nariz, largura das orelhas e altura das orelhas. Na reviso bibliogrfica realizada no estabelecido um limite de quantidade de caractersticas que podem ser utilizadas nesta visualizao. Johnson e Wichner (1982) sugere at 18 atributos. Na linguagem R, a funo que projeta esta visualizao, chamada faces, possibilita a representao mxima de 15 atributos.

Figura 4.6: Faces de chenorff com 15 atributos - (linguagem R).

Outra tcnica de visualizao iconogrfica que trabalha com dados multidimensionais, semelhante s faces de chernoff, a visualizao star glyphs. Johnson e Wichner (1982) dizem que esta visualizao til para padronizar determinadas informaes e a utiliza para determinar similaridade nos agrupamentos. Lee, Reilly e Butavicius (2003) afirmam que as visualizaes faces de chernoff e star glyphs so pontos multidimensionais que usam espao dimensional til para detectar agrupamento e outliers. A visualizao star glyphs permite um maior nmero de atributos comparado com faces de chernoff, conforme pode ser visto na Figura 4.7, que mostra a possibilidade de representao de at aproximadamente 80 atributos (Figura 4.7c). No entanto, como mostra a Figura 4.7d, com uma grande quantidade de atributos possvel visualizar somente borres.
a) b) c) d)

Figura 4.7: Star glyphs - a) 10 atributos, b) 30 atributos, c) 80 atributos, d) 500 atributos. (linguagem R)

61

Alm das tcnicas de visualizao iconogrficas Faces de Chernoff e Star glyphs, existe a visualizao de Figura de arestas (Stick Figure) que, apesar de representar alta escalabilidade, possui certa limitao referente dimensionalidade, que da ordem de aproximadamente uma dezena (KEIM; KRIEGEL, 1996)

4.3.3 Tipos de dados


Freitas et al. (2001) e Chi e Riedl (1998) consideram a identificao das caractersticas relativas aos tipos de dados como procedimento essencial na seleo de uma tcnica de visualizao. Freitas et al. (2001) classificam a informao em classe de informao, tipos dos valores, natureza do domnio e dimenso do domnio, conforme pode ser visto no Quadro 4.1.

Quadro 4.1: Classificao da informao Fonte: Freitas et al. (2001, p. 147).

Entretanto, neste trabalho o enfoque est nos tipos de valores (aqui nomeado como tipos de dados) para avaliao destas caractersticas. No entanto, necessrio considerar tambm a natureza do domnio na classificao do tipo de dado. Assim, os tipos de dados podem ser classificados como (DOWNING; CLARK, 2002; SHIMAKURA, 2007): qualitativo nominal dados alfanumricos que no possuem ordem (ex.: marca de carros);

62 qualitativo ordinal dados alfanumricos que possuem ordem (ex.: frio, morno e quente); quantitativo discreto dados numricos (contnuo ou reais) que se referem a contagens (ex.: nmero de acidentes com veculos registrado no ms); quantitativo contnuo dados numricos (inteiros ou reais) que se referem a representaes em escala (ex.: rea, volume, peso e velocidade). Na realizao da avaliao das tcnicas de visualizao de informao utilizando a linguagem R, foi encontrado um problema em relao ao parmetro de entrada para o tipo de dado qualitativo, pois a linguagem R no permite este tipo de dado de entrada em algumas visualizaes de informao. Para solucionar este problema, foi realizada a operao de codificao, apresentada por Goldschmidt e Passos (2005), no qual os valores qualitativos foram substitudos por valores numricos. Das tcnicas de visualizao de informao avaliadas, todas permitem a representao de dados quantitativos (discreto e contnuo). No entanto, para dados qualitativos nominais, as tcnicas iconogrficas avaliadas no possibilitam boa representao. O uso de cores na visualizao faces de chernoff contribui para uma melhor representao em alguns atributos qualitativos nominais, como o caso, por exemplo, de sexo (M/F), estado civil (casado/solteiro/vivo) e Unidade Federal (PR/SP/MG...). A insero de propriedades de visualizao pode tornar mais efetiva4 a tcnica de visualizao de informao quando avaliada em relao caracterstica tipos de dados qualitativos. Mackinlay (1986) prope uma ordenao de prioridades na utilizao das propriedades de visualizao, considerando os mais perceptveis aos menos perceptveis em relao aos tipos de dados quantitativos e qualitativos (ordinais e nominais), conforme pode ser visto na Figura 4.8 e Quadro 4.2.

- A efetividade est relacionada facilidade de se compreender os dados apresentados. Para ser efetiva, uma visualizao deve ser de rpida percepo e induzir a uma quantidade menor de erros de interpretao do que outras formas de se visualizar os mesmos dados. (NASCIMENTO, 2005).

63

Figura 4.8: Propriedades da visualizao. Fonte: (Mackinlay, 1986, p. 125).

Quadro 4.2: Ranking dos atributos em relao percepo. Fonte: (Mackinlay, 1986, p. 125).

4.3.4 Interao
A interao consiste no dilogo entre usurio e a mquina, potencializando assim o poder elucidativo de uma determinada tcnica de visualizao, ou seja, a interao dinmica faz com que o usurio altere suas visualizaes de forma que suas metas possam ser alcanadas (VAZ; CARVALHO, 2004; RODRIGUES, 2003).

64

A avaliao da caracterstica de interao tem como objetivo verificar a possibilidade do uso de tcnicas de interao nas tcnicas de visualizao de informao selecionadas. Na realizao desta avaliao no foi possvel criar interaes utilizando a linguagem R por no ter sido encontrado um pacote com este objetivo. Entretanto, pode-se concluir que a tcnica de filtragem interativa e zoom interativo se aplicam s visualizaes selecionadas neste trabalho. A tcnica de zoom interativo permite comprimir e expandir elementos grficos da visualizao, demonstrando maior eficcia para as tcnicas de visualizao iconogrficas, como apresentado por Nascimento e Ferreira (2005) nos itens relacionados a seguir sobre possveis formas de interao usando tcnicas de visualizao iconogrficas e a visualizao de coordenadas paralelas. Formas de interao em tcnicas de visualizao iconogrficas: Possibilidades de modificao dinmica entre a associao do componente da visualizao com os atributos de dados. Controle sobre a quantidade de cones visualizados simultaneamente, alterando o tamanho do mesmo, por meio de zoom interativo. Os cones podem ser ordenados conforme a necessidade do usurio. Por meio de um simples clique no cone possvel ter acesso informao mais detalhada sobre o que o cone representa, com apoio do zoom interativo. Formas de interao em coordenadas paralelas: Possibilidade de incluir e excluir eixos verticais. Selecionar intervalos de interesse no eixo, destacando os intervalos com cores mais intensas, este processo simboliza filtragem dos dados e zoom interativo. A possibilidade de selecionar mais do que uma coordenada simultaneamente, criando um processo de filtragem que realiza operaes de unio, interseco ou complemento entre os registros (representado pelas linhas horizontais). Wegman e Luo (1996) realizaram um trabalho, ao qual exploraram dados multidimensionais em projees bidimensionais, utilizando a visualizao de coordenadas paralelas. Os autores redefiniram dinamicamente as projees geradas a partir de uma base multidimensional. A idia isolar os agrupamentos ou dados de interesse pintando estes conjuntos na visualizao.

65 Portanto, pode-se verificar a possibilidade de interao na visualizao de coordenadas paralelas.

4.3.5 Interpretabilidade
A rea de descoberta de conhecimento em base de dados tem como objetivo principal identificar dados, padres, modelos potencialmente teis que sejam, sobretudo, altamente interpretveis (FAYYAD; PIATETSKY; SMYTH, 1996a). Sendo assim, a caracterstica de interpretabilidade foi selecionada com o intuito de verificar a existncia ou no de facilidade na interpretao das informaes apresentadas utilizando as tcnicas de visualizao de informao selecionadas neste trabalho. Segundo Nascimento e Ferreira (2005), as tcnicas de visualizao de informao envolvem o sentido humano da viso e este tipo de percepo est relacionado a diversas reas, tais como psicologia, lingstica e artes visuais, e, ainda, a algumas subreas da computao, como viso computacional e interao humano-computador. No entanto, essas reas no so consideradas nesta avaliao. A matriz de disperso foi a primeira visualizao de informao avaliada em relao caracterstica de interpretabilidade, por ser esta caracterstica apontada por Shimabukuru (2004) como sendo uma das vantagens desta visualizao. A Figura 4.9 representa a visualizao de matriz de disperso com sete atributos da base de dados mtcars e com os trs grupos gerados pelo algoritmo K-mdias aplicado sobre esta base. Os grupos esto representados pela propriedade de visualizao cor (vermelho, preto e verde). Observando esta figura possvel interpretar que h uma clara diviso dos grupos determinada pelos valores do atributo nmero de cilindros cyl. Outra interpretao possvel diz respeito ao relacionamento entre os atributos, que torna visvel a similaridade e dissimilaridade entre eles.

66

Figura 4.9: Matriz disperso de dado representando a base de dados mtcars - (linguagem R).

Outra tcnica de projeo geomtrica avaliada foi a visualizao de coordenadas paralelas que projetam o relacionamento entre os atributos da base de dados em padres bidimensionais, permitindo interpretar caractersticas como a diferena na distribuio e correlao entre os atributos (INSELBERG; DIMSDALE, 1990; WEGMAN; LUO, 1996). A anlise da caracterstica de correlao entre atributos discutida na Seo 4.3.7. A Figura 4.10 representa a visualizao das coordenadas paralelas, demonstrando a distribuio dos registros com os atributos da base de teste mtcars e os grupos formados pelo algoritmo K-mdias por meio de cores (vermelho, verde e preto). Na Figura 4.10 possvel observar uma concentrao de cores nos eixos horizontais que cruzam com o eixo vertical do atributo cyl e que irradiam para os eixos verticais disp e hp. Pode-se concluir que os trs grupos gerados pelo algoritmo no contm valores iguais para os atributos cyl e disp e o nmero de cilindros (cyl) proporcional aos valores dos atributos disp e hp.

67

Figuras 4.10: Coordenadas paralelas representando a base de dados mtcars - (linguagem R).

Quanto s tcnicas iconogrficas, a visualizao faces de chernoff foi avaliada por possibilitar uma visualizao rpida e compacta de vrios cones simultaneamente, conforme afirmam Estivalet e Freitas (2000). Esta representao do domnio de dados eficiente, porm exige uma adaptao do usurio, visto que necessrio habituar-se interpretao de cada caracterstica visual existente de acordo com o mapeamento dos atributos (LEE; REILLY; BUTAVICIUS, 2003). Na avaliao das visualizaes selecionadas foi constatado que uma boa interpretao dos dados no depende s da tcnica utilizada, mas tambm do domnio de aplicao, entendimento do domnio de dados e conhecimento do usurio em relao s tcnicas de visualizao e aos domnios considerados.

4.3.6 Relacionamento entre os atributos.


Esta caracterstica diz respeito possibilidade de representao do relacionamento entre atributos, como o caso da tcnica geomtrica matriz de disperso de dados que representa o relacionamento entre atributos (SHIMABUKURU, 2004). A Figura 4.11 mostra um exemplo do uso desta tcnica. Como pode ser visto na Figura 4.11, todos os atributos de dados da base de teste (USarrests) esto representados, onde as projees dos atributos so realizadas aos pares e organizadas em formato de matriz, com cada clula associada a dois atributos identificados nas linhas e colunas da matriz. Nesta tcnica de visualizao possvel adicionar atributos qualitativos

68 utilizando formas e cores nos componentes de visualizao. Na Figura 4.11 as cores representam os grupos formados na execuo do algoritmo K-mdias.

Figura 4.11: Matriz de Disperso Base de dados USarrests. (linguagem R)

Outra tcnica de projeo geomtrica de visualizao que mostra o relacionamento entre os atributos as coordenadas paralelas, representada na Figura 4.12. Ao gerar uma representao planar, transforma relaes multivariadas em padres bidimensionais (WEGMAN; LUO, 1996). De acordo com a resoluo disponvel e dimenso da tela, possvel visualizar muitos atributos. A relao entre os atributos encontra-se nos eixos verticais, quanto mais prximos os eixos melhor a visualizao da relao. Por exemplo, o atributo assault relacionado com o atributo urbanpop demonstrado atravs das posies das linhas horizontais que exibe o significado na relao conforme pode ser visto na Figura 4.12a. O relacionamento entre os atributos assault e rape que esto separados pelo atributo urbanpop, necessrio criar mentalmente a relao ou retirar o atributo, conforme a Figura 4.12b.

69

a)

b)

Figura 4.12: Coordenadas paralelas - Base de dados USarrests - (linguagem R).

Quanto s tcnicas iconogrficas, no foi possvel determinar a existncia de relacionamentos, desta forma optou-se em no avaliar tal caracterstica.

4.3.7 Correlao
Correlao ou coeficiente de correlao fornece o grau de relacionamento entre duas variveis (DOWNING; CLARK, 2002). A correlao a associao ou interdependncia entre os atributos da base de dados, utilizada para demonstrar se existe uma relao ou no entre atributos de interesse. Quando se trata de correlao, a visualizao de disperso de dados a mais referenciada na literatura (CRESPO, 1999; DOWNING; CLARK, 2002), fornecendo uma medida de correlao positiva ou negativa de acordo com o sentido da disperso de dados. A visualizao de disperso de dados fornece uma nuvem de pontos em um plano cartesiano utilizando eixos (x,y), sendo muito til para identificar correlao linear (CRESPO, 1999). A correlao identificada na visualizao de acordo com a posio dos pontos, isto , se os pontos do diagrama tm como imagem uma reta ascedente ela linear positiva (ver Figura 4.13a), da mesma forma se os pontos formarem uma imagem como uma reta descendente, ela linear negativa (Figura 4.13b). Entretanto, se os pontos apresentam-se dispersos, no oferecendo uma imagem definida, conclui-se que no h relao entre os atributos em estudo (Figura 4.13c) (DOWNING; CLARK, 2002; CRESPO, 1999).

70
a) b) c)

Figura 4.13: Disperso de dados; a) Correlao positiva; b) Correlao negativa; c) Correlao nula.

Para demonstrar esta caracterstica, foi utilizada a base de teste USarrests na visualizao da matriz de disperso de dados com uma funo criada na linguagem R, que calcula a correlao, demonstra os valores calculados e constri linhas que acompanham a disperso (linhas vermelhas na Figura 4.14). Como pode ser observado nesta visualizao, o maior coeficiente de correlao encontrado est entre os atributos morte e assalto, identificado como correlao positiva, ou seja, o nmero de mortes aumenta conforme o nmero de assaltos tambm aumenta.

Figura 4.14: Correlao na visualizao de disperso de dados - base de dados USarrests. (Linguagem R)

Outra tcnica de projeo geomtrica avaliada foi a visualizao de coordenadas paralelas. Por meio de observao possvel verificar na Figura 4.15 a similaridade de comportamento entre os eixos que representam os registros, caracterizando assim a correlao positiva. J na Figura 4.16, possvel observar o contrrio, isto , a dissimilaridade do comportamento dos eixos que representam os registros, indicando a existncia de correlao negativa.

71

Figura 4.15: Representao de correlao positiva da visualizao de coordenadas paralelas

Figura 4.16: Representao de correlao negativa da visualizao de coordenadas paralelas

War (2002 apud SHIMABUKURU, 2003, 19), apresenta a evidncia de correlao, atravs do cruzamento entre as linhas horizontais, como pode ser observado na Figura 4.17 a existncia de uma correlao negativa entre os eixos 6 e 7 destacados em verde.

Figura 4.17: Correlao e distribuio de valores em Coordenadas Paralelas. Fonte: (WAR, 2002 apud SHIMABUKURU, 2003, p. 19).

72 Foram utilizadas as bases de teste na avaliao da visualizao de coordenadas paralelas com o objetivo de identificar a existncia de correlaes. No entanto, os resultados no foram satisfatrios, pois esta visualizao no demonstrou as correlaes existentes identificadas previamente pela visualizao disperso de dados, devido ao fato de haver sobreposio dos registros mapeados que apresentaram borres (ver Figura 4.5a). Quanto s tcnicas iconogrficas, no foi realizado qualquer tipo de avaliao pela impossibilidade de interpretao da visualizao da caracterstica de correlao.

4.4 RESULTADOS E CONSIDERAES FINAIS


Entender as visualizaes de informao e conhecer as vantagens e limitaes que elas oferecem pode auxiliar a sua utilizao correta e, conseqentemente, melhorar a sua interpretao, evitando assim futuras frustraes e tomada de deciso incorreta. Neste captulo foram apresentadas as caractersticas identificadas como sendo fatores que influenciam na utilizao de tcnicas de visualizao de informao. Cada caracterstica foi avaliada com o intuito de identificar suas qualidades e limitaes. A avaliao foi realizada utilizando bases de dados de teste, algoritmo de minerao de dados K-mdias e a linguagem R. Foram definidas pontuaes que variam de zero (no satisfaz) a cinco (satisfaz completamente), conforme o modelo de anlise de caracterstica descrito por Pfleeger (2004). Segue abaixo uma anlise resumida dos resultados obtidos na avaliao de acordo com as caractersticas definidas: Escalabilidade: existem limitaes para as tcnicas de projeo geomtrica relacionada s bases de dados que possuem um grande nmero de registros, porm, para identificar padres gerados pelos algoritmos de minerao de dados, estas tcnicas demonstramse eficientes. J as tcnicas iconogrficas possuem maior limitao, no caso da visualizao star glyphs e faces de chernoff, o que no ocorre para a visualizao Figura de arestas que utilizada para identificar padres em grandes bases de dados, por meio das formaes e posies dos cones que podem formar texturas.

73 Dimensionalidade: esta caracterstica foi avaliada de acordo com a quantidade de atributos possveis de serem projetados nas visualizaes de informao, sem causar a poluio visual ou borres. Abaixo apresentado o nmero de atributos para cada visualizao avaliada de acordo com a limitao do dispositivo utilizado neste trabalho: o Matriz de disperso: aproximadamente 15 atributos, considerando forma e cores. o Disperso de dados 3D: nesta visualizao trs atributos podem ser representados por trs eixos, adicionalmente podem ser utilizadas propriedades de visualizao (tais como: densidadade, cor, rea, volume, posio e etc.) na representao de outros atributos. Neste trabalho a projeo foi feita para aproximadamente cinco atributos. o Coordenadas paralelas: foi possvel projetar 35 atributos. o Star glyphs: aproximadamente 80 atributos. o Figura de arestas: esta visualizao tem alta dimensionalidade. o Faces de chernoff: foi possvel projetar aproximadamente 15 atributos de acordo com caractersticas da face. Tipos de dados: os tipos de dados quantitativos e qualitativos ordinais so projetados em todas as visualizaes de informao avaliadas, porm os tipos de dados qualitativos nominais apresentam dificuldade em sua representao nas tcnicas iconogrficas, onde necessrio o uso das propriedades de visualizao, por exemplo: cor e forma. Interao: foi constatado que existem diferentes tcnicas de interao que podem ser aplicadas s visualizaes de informao. Interpretabilidade: a matriz de disperso e disperso de dados tridimensional demonstraram fcil interpretao na avaliao. As coordenadas paralelas tambm facilitam a interpretao, porm dificultam a visualizao da relao entre atributos pelo fato de existirem coordenadas separadas. Para a interpretao das tcnicas iconogrficas necessrio o conhecimento das propriedades de visualizao consideradas, juntamente com o mapeamento realizado com os atributos. Nos casos

74 em que o objetivo do uso da visualizao encontrar padres, a visualizao Figura de aresta indicada. Relacionamento entre atributos: as tcnicas de projeo geomtrica permitem visualizar os relacionamentos entre atributos, sendo a matriz de disperso a visualizao de informao que melhor representa esta caracterstica. Correlao: a visualizao de disperso de dados a que melhor demonstra esta caracterstica. A partir da avaliao realizada, foi possvel criar a Tabela 4.1 (Analise de caractersticas de tcnicas de visualizao).

75 Projeo Geomtrica Disperso de dados Coordenadas 3D Paralelas


4 2 5 4

Caractersticas
Suporte a quantidade de dados (Escalabilidade) Suporte a quantidade de atributos (Dimensionalidade)
T I P O S D E D A D O S

Matriz Disperso
5 3

Tcnicas Iconogrficas Figura Star de Faces de Glyphs arestas Chernoff


1 5 5 5 1 3

Representao de dados qualitativos nominais Representao de dados qualitativos ordinais Representao de dados quantitativos discretos Representao de dados quantitativos contnuos Representao de dados mistos (qualitativos e quantitativos) Interao Facilidade de interpretao (Interpretabilidade) Relacionamento entre os atributos Correlao

5 5 5 5 5

5 5 5 3 4

5 5 3 3 2

4 5 3 1 X

4 5 3 1 X

4 5 4 1 X

Tabela 4.1: Anlise de caractersticas das tcnicas de visualizao.


Legenda:
Pontuao: (1) no satisfaz completamente, (2) no satisfaz, (3) satisfaz parcialmente, (4) satisfaz, (5) satisfaz completamente.

76

APLICAO

DE

TCNICAS

DE

VISUALIZAO

DE

INFORMAO
Neste capitulo demonstrado o uso de tcnicas de visualizao de informao na representao de dados e de resultados obtidos na aplicao de um algoritmo de agrupamento. O objetivo confirmar a avaliao realizada e apresentada no captulo anterior utilizando uma base de dados real. Tanto o algoritmo de agrupamento quanto as tcnicas de visualizao de informao apresentadas neste captulo utilizam recursos oferecidos pela linguagem R. Inicialmente, foi selecionada a base de dados para a experimentao. Optou-se pela base de candidatos da Universidade Estadual de Maring (UEM), contendo os resultados das provas referentes ao vestibular de inverno do ano de 2005, somente do curso de medicina, disponvel no endereo eletrnico www.cvu.uem.br. Esta base foi modificada num formato adequado para sua utilizao na linguagem R e contm 1598 registros representando os candidatos ao curso de medicina e 13 atributos, que so: idade, nota da prova de redao, nota da prova de geografia, nota da prova de historia, nota da prova de biologia, nota da prova de matemtica, nota da prova de portugus, nota da prova de lngua estrangeira, nota da prova de fsica, nota da prova de qumica, nota final (total), classificao do candidato e situao do candidato (aprovado, reprovado e desclassificado).

5.1 VISUALIZAO DOS DADOS ORIGINAIS


A visualizao de informao tem uma representao significativa no processo de anlise de dados, facilitando a sua interpretao. Na fase de pr-processamento do processo KDD, o analista precisa ter um entendimento sobre os dados que, em alguns casos, podem apresentar inconsistncias, principalmente quando so o resultado da integrao de duas ou mais bases de dados. Alm da deteco de possveis inconsistncias, o uso de visualizao de informao pode auxiliar na descoberta de tendncias e padres entre os dados originais que serviro de base na limpeza e seleo de atributos a serem usados como parmetros de entrada para a minerao de dados.

77 A visualizao de informao sobre dados originais pode, tambm, fornecer conhecimentos que daro suporte tomada de deciso, sem que haja necessidade da aplicao de uma tcnica de minerao de dados. Desta forma, antes de aplicar o algoritmo de agrupamento, foram utilizadas algumas tcnicas de visualizao com intuito de encontrar caractersticas da base de dados. De acordo com a Tabela 4.1 (resultado da anlise de caractersticas da tcnica de visualizao), descarta-se a visualizao faces de chernoff e star glyphs, pois a base de dados possui 1598 registros e estas visualizaes tm como caracterstica a baixa escalabilidade. Em contrapartida, as visualizaes matriz de disperso, coordenadas paralelas e figuras de arestas apresentam-se como as mais adequadas quanto escalabilidade e dimensionalidade. Como j avaliado no Captulo 4, as coordenadas paralelas demonstram-se teis na identificao de padres gerados por algoritmos de agrupamento com grande quantidade de registros, o que no ocorre na visualizao preliminar da base de dados (sem aplicao do algoritmo de agrupamento), sendo ineficiente com mais de 1000 registros. Considerando que a matriz de disperso obteve alta pontuao em todas as caractersticas avaliadas e apresentadas na Tabela 4.1, esta visualizao uma opo para projetar a base de dados original com todos os seus atributos e registros. Com a filtragem dos candidatos aprovados, diminui-se a escalabilidade, possibilitando o uso da visualizao de informao star glyphs. Assim, a seguir so apresentadas as anlises realizadas aplicando as tcnicas de visualizao geomtricas e iconogrficas, mais especificamente as visualizaes matriz de disperso e star glyphs. a) Projeo Geomtrica Como a matriz de disperso a visualizao que melhor consegue representar a correlao entre os atributos, a sua projeo foi realizada com nfase nesta caracterstica. A Figura 5.1 ilustra esta visualizao, onde possvel observar:

78 Os candidatos aprovados tm idade inferior a trinta anos, conforme mostra a relao entre os atributos idade e situao (1 - aprovado, 2 - desclassificado e 3 reprovado). Os atributos referentes s notas das provas tm alto grau de relacionamento linear positivo (correlao) entre si. Os atributos com maior grau de relacionamento (correlao) so as notas das provas de geografia e histria e as notas das provas de qumica e biologia. O atributo total de pontuao tem maior grau de relacionamento com os atributos referentes s notas das provas de qumica e biologia. O atributo idade apresenta correlao nula com os demais atributos.

Pelo fato da visualizao ter gerado borres, poderiam ser projetados somente aqueles atributos de maior interesse para facilitar o entendimento sobre a disperso dos dados. `

Figura 5.1: Matriz de disperso (base de dados Uem/2005) - (Linguagem R).

Com intuito de utilizar alguma visualizao de informao para verificar a existncia de inconsistncias em base de dados, foi includo o atributo sexo na base de candidatos da Universidade Estadual de Maring (UEM) com alguns valores nulos. Observando as Figuras 5.2a e 5.2b, possvel verificar uma inconsistncia nas bases de dados em relao ao atributo sexo que apresenta valor nulo para vrios registros. Assim, concluise que a visualizao de coordenadas paralelas consegue demonstrar existncia de atributos

79 com valores incorretos ou ausentes. Esta visualizao tambm pode fornecer uma idia da quantidade de registros que contm valores incorretos, por meio da quantidade de linhas que irradiam do atributo em questo, por exemplo, a Figura 5.2a representa uma base de dados com 8,2% de registros contendo valor nulo no atributo sexo, enquanto que a Figura 5.2b representa outra base de dados contendo apenas 0,62% de registros com valor nulo no atributo sexo, como pode ser visto nestas figuras. a) b)

Figura 5.2: Coordenadas paralelas: a) representando 131 registros contendo valores nulos para o atributo sexo, b) representando 10 registros contendo valores nulos para o atributo sexo - (linguagem R)

b) Tcnica Iconogrfica A Figura 5.3 ilustra a visualizao Star Glyphs onde foram projetados somente os candidatos aprovados. Nesta visualizao possvel realizar algumas consideraes sobre as pontuaes das provas de cada candidato em relao s pontuaes dos demais candidatos aprovados, tais como: O candidato nmero 6 possui os menores valores obtidos nas provas de matemtica, geografia, historia e fsica. Os candidatos 3 e 8 possuem as melhores notas na maioria das disciplinas. O candidato 12 obteve a menor nota em biologia e sua nota em portugus relativamente alta em relao s demais notas por ele obtidas. Os candidatos 3, 16, 19 e 20, obtiveram notas boas em todas as provas, enquanto que os demais candidatos apresentam pelo menos uma prova com nota baixa.

80

Figura 5.3: Star Glyph representando os candidatos aprovados - (linguagem R).

Por meio deste exemplo, foi possvel extrair algumas interpretaes. No entanto, a avaliao apresentada na Tabela 4.1 pontuou a caracterstica interpretabilidade para a visualizao Star Glyphs com valor trs, pela necessidade do uso do mapa representado na Figura 5.3.

5.2

VISUALIZAO AGRUPAMENTO

DOS

RESULTADOS

DO

ALGORITMO

DE

Aps a preparao da base de dados e o uso de visualizaes de informao sobre os dados originais, o algoritmo de agrupamento K-mdias foi selecionado por ser um dos mais referenciados na literatura e, tambm, pelo fato da maioria dos atributos existentes na base de dados ser do tipo quantitativo. Na linguagem R, a funo que implementa o algoritmo de agrupamento K-mdias se encontra na biblioteca amap e possui cinco parmetros de entrada. As linhas de cdigo utilizadas para carregar a biblioteca e executar a funo Kmeans so:
library(amap) Kmeans(x, centers, iter.max = 10, nstart = 1,method = " euclidean ")

81 Os parmetros da funo Kmeans so descritos a seguir: x - a estrutura de dados da base de dados de entrada, juntamente com o seu contedo (valores numricos dos atributos);

centers nmero desejado de grupos; inter.max nmero mximo de interaes que o algoritmo deve realizar. method medida de distncia a ser utilizada: "euclidean", "maximum","manhattan",
"canberra", "binary", "pearson"

ou "correlation.

A Figura 5.4 ilustra os resultados obtidos com a execuo do algoritmo K-mdias, que so divididos em quatro partes: 1. indica a quantidade de registros para cada grupo criado; 2. indica os centrides de cada atributo relacionado para cada grupo; 3. vetor do agrupamento que identifica o grupo criado para cada registro; 4. somatria da raiz quadrada por grupo.
1 2

Figura 5.4: Resultado do algoritmo K-mdias - (Linguagem R).

Conforme pode ser observado na Figura 5.4, os resultados apresentados no do subsdios suficientes para a sua interpretao, sendo necessrio, portanto, o uso de tcnicas de

82 visualizao de informao. A seguir so demonstradas as visualizaes de informao utilizadas para representar esses resultados. a) Projeo Geomtrica De acordo com a avaliao realizada neste trabalho, a visualizao de coordenadas paralelas uma das tcnicas de projeo geomtrica que obtiveram boa pontuao referente caracterstica de escalabilidade, pelo fato de conseguir demonstrar padres nos resultados obtidos pelo algoritmo de agrupamento. Wegmam e Luo (1996) afirmam que a tarefa de agrupamento facilmente interpretada utilizando a representao de coordenadas paralelas. Observando a projeo do resultado do algoritmo na visualizao de coordenadas paralelas, ilustrada na Figura 5.5, possvel constatar a formao de padres nos quatro grupos gerados pelo algoritmo de agrupamento, como descritos a seguir: Grupo 1 (linhas pretas) grande maioria dos candidatos reprovados com o total de pontuao igual a zero. Grupo 2 (linhas vermelhas) grande maioria dos candidatos desclassificados com o total de pontuao inferior a aproximadamente 754 (metade do total de pontuao obtida pelo candidato classificado em primeiro lugar que foi 1508). Grupo 3 (linhas azuis) grande maioria dos candidatos desclassificados com o total de pontuao superior a aproximadamente 754. Grupo 4 (linhas verdes) - grupo de candidatos que obtiveram as melhores pontuaes.

Alm da identificao dos padres dos grupos, possvel identificar outras interpretaes na visualizao de coordenadas paralelas, por exemplo: A faixa etria da maioria dos candidatos inferior a aproximadamente 27 anos. Quase todos os candidatos do Grupo 1 (linhas pretas) obtiveram nota zero na redao, e neste mesmo grupo possvel verificar a existncia de candidatos que obtiveram notas com valores acima da mdia, sendo o grupo que apresenta a maior disperso em outras provas. Muitos candidatos do Grupo 1 zeraram a prova de lngua estrangeira, considerando que existe uma concentrao de linhas pretas no valor zero referente ao atributo LE (lngua estrangeira).

83 Existem candidatos que obtiveram boas notas na prova de redao, mas no esto agrupados no Grupo 4, pois possvel verificar na visualizao que h candidatos de outros grupos no topo da linha vertical que representa o atributo redao, conforme Figura 5.6. O Grupo 4 o grupo dos candidatos que obtiveram as melhores notas nas provas de biologia, qumica e portugus, como pode ser observado na concentrao de linhas verdes no topo das linhas verticais que representam os atributos referentes a estas provas. O destaque maior est na prova de qumica. Apesar dos candidatos do Grupo 4 terem obtido as melhores pontuaes no total geral, possvel observar que muitos deles obtiveram notas abaixo da mdia nas provas de matemtica, lngua estrangeira e fsica. Entre os candidatos com as melhores notas, poucos obtiveram notas com valores prximos ao valor mximo atingido na prova de matemtica, conforme pode ser observado na disperso existente na linha vertical que representa este atributo. Pode-se observar a existncia de candidatos do Grupo 2 com boas notas (acima da mdia) nas provas de redao, geografia, histria, lngua estrangeira e qumica e com notas abaixo da mdia na prova de matemtica.

Figuras 5.5: Coordenadas paralelas gerado pelo algoritmo K-means - (Linguagem R).

84

Figura 5.6: Coordenadas paralelas com destaque no eixo vertical que representa o atributo redao - (linguagem R).

As interpretaes realizadas na visualizao de coordenadas paralelas no se esgotaram, outras poderiam ser listadas de acordo com o conhecimento e o interesse sobre o tipo de informao a ser extrado pelo avaliador, por exemplo, o avaliador pode estar interessado apenas no grupo que representa os melhores candidatos. Assim, pode-se filtrar da base de dados os candidatos do Grupo 4 e serem gerados novos agrupamentos, ou at mesmo utilizar outras tarefas de minerao de dados (associaes, regresso, sumarizao ou classificao). Outra visualizao que apresentou boa escalabilidade para demonstrar padres de resultados do algoritmo de agrupamento a visualizao de disperso de dados tridimensional (Figuras 5.7), utilizando a propriedade cor para representar os grupos formados. De forma geral, observando o eixo referente ao atributo da prova de biologia das Figuras 5.7a e 5.7b, possvel constatar a separao das cores, sugerindo as seguintes interpretaes: O grupo de cor vermelha representa a maioria dos candidatos que obteve na prova de biologia nota inferior a aproximadamente 30 pontos. O grupo de cor verde representa a maioria dos candidatos que obteve na prova de biologia nota no intervalo aproximado entre 30 e 50 pontos. o grupo de cor azul representa a maioria dos candidatos que obteve na prova de biologia nota superior a aproximadamente 50 pontos; O grupo de cor preta representa a maioria dos candidatos que obteve nota zero para a prova de redao. Pode-se observar, tambm, na Figura 5.7a a existncia de correlao positiva entre a prova de qumica e a prova de biologia, j demonstrada pela Figura 5.1, e a separao dos grupos

85 (representados pelas cores) verificada pelo menor e maior valor do atributo da prova de qumica. Possibilitando as seguintes interpretaes: O grupo representado pela cor vermelha tem a maioria dos candidatos com a pontuao inferior ao grupo representado pela cor verde e azul. O grupo representado pela cor verde tem a maioria dos candidatos com a pontuao superior ao grupo representado pela cor vermelha e inferior ao grupo representado pela cor azul. O grupo representado pela cor azul tem a maioria dos candidatos com a pontuao superior aos grupos representados pelas cores verde e vermelha.

a)

b)

Figura 5.7: Disperso de dados tridimensional representando resultado do algoritmo de agrupamento da base UEM-2005 - (linguagem R).

No se esgotaram as possibilidades de identificao de outras interpretaes que podem ser realizadas, at porque, esta visualizao permite a sua projeo em diferentes ngulos. b) Tcnicas Iconogrficas De acordo com a avaliao das tcnicas de visualizao de informao que resultou na Tabela 4.1, as visualizaes faces de chernoff e Star Glyphs, tiveram baixa pontuao na caracterstica escalabilidade e maior pontuao para dimensionalidade. Considerando que a escabilidade analisada diz respeito quantidade de grupos, aps a aplicao de um algoritmo de agrupamento, e que os centrides representam os grupos criados, ou seja, para cada grupo

86 existe um centride que um conjunto de valores calculados para cada atributo, mantendo o mesmo nmero de atributos, possvel utilizar a visualizao faces de chernoff ou star grlyphs para representar os grupos. A Figura 5.8 ilustra a visualizao faces de chernoff representando os centrides dos quatros grupos gerados pelo algoritmo K-mdias, sendo que as variaes nos valores dos atributos determinam faces distintas. As alteraes que ocorrem nas faces so realizadas pelo mapeamento do atributo com as caractersticas de uma face (altura da face, altura da boca, altura dos olhos, largura do cabelo e etc...). A funo da Linguagem R que implementa a gerao da visualizao faces de chernoff no apresenta qualquer informao sobre como foi realizado o mapeamento de cada atributo com as propriedades da face. Com a realizao de alguns testes com o atributo total de pontuao, pode-se verificar que este atributo est relacionado com as propriedades relativas a cabelo. Somente a face quatro tem uma maior projeo do cabelo, sendo assim possvel afirmar que o Grupo 4 contm os candidatos aprovados e o Grupo 1 os candidatos reprovados.

Figura 5.8: Faces de chernof representando os centrides dos grupos gerados pelo algoritmo k-mdias - (linguagem R).

5.3 CONSIDERAE FINAIS


A principal preocupao em relao utilizao das tcnicas de visualizao a gerao de visualizaes que no prejudiquem as interpretaes, pois a compreenso incorreta de dados pode levar tomada de deciso incorreta. Portanto, importante que sejam fornecidos subsdios para a escolha correta da tcnica de visualizao. Existem inmeras visualizaes de informao e a aplicao de cada visualizao requer um estudo particular com intuito de conhecer as suas vantagens e desvantagens. Assim, algumas

87 visualizaes foram utilizadas tendo como dados de entrada uma base de dados real e a sua anlise foi apresentada neste captulo. Por meio dessa anlise, foi possvel verificar a utilidade da avaliao das tcnicas de visualizao realizada e descrita no Captulo 4, principalmente em relao anlise de resultados obtidos na aplicao de um algoritmo de agrupamento que, por sua vez, pode ser usado na minerao de dados.

88

6 CONCLUSO E TRABALHOS FUTUROS


Apesar do uso j bastante difundido de ferramentas de minerao de dados, ainda existe grande dificuldade por parte do tomador de deciso no entendimento dos conhecimentos gerados por essas ferramentas. Isto geralmente ocorre devido ao formato dos resultados apresentados. Algumas dessas ferramentas no utilizam representaes grficas. Existem tcnicas de visualizao de informao que podem contribuir para o melhor entendimento dos resultados da minerao de dados. No entanto, ainda existem dificuldades no uso dessas tcnicas, principalmente por no haver um direcionamento sobre quais delas so mais adequadas para a visualizao de informao, tomando como base caractersticas das informaes a serem visualizadas e caractersticas das prprias tcnicas que facilitam o entendimento dessas informaes. Buscando amenizar essas dificuldades, neste trabalho apresentada uma avaliao de tcnicas de visualizao de informao geomtricas e iconogrficas. A tcnica de avaliao utilizada foi Anlise de Caractersticas, onde foram identificadas caractersticas relevantes sobre as tcnicas de visualizao de informao, tanto em relao s informaes a serem visualizadas quanto capacidade de interpretao. Para cada tcnica de visualizao avaliada foi atribuda uma pontuao em relao a cada caracterstica identificada. No entanto, a Anlise de Caractersticas uma tcnica subjetiva, pois a avaliao reflete a tendncia do avaliador. Na avaliao realizada foram analisadas as vantagens, desvantagens e limitaes de algumas tcnicas de visualizao de informao por meio do uso de bases de dados fornecidas pelo ambiente de programao, de matrizes de dados com valores gerados aleatoriamente e de base de dados real. Alm disso, as tcnicas de visualizao foram utilizadas para representao dos resultados obtidos com a aplicao do algoritmo de agrupamento K-mdias. O principal objetivo da avaliao apresentada neste trabalho fornecer subsdios para o uso de tcnicas de visualizao de informao na anlise de resultados obtidos com a aplicao de tcnicas de minerao de dados, contribuindo para um melhor entendimento desses resultados. Portanto, a inteno no foi criar regras ou receitas sobre a utilizao das visualizaes, por existir grande variedade de tcnicas de visualizao de informao e ser difcil afirmar o quanto cada uma delas consegue representar o potencial analtico de

89 minerao de dados. Neste trabalho foram analisadas a tarefa de agrupamento e seis visualizaes de informao, classificadas em duas tcnicas de visualizao (projeo geomtrica e iconogrfica). Os resultados da avaliao realizada demonstraram o quanto cada tcnica de visualizao analisada pode contribuir no entendimento tanto de dados originais existentes nas bases de dados quanto de resultados obtidos com a aplicao de um algoritmo de agrupamento. Assim, pode-se concluir que o uso adequado de tcnicas de visualizao facilita a anlise de dados em geral de resultados da minerao de dados. A linguagem R, utilizada na aplicao do algoritmo de agrupamento e na gerao das visualizaes mostrou ser um recurso vivel apesar de fornecer um processo semi-automtico onde necessrio o envolvimento do analista na realizao de determinadas tarefas. Nesta linguagem existem diversas bibliotecas que contm algoritmos para realizao da tarefa de MD, por exemplo, a biblioteca R-WEKA que permite a utilizao dos algoritmos da ferramenta WEKA5. Porm, os resultados desses algoritmos, quando possvel, devem ser adaptados para a sua utilizao em outra funo que projeta visualizao. Como trabalhos futuros podem ser citados: Avaliao de outras tcnicas de visualizao, por exemplo: Tcnicas Orientadas a Pixel e Tcnicas Hierrquicas. Agregao de tcnicas de interao nas funcionalidades de visualizao existentes na linguagem R, por exemplo: zoom e filtragem interativa na visualizao de coordenadas paralelas. Construo de uma interface na linguagem R com recursos de manipulao, limpeza e tratamento da base de dados. Integrao das funcionalidades que implementam algoritmos de minerao de dados e tcnicas de visualizao de informao na linguagem R, como por exemplo, adaptar a sada da funo k-means (algoritmo de agrupamento) para a entrada da funo parcoord (visualizao de coordenadas paralelas).

Weka (Waikato Environment for Knowledge Analisys) ferramenta especifica para minerao de dados escrita em java. Contemplando conjuntos de algoritmos para realizao das tarefas de agrupamento, classificao e associao.

90 Elaborar uma avaliao contemplando outras tarefas de MD (classificao, associao, regresso e etc...), e verificar quais dentre as tcnicas de visualizao podem ser integradas s tarefas de MD.

91

REFERNCIAS
AGRAWAL, R.; IMIELINSKI, T.; SWAMI, A. Mining Association Rules Between Sets of Itens in Large Databases. In: ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 1993, Washington, Proceedings... Washington, ACM, 1993. p. 207-216. BARIONI, M. C. N. Visualizao de operaes de juno em sistemas de bases de dados para minerao de dados. 2002. Dissertao (Mestrado)-Instituto de Cincias Matemticas e de Computao,Universidade de So Paulo, So Carlos, 2002. BENDIX, F.; KOSARA, R.; HAUSER H. Parallel sets: visual analysis of categorical data. In: IEEE SYMPOSIUM INFORMATION VISUALIZATION, 5., Washington, 2005, Proceedings... Washington: IEEE Computer Society, 2005. p. 133140. CARD, S. K.; MACKINLAY, J. D.; Shneiderman, B. Readings in information visualization: Using Vision to Think. San Francisco: Morgan Kaufmann, 1999. CARLANTONIO, L. M. Novas metodologia para clusterizao de dados. Dissertao (Mestrado)-Engenharia Civil, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2001. CHERNOFF, H. The use of faces to represent points in K-Dimensional space graphically. Journal of the American Statistical Association, New York, v. 68, no. 342, p. 361-367, 1973. CHI, E. H.; RIEDL, J. T. An operator interaction framework for visualization spreadsheets. In: IEEE SYMPOSIUM INFORMATION VISUALIZATION, 1998, Washington, Proceedings... Washigton: IEEE Computer Society, 1998. p. 63-70. CRESPO, A. A. Estatiststica fcil. 17. ed. So Paulo: Saraiva, 1999. DIAS, M. M. Um modelo de formalizao do processo de sistema de descoberta de Conhecimento em banco de dados. 2001. Tese (Doutorado)-Ps Graduao em Engenharia de Produo, Universidade Federal de Santa Catarina. Florianpolis, Santa Catarina, 2001. DIAS, M. M. Parmetros na escolha de tcnicas e ferramentas de minerao de dados. Acta Scientiarum, Maring, v. 24, n. 6, p. 1715-1725, 2002. DOWNING, D.; CLARK, J. Estatstica aplicada. 2. ed. So Paulo: Saraiva, 2002. EBERT, D. S.; ROHRER, M. R.; SHAW D. C; PANDA P.; KUKLA M. J.; ROBERTS A.D. Procedural shape generation for multi-dimensional data visualization. Computers & Graphics, New York, v. 24, no. 3, p. 375-384, 2000. ESTIVALET, L. F.; FREITAS, C. M. D. S. O Uso de cones na visualizao de informaes. 2000. Dissertao (Mestrado)-Instituto de Informtica, Programa de Ps Graduao em Computao, Universidade Federal do Rio Grande do Sul, Porto Alegre. 2000.

92 FAYYAD, U. M.; PIATESTKY SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: an overview. In: FAYYAD, U. M. et al. (Ed.). Advances knowledge discovery and data mining. Menlo Park: AAAI, 1996a. p. 1-36. FAYYAD, U.; PIATETSKY S. G.; SMYTH, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, v. 39, no. 11, p. 27-35, 1996b. FEKETE, J.; PLAISANT, C. Interactive information visualization of a million items. In: IEEE SYMPOSIUM ON INFORMATION VISUALIZATION, 2., 2002, Boston. Proceedings... Boston: IEEE, 2002. p. 117. FREITAS, C. M. D. S. et al. Introduo visualizao de informaes. Revista de Informtica Terica e Aplicada, Porto Alegre, v. 8, n. 2, p. 143-158, 2001. GERSHON, N.; EICK, S. G. Information visualization. IEEE Computer Graphics and Applications, New York, v. 17, no. 4, p. 29-31, 1997. GOEBEL, M.; GRUENWALD, L. A Survey of Data Mining and Knowledge Discovery Software Tools. ACM SIGKDD Explorations, New York, v. 1, no. 1, p. 20-33, June. 1999. GOLDSCHMIDT, R. Assistncia inteligente orientao do processo de descoberta de conhecimento em bases de dados. 2003. Tese (Doutorado)-Programa de Ps-graduao em Engenharia Eltrica, Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2003. GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pratico. 1. ed. Rio de Janeiro: Campus, 2005. HUANG, Z.; Clustering Large Data Sets with Mixed Numeric and Categorical Values Proceedings First Pacific-Asia: Conf. Knowledge Discovery and Data Mining, 1997. pages 21-34 HRUSCHKA, E. R.; EBECKEN, N. F. F. A genetic algorithm for cluster analysis. Intelligent Data Analysis, Netherlands, v. 7, no.1, p.15-25, 2003. INSELBERG, A. DIMSDALE, B. Parallel coordinates: a tool for visualizing multidimensional geometry. In: CONFERENCE ON VISUALIZATION 90, 1., 1990, San Francisco. Proceedings Los Alamitos: IEEE Computer Society, 1990. p. 23-26. JOHNSON, A. R.; WICHNER, W. D. Applied multivariate statistical analysis. New Jersey: Prentice-Hall, 1982. KEIM, D. A.; KRIEGEL, H. P. Visualization techniques for mining large databases: a comparion. IEEE Transactions on Knowledge and Data Engineering, Los Alamitos, v. 8, no.6, p. 923-938, Dec. 1996. KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on Visualization and Computer Graphics, Los Alamitos, v. 8, no.1 p. 1-8, Jan. 2002.

93 KOSARA, R.; SAHLING, G.; HAUSER, H. Linking scientific and information visualization with interactive 3D scatterplots. In: INTERNATIONAL CONFERENCE IN CENTRAL EUROPE ON COMPUTER GRAPHICS, VISUALIZATION AND COMPUTER VISION SHORT COMMUNICATION. 12., 2004, Proceedings... p. 133140, 2004.

LEE, M. D.; REILLY, R. E.; BUTAVICIUS, M. A. An empirical evaluation of chernoff faces, star glyphs, and spatial visualizations for binary data. In: AUSTRALIAN SYMPOSIUM ON INFORMATION VISUALIZATION, 24., 2003, Australia. Proceedings... Austrlia, 2003. p.1-10. MACKINLAY, J. Automating the design of graphical presentations of relational information. ACM Transactions on Graphics, New York, v. 5, no.2, p. 110141. 1986. MENEZES, E. M.; SILVA, E. L. Metodologia da pesquisa e elaborao de dissertao. Santa Catarina: Ed. da UFSC, 2001. NASCIMENTO, H.; FERREIRA, C. Visualizao de Informao uma abordagem prtica. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAO, 25., 2005, So Leopoldo. Anais... So Leopoldo: Unisinos, 2005. p. 1262-1312. PFLEEGER, L. S. Engenharia de software teoria e pratica. 2. ed. So Paulo: Pearson Prentice Hall, 2004. PRASS, F. S. Estudo comparativo entre algoritmos de anlise de agrupamentos em data mining. 2004. Dissertao (Mestrado)-Ps-graduao em cincia da computao, Universidade Federal de Santa Catarina. Florianpolis, 2004. PINHEIRO, L. C. Mtodo de representao espacial de clustering. 2006. Dissertao (Mestrado)-Ps-Graduao em Informtica, Universidade Federal do Paran, Curitiba, 2006. PUNTAR, G. S. Mtodos e Visualizao de Grupamentos de Dados. 2003. Dissertao (Mestrado)-Ps Graduao em Engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2003. THE R projetc for statistical computing. Disponvel em: <http://www.r-project.org/.> Acesso em: 27 jun. 2007. RODRIGUES. J. F. Desenvolvimento de um framework para anlise visual de informao suportando data mining. 2003. Dissertao (Mestrado)-Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, So Carlos, 2003. RUNDENSTEINER, E. A. et al. XmdvTool: visual interactive data exploration and trend discovery of high-dimensional data sets. In: ACM SIGOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA. 2002, Madison. Proceedigns... Madison: ACM, 2002. p. 631.

94 RUSSO, S. C.; GROS, P.; ABEL, P. Visualizao tridimensional de grandes volumes de informao. In: CONGRESSO LUSO-MOAMBICANO DE ENGENHARIA, 1999. Maputo. Proceedigns... Maputo: Eurocom, 1999. p. 73-87. v. 2. SHIMABUKURU, H. M. Visualizao temporal em uma plataforma software extensvel e adaptvel. 2004. Tese (Doutorado)-Instituto de Cincia Matemtica e de Computao. Universidade de So Paulo, So Carlos, 2004. SHIMAKURA, E. S. Tipo de dados Disponvel <http://leg.ufpr.br/~shimakur/CE001/node7.html>. Acesso em 20 mar. 2007. em:

TRAINA, A. J. M.; BARIONI C. M.; BOTELHO E.; FALOUSTSOS C.; RAZENTE H. et al. Data visualization in RDBMS. In: IASTED INTL. CONFERENCE ON INFORMATION SYSTEMS AND DATABASES. 2002, Tquio. Proceedings... Anaheim: ACTA, 2002. p. 264-269. v. 1. VAZ, F. R. CARVALHO, L. C. Visualizao de informao. Instituto de Informtica, Universidade Federal de Gois, Gois, 2004. Relatrio Tcnico. WEGMAN, E. J.; LUO, Q. High Dimensional clustering using parallel coordinates and the grand tour. Computing Science and Statistics, v. 28, p. 352-360, 1996. WONG, P.C. Visual data mining. IEEE Computer Graphics and Applications, Los Alamitos, v.19, no.5, p. 20-21, Sep./Oct. 1999.

95

APNDICE A - ALGORITMOS DE AGRUPAMENTO A.1 - ALGORITMO K-MDIAS EM PORTUGOL


Numero de grupos (k); Ler os registros que sero agrupado; Enquanto existir objetos no agrupado faa Calcule a distncia entre o elemento e os centrides; Adicione o elemento ao agrupamento que possuir a menor distncia; Recalcule o centride do agrupamento; fim para para Todos os k agrupamentos faa Calcule a Soma de Quadrados Residual; fim para repita para todos os n elementos faa Mova o elemento para os outros agrupamentos; Recalcule a Soma de Quadrados Residual; se soma dos Quadrados Residual diminuiu ento O objeto passa a fazer parte do agrupamento que produzir maior ganho; Recalcule a Soma de Quadrados Residual dos agrupamentos alterados; fim se fim para at Nmero de interaes = i ou No ocorra mudana de objetos

96

A.2 - FUNO DO ALGORITMO DE AGRUPAMENTO K-MDIA NA LINGUAGEM R


Obs: frases em itlico no cdigo e precedidas do smbolo # so comentrios.
> kmeans(x, centers, iter.max = 10, nstart = 1, method = "euclidean")

Exemplos de cdigo:
# fonte: documentao do R > x <- rbind(matrix(rnorm(100, sd = 0.3), ncol = 2), matrix (rnorm (100, mean = 1, sd = 0.3), ncol = 2)) > colnames(x) <- c("x", "y") > (cl <- kmeans(x, 2)) > plot(x, col = cl$cluster) > points(cl$centers, col = 1:2, pch = 8, cex=2)

#agrupamento da base de dados USArrests > library(amap) > x = USArrests # carrega o pacote em memria # atribuir a base de dados numa varivel

> x

# exibir base de dados

>

cl<-Kmeans(x,5,method

"euclidean")

#Agrupar

os

elementos

armazena na varivel cl > cl # exibir agrupamento

97

# agrupar base de dados uem > library(amap) #carregar pacote na memria > library(Rweka) #carregar pacote do weka > x<-read.arff('D:/uem_medicina.arff') #carregar a base de dados uem que esta formato de leitura do WEKA> > cl<-Kmeans(x,5,method = "euclidean") # agrupar a base > cl #exibir agrupamento

98

APNDICE B - VISUALIZAO DE INFORMAO UTILIZANDO LINGUAGEM R


Obs: frases em itlico no cdigo e precedidas do smbolo # so comentrios.

B.1 - MATRIZ DE DISPERSO


Funo: plot(x, col, pch, type ) Paramtros: x - base de dados; col - propriedade cor para cada registro; pch - propriedade tipo formato para cada registro; type tipo dos componentes utilizado na visualizao, "p" pontos, "l" para linhas, "b" pontos utilizando linhas, "h" para histograma, "s" linhas verticais e horizontais ligando os pontos. ... existncia de outros parmetros.

Exemplos de cdigos:
#fonte: documentao do R > plot(cars) > lines(lowess(cars)) > plot(sin, -pi, 2*pi) ## Distribuio discreta > plot(table(rpois(100,5)), type = "h", col = "red", lwd=10, main="rpois(100,lambda=5)")

Projeo da visualizao da matriz de disperso representado o resultado do algoritmo kmedias aplicado na base de dados USArrests
#Projeo da Figura 4.11 (matriz de disperso) > x = USArrests #carregar a base > cl<-Kmeans(x,5,method = "euclidean") # agrupar os registros

99
> plot(x,col=cl$cluster) # projetar visualiao

#projeo da Figura 4.14 (matriz de disperso com destaque para caracterstica correlao) > ma_correlacao <- function(a,b, digits=2, prefix="", cex.cor) {funo para exibio da matriz} { u <- par("u"); on.exit(par(u)) par(u = c(0, 1, 0, 1)) r <- abs(cor(a,b)) txt <- format(c(r, 0.123456789), digits=digits)[1] txt <- paste(prefix, txt, sep="") if(missing(cex.cor)) cex <- 0.8/strwidth(txt) test <- cor.test(a,b) Signif <- symnum(test$p.value, corr = FALSE, na = FALSE, cutpoints = c(0, 0.001, 0.01, 0.05, 0.1, 1), symbols = c("***", "**", "*", ".", " ")) text(0.5, 0.5, txt, cex = cex * r) text(.8, .8, Signif, cex=cex, col=2) } >pairs(USArrests, lower.panel= panel.smooth,upper.panel= ma_correlacao)

B.2 - DISPERSO DE DADOS TRIDIMENSIONAL (SCATTER PLOT 3D)


Pacote: scatterplot3d Funo:
scatterplot3d(x, y=NULL, z=NULL, color=par("col"), pch=NULL, main=NULL, sub=NULL, xlim=NULL, ylim=NULL, zlim=NULL, xlab=NULL, ylab=NULL, zlab=NULL, scale.y=1, angle=40, axis=TRUE, tick.marks=TRUE, label.tick.marks=TRUE, grid=TRUE, box=TRUE, ...)

Parmetros: x fonte de dados, caso utilize este parmetros somente como coordenada necessrio utilizar o parmetro y e z; y, z coordenada y e z;
color propriedade cor; pch uso de simbolos; main titulo da visualizao; sub sub-titulo da visualizao; xlim, ylim, zlim limites para as coordenadas;

100
xlab, ylab, zlab ttulos para os eixos; scale.y determinao escalas; angle projeo em diferentes ngulos; axis valor lgico que indica a remoo dos eixos; tick.marks tracejadas; label.tick.marks valor lgico para exibir layout dos valores das linhas tracejadas; valor lgico que permite a remoo das linhas

grid valor lgico que indica se as linhas devem ser visualizadas; Box valor lgica que indica a presena de um cubo na visualizao

Exemplos de cdigos:
#fonte: documentao do R #visualizao da figura b.1 Mistura de cores > library(scatterplot3d)# carregar pacote > cc <- colors() > crgb <- t(col2rgb(cc)) > par(xpd = TRUE) > rr <- scatterplot3d(crgb, color = cc, box = FALSE, angle = 24, xlim = c(-50, 300), ylim = c(-50, 300), zlim = c(-50, 300)) > cubedraw(rr) > rbc <- rainbow(201) > Rrb <- t(col2rgb(rbc)) > rR <- scatterplot3d(Rrb, color = rbc, box = FALSE, angle = 24, xlim = c(-50, 300), ylim = c(-50, 300), zlim = c(-50, 300)) > cubedraw(rR) > rR$points3d(Rrb, col = rbc, pch = 16)

Figura b.1 Visualizao disperso de dados 3d Representando um cubo com mistura de cores- Fonte: Documentao R

101

# projeo da Figura 5.7: Disperso de dados tridimensional representando resultado do algoritmo de agrupamento da base UEM2005. x <- read.table('D:/base_de_teste/uem_2005.txt') # carregar a base de dados uem > y <- x[-4]... # selecionar os atributos de interesse > cl<-Kmeans(x,5,method = "euclidean") # agrupar a base > library(scatterplot3d)# carregar pacote > scatterplot3d(y, color=cl$cluster,type="h",angle=55, scale.y=0.7, pch=16, main="scatterplot3d 5") #Projeo da base de dados

utilizando o atributo cor para representar os grupos

B.3 - COORDENADAS PARALELAS


Pacote: MASS Funo:
parcoord(x, col = 1, lty = 1, var.label = FALSE, ...)

Parmetros: x base de dados; col propriedade cor (vetor); lty tipo de linhas (vetor); var.label valor lgico que indica a necessidade de layout.

Exemplos:
# Projeo da Figuras 5.5: Coordenadas paralelas gerado pelo algoritmo K-means utilizando a base de dados uem/2005. > x <- read.table('D:/base_de_teste/uem_2005.txt') #carregar a base de dados uem > y <- x[-4]... # selecionar os atributos de interesse > cl<-Kmeans(x,5,method = "euclidean") #agrupar a base > parcoord((x), col = cl$cluster)

# projeo da Figura 4.1a x<-matrix(sample(1:10000,3400,),100,100)

102
cl<-Kmeans(x,3,method = "euclidean") parcoord((x), col = cl$cluster)

B.4 - FACES DE CHERNOFF


Pacote: TeachingDemos Funo:
faces(xy, which.row, fill = FALSE, nrow, ncol, scale = TRUE, main, labels)

Parametros: xy x representa os registros e y os atributos (fonte de dados); which.row valor lgico que permite a permutao na linhas; fill se este valor verdadeiro somente os atributos da base mapeado nas propriedades da face sofrem transformao; Nrow nmero de colunas da face; Scale- valor lgico que permite normalizar a escala das propriedades da face; Main titulo da visualizao; Labels valor lgico que determina a projeo do layout para cada cone.

Exemplos:
#fonte: documentao do R figura b.2
faces(rbind(1:3,5:3,3:5,5:7)) data(longley) faces(longley[1:9,]) set.seed(17) faces(matrix(sample(1:1000,128,),16,8),main="random faces")

Figura b.2 faces de chernof com valores aleatrios

103

Exemplos:
# Projeo da Figuras f.2: representa a faces de chernoff com todos os registros da base de dados USArrests, o nmero acima da face, significa a qual grupo cada face pertence, agrupamento gerado pelo algoritmo k-means. > library(amap) > library (TeachingDemos) > x = USArrests > cl<-Kmeans(x,5,method = "euclidean") > faces(cl$centers) > faces(x,labels=matrix(cl$cluster))

Figura F.2 Faces de Chernoff, representando todos os registros da base de dados USArrests, com o layout (nmero) representando o nmero do grupo a qual pertence.

B.5 - STAR PLOT


Pacote: graphics Funo:
stars(x, full = TRUE, scale = TRUE, radius = TRUE, labels = dimnames(x)[[1]], nrow = NULL, ncol = NULL, len = 1, key.loc = NULL, key.labels = dimnames(x)[[2]], key.xpd = TRUE, ...)

Paramtros:

104 x- fonte de dados (matriz ou data frame) full parmetro lgico, para o valor True projeo realizada em todo o circulo, caso contrario projetado na metade do circulo scale parmetro lgico, para o valor true os dados so projetado numa escala de 0 a 1. Radius - parmetro lgico, habilita e desabilita os eixos emitidos, deixando apenas as retas que conectam as pontas dos eixos. Labels layout de cada icone. nrow,ncol Numero de linhas e colunas len - tamanho dos eixos.

Exemplo:
# Visualizao da Figura 5.3 > x <- read.table('D:/base_de_teste/uem_2005.txt') #carregar a base de dados uem > library(graphics)# carregar biblioteca na memria > y <- x[-13] #retirar o atributo class > stars(y, key.loc = c(8, 2.5),main = "analise dos candidatos cluster" , flip. Labels=FALSE) #projetar visualizao

# Visualizao da Figura 4.7a > stars(b,len = 0.8, key.loc = c(9, 1.5),draw.segments = TRUE)

S-ar putea să vă placă și