Sunteți pe pagina 1din 4

Instituto Federal Goiano-Campus Uruta

Minerao de dados

Alunos: Luis, Wesley, Marco Antnio, Vincius.

Introduo Minerao de Dados um ramo da computao que teve incio nos anos 80, quando os pro#ssionais das empresas e organizaes comearam a se preocupar com os grandes volumes de dados informticos estocados e inutilizados dentro da empresa. Nesta poca, Data Mining consistia essencialmente em extrair informao de gigantescas bases de dados da maneira mais automatizada possvel. Atualmente, Data Mining consiste sobretudo na anlise dos dados aps a extrao, buscando-se por exemplo levantar as necessidades reais e hipotticas de cada cliente para realizar campanhas de marketing. Assim, uma empresa de cartes de crdito, por exemplo, tem uma mina de ouro de informaes: ela sabe os hbitos de compra de cada um dos seus seis milhes de clientes. O que costuma consumir, qual o seu padro de gastos, grau de endividamento, etc. Para a empresa essas informaes so extremamente teis no estabelecimento do limite de crdito para cada cliente, e alm disso, contm dados comportamentais de compra de altssimo valor. Os seguintes pontos so algumas das razes por que o Data Mining vem se tornando necessrio para uma boa gesto empresarial: (a) os volumes de dados so muito importantes para um tratamento utilizando somente tcnicas clssicas de anlise, (b) o usurio #nal no necessariamente um estatstico, (c) a intensi#cao do tr#co de dados (navegao na Internet, catlogos online, etc) aumenta a possibilidade de acesso aos dados. Este minicurso tem como objetivo fornecer um apanhado geral das principais tarefas e tcnicas de minerao de dados. Discutiremos algumas tcnicas de otimizao e implementao de algoritmos de minerao de dados referentes a tarefas de regras de associao, descoberta de padres sequenciais, classi#cao e anlise de clusters. Alm disto, discutiremos aspectos tericos subjacentes a diferentes tcnicas de minerao, que possibilitaro o desenvolvimento de algoritmos de minerao para novas tarefas. O que Minerao de Dados Afinal, o que Minerao de Dados ? Falando simplesmente, trata-se de extrair ou minerar conhecimento de grandes volumes de dados. Muitas pessoas consideram o termo Minerao de Dados como sinnimo de Knowledge Discovery in Databases (KDD) ou Descoberta de Conhecimento em Banco de Dados. Na verdade, KDD um processo mais a amplo consistindo das seguintes etapas: 1. Limpeza dos dados: etapa onde so eliminados rudos e dados inconsistentes. 2. Integrao dos dados: etapa onde diferentes fontes de dados podem ser combinadas produzindo um nico repositrio de dados. 3. Seleo: etapa onde so selecionados os atributos que interessam ao usurio. Por exemplo, o usurio pode decidir que informaes como endereo e telefone no so de relevantes para decidir se um cliente um bom comprador ou no. 4. Transformao dos dados: etapa onde os dados so transformados num formato apropriado para aplicao de algoritmos de minerao (por exemplo, atravs de operaes de agregao). 5. Minerao: etapa essencial do processo consistindo na aplicao de tcnicas inteligentes a #m de se extrair os padres de interesse.6. Avaliao ou Ps-processamento: etapa onde so identi#cados os padres interessantes de acordo com algum critrio do usurio. 7. Visualizao dos Resultados: etapa onde so utilizadas tcnicas de representao de conhecimento a #m de apresentar ao usurio o conhecimento minerado.

Exemplo de Minerao de dados. O governo dos EUA se utiliza do dataminig j h bastante tempo para identificar padres de transferncia de fundos internacionais que se parecem com lavagem de dinheiro do narcotrfico. Tambm outros crimes,como o atentado na cidade de Oklahoma,foram analisados atravs do Datamining varrendo registros de compra de explosivos e outros acessrios adquiridos para fabricao de bombas.

Tnansformar dados em informaes A sociedade produz grande quantidade de dados, grandes empresas, medicina, economia, esporte e geografica ambiente a usam, mais para seu uso os dados precisam ser uteis. Os dados brutos so inteis: sendo necessrio uma tcnicas que automaticamente extraiam informao delas. Informao nada mais do que padres nos dados. Exemplo : Em uma seleo de gado dados: so gado descrito por 700 caractersticas, informao seleo de gado, data so registros histricos com a deciso dos fazendeiros. Temos varios tipos de extraes: Extrao implcita Extrao previamente desconhecida, Extrao Potencialmente til Necessidades do uso de minerao de dados: programas que detectem padres e regularidades em dados Padres fortes boas predies os padres podem no ser exatos, os dados podem estar truncados ou faltar. Algoritmos para adquirir descries estruturadas de exemplos. Descries estruturadas representam padres explicitamente, pode ser usada para predio em novas situaes, pode ser usada para entender e explicar como se deriva uma predio. Os mtodos se originam de inteligncia artificial,estatstica e pesquisas em bases de dados. Classi#cao e Predio. Classi#cao o processo de encontrar um conjunto de modelos (funes) que descrevem e distinguem classes ou conceitos, com o propsito de utilizar o modelo para predizer a classe de objetos que ainda no foram classi#cados. O modelo construdo baseia-se na anlise prvia de um conjunto de dados de amostragem ou dados de treinamento, contendo objetos corretamente classi#cados. Por exemplo, suponha que o gerente do supermercado est interessado em descobrir que tipo de caractersticas de seus clientes os classi#cam em #bom comprador# ou #mau comprador#. Um modelo de classi#cao poderia incluir a seguinte regra: #Clientes da faixa econmica B, com idade entre 50 e 60 so maus compradores#. Em algumas aplicaes, o usurio est mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam so numricos. Neste caso, a tarefa de minerao denominada Predio. Veremos neste curso algumas tcnicas usualmente empregadas em tarefas de classi#cao, tais como rvores de deciso e redes neurais. Boa parte dos mtodos de classi#cao utilizam tcnicas estatsticas e de aprendizado de mquina.

Anlise de Clusters (Agrupamentos). Diferentemente da classi#cao e predio onde os dados de treinamento esto devidamente classi#cados e as etiquetas das classes so conhecidas, a anlise de clusters trabalha sobre dados onde as etiquetas das classes no esto de#nidas. A tarefa consiste em identi#car agrupamentos de objetos, agrupamentos estes que identi#cam uma classe. Por exemplo, poderamos aplicar anlise de clusters sobre o banco de dados de um supermercado a #m de identi#car grupos homogneos de clientes, por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos dacidade costumam fazer suas compras s segundas-feira Ferramentas A popularizao da ferramenta de minerao de dados, surgiu ferramentas que rene dos mais diversos algoritmos de minerao de dados como: IlliMine, KDB2000, KNIME, MDR, Tanagra, WEKA e outros. Foi optado por usar-se o WEKA por essa ser uma ferramenta livre, de boa qualidade, grande quantidade de algoritmos e constantemente atualizada. WEKA uma coleo de algoritmos de aprendizado de maquina para tarefas de minerao de dados. Os algoritmos podem ser diretamente aplicados ou chamados pelo seu prprio cdigo java. WEKA possu ferramentas de pr-processamento, classificao, regresso, agrupamento (clustering), regras de associao e visualizao. (Machine Learning Group at University of Waikato). Os algoritmos encontrados no programa de minerao de dados no foram criados pelos criadores do programa, mas sim implementados, sendo que uma ferramenta de minerao de dados simplesmente agrupa uma grande quantidade de algoritmos com o mesmo objetivo. O resultado do aprendizado aplicado, podemos citar varias mais uma delas so, aplicaes financeiras, previso de consumo de energia, diagnostico de defeitos em maquinas, vendas e Marketing e agronomia. Bibliografia: Dataming, a minerao de dados no marketing, medicina, economia, engenharia, administrao. Autor: luis alfredo vidal de carvalho. Sistema de banco de dados, autor andre silberchatz

S-ar putea să vă placă și