Sunteți pe pagina 1din 5

Data Mining

A- O que é?
Com a geração de um volume cada vez maior de informação e o valor
agregado ao conhecimento e manipulação da informação subindo cada vez
mais, é essencial tentar extrair o máximo possível desse investimento. Com o
armazenamento das informações nas bases de dados, se viu possível, extrair
outras informações a partir do cruzamento de informações anteriormente
obtidas. Como exemplo, se sabemos que uma pessoa está indo a academia e
também está acima do seu peso ideal, podemos subentender que esta pessoa
está buscando emagrecer. Num exemplo mais técnico, um banco de dados de
transações comerciais pode, por exemplo, conter diversos registros indicando
produtos que são comprados em conjunto. Quando se descobre isso pode-se
estabelecer estratégias para otimizar os resultados financeiros da empresa.
Esses exemplos nos mostra uma vantagem suficientemente importante para
justificar a importância de um processo que extraia informações antes não
conhecidas de uma base de dados.

Pensando nessa possibilidade de buscar mais informações combinando


informações obtidas anteriormente, foi gerado o Data Mining (Mineração de
Dados). Data Mining, é um termo de origem inglesa que em tradução direta
significa Mineração de Dados. Consideramos Data Mining ou Mineração de
Dados o processo de explorar grandes quantidades de dados à procura de
padrões consistentes. Como regras de associação ou sequências temporais,
para detectar relacionamentos sistemáticos entre variáveis, detectando assim
novos subconjuntos de dados.

Data Mining é um conjunto de técnicas e ferramentas que utilizam


algoritmos de classificação ou aprendizagem baseados em estatísticas e redes
neurais. Tais algoritmos tem por capacidade explorar um conjunto de dados,
extraindo ou ajudando a evidenciar padrões nestes dados, auxiliando na
descoberta de conhecimento. O conhecimento em Data Mining pode ser
apresentado por essas ferramentas de diversas formas: agrupamentos,
hipóteses, regras, árvores de decisão, grafos, ou dendrogramas.
Nós aprendemos muito observando padrões, criando hipóteses e
testando-as para descobrir regras. A novidade da era do computador é o volume
enorme de dados que não pode mais ser examinado à procura de padrões em
um prazo de tempo razoável. A solução é instrumentalizar o próprio computador
para detectar relações que sejam novas e úteis. O Data Mining (DM) surge para
essa finalidade e pode ser aplicada tanto para a pesquisa cientifica como para
impulsionar a lucratividade da empresa madura, inovadora e competitiva.

Todos os dias, as empresas geram cada vez mais dados em seus


aplicativos operacionais. São dados brutos que dizem quem comprou o quê,
onde, quando e em que quantidade. É a informação vital para o dia-a-dia da
empresa. Se fizermos estatística ao final do dia para repor estoques e detectar
tendências de compra, estaremos praticando Business Intelligence (que será
explicado no próximo capítulo). Se analisarmos os dados com estatística de
modo mais apurado, à procura de padrões de vinculações entre as variáveis
registradas, então estaremos fazendo Data Mining.

B- Para que é usado e como pode ser útil às empresas ou


processos?

O Data Mining tem campo de atuação muito vasto. Ele pode ser usado
em bancos, como o Bank of America que se usa o Data Mining para selecionar
dentre seus clientes, aqueles com riscos menores de dar calote em um
empréstimo. A partir destes relatórios, eles enviam cartas oferecendo linhas de
crédito, com isso, em três anos o banco lucrou 30 milhões de dólares, além disso
eles também o utilizam para traçar perfis de pessoas, analisando suas atividades
e deduzindo padrões de informações. Outro exemplo de aplicação do Data
Mining é no Governo, como exemplo os Estados Unidos da América (EUA), que
utilizam Data Mining há muito tempo, para identificar lavagem de dinheiro do
narcotráfico através de padrões de transferências de fundos internacionais
suspeitos A Mineração de Dados também é aplicada no Wall Mart, há cinco anos
ao procurar relações entre o volume de vendas e os dias da semana, um
software de Data Mining mostrou que as sextas-feiras a venda de cerveja,
aumentava na mesma proporção que a venda de fraudas, detalhando ainda mais
notou-se que ao comprar fraldas para seus bebês, eles aproveitam para
abastecer o estoque de cerveja para o final de semana. No jornalismo o Data
Mining pode ser utilizado para digitalizar publicações impressas, fazendo assim
com que o leitor possa ver edições mais antigas com mais facilidade, isso foi
usado no New York Times.
Como podemos observar nos exemplos anteriores o Data Mining é
bastante utilizado, os motivos de sua utilização são diversos, porém o principal
motivo é porque o volume de informações aumentou muito, então o Data Mining
se tornou imprescindível para uma empresa que não quer perder tempo e
dinheiro com informações perdidas no sistema.
Tanto em grandes e pequenas empresas, a mineração de dados é
amplamente aplicada, pois dados como estoques, vendas, pedidos e etc., são
gerados dia-a-dia, transformando em um grande número de informações. O Data
Mining atua coletando estes dados e gerando agrupamentos, hipóteses, regras,
árvores de decisão, grafos, ou dendrogramas, onde é possível prever variações
de mercado, lucros e prejuízos, e se houverem prejuízos, ele aponta a melhor e
mais rápida alternativa a se tomar.

C- Exemplo de ferramentas que o implementam - (nome,


empresa fabricante, gratuita ou não)
Segundo uma pesquisa do site KDnuggets, em maio de 2015, foi obtido
as ferramentas de Data Mining mais utilizadas pela comunidade. Sendo eles:
 Python:
Segundo a pesquisa, Python foi considerada a linguagem de
programação mais usada pela comunidade de profissionais de Mineração
de dados e Big data. Os usuários informaram que Python tem algumas
características como simplicidade, clareza e reusabilidade que facilitam e
muito trabalhar com Data Science. Tal linguagem oferece uma sintaxe
simples e objetiva, que deixa o programador focar melhor no problema a
ser resolvido sem se preocupar tanto com detalhes de implementações.
Por exigir que o código fonte seja corretamente endentado, sua leitura e
compreensão se torna clara e organizada, contribuindo para o aumento
de produtividade entre programadores. Além dessas facilidades, Python
possui um vasto e variado conjunto de bibliotecas (Jupyter, NumPy,
Matplotlib, Pandas, Scikit-Learn, NLTK, Scrapy, etc.) para se trabalhar
com diversas áreas, desde computação científica, redes, segurança e
análise de dados.

 Anaconda.
O Anaconda é uma distribuição gratuita e de código aberto das
linguagens de programação Python e R para computação científica, que
visa simplificar o gerenciamento e a implantação de pacotes. Anaconda
tem versões para Windows, Linux e OSX, e já vem com o Python
instalado, apenas escolha qual a versão você quer trabalhar.

 Linguagem R.
R é uma linguagem de programação extremamente poderosa e que
tem um espaço em destaque quando o assunto é Data Science. É famosa
pela sua facilidade para fazer análise de dados, processar instruções
estatísticas e modelos gráficos. A Oracle e a Microsoft, são empresas que
estão investindo na linguagem R para suas soluções analíticas de dados,
como o Oracle R Enterprise e o Microsoft R Server. A tendência é que o
R esteja em todos os lugares nos próximos anos.
 RapidMiner.
O RapidMiner, é uma plataforma para trabalhar com Data Science
de forma rápida, simples e visual. As ferramentas que o RapidMiner
fornece tem uma interface gráfica rica com objetos e processos que
simplificam as diversas tarefas necessárias para trabalhar com Data
Mining. Usando essa plataforma, é possível criar workflows intuitivos com
objetos que executam todas as tarefas do processo de mineração de
dados, como, leitura, carregamento, limpeza e transformação, filtragem,
modelagem de dados, e aplicação de algoritmos de Machine Learning e
visualização dos resultados.

D- Referências

http://datascienceacademy.com.br/blog/linguagem-r-por-que-e-hora-de-
aprender/

Waltz, David; Hong, Se June (1999) Data Mining: A Long-Term Dream. IEEE
Intelligent Systems Vol 14, No. 6.
Han, Jiawei; Chen, Ming-Syan; Yu, Philip S. (1996) Data Mining: An Overview
from Database Perspective
https://www.cetax.com.br/blog/data-mining/

https://www.anaconda.com/distribution/

https://www.oracle.com/technetwork/database/database-technologies/r/r-
enterprise/overview/index.html

https://rapidminer.com/

https://www.microsoft.com/en-us/sql-server/machinelearningserver

S-ar putea să vă placă și