Sunteți pe pagina 1din 61

CENTRO FEDERAL DE EDUCAO TECNOLGICA DE MINAS GERAIS

CURSO DE ENGENHARIA DE COMPUTAO


MINERAO DE DADOS APLICADA A
DOCUMENTOS DO PORTAL DA
TRANSPARNCIA DO GOVERNO FEDERAL
ANDR LUIZ SILVEIRA HERCULANO
Orientadora: Prof. Dr. Cristina Duarte Murta
BELO HORIZONTE
AGOSTO DE 2014
ANDR LUIZ SILVEIRA HERCULANO
MINERAO DE DADOS APLICADA A
DOCUMENTOS DO PORTAL DA
TRANSPARNCIA DO GOVERNO FEDERAL
CENTRO FEDERAL DE EDUCAO TECNOLGICA DE MINAS GERAIS
CURSO DE ENGENHARIA DE COMPUTAO
BELO HORIZONTE
AGOSTO DE 2014
i
Dedico esse trabalho a Deus, por nunca me
abandonar, minha famlia, por me dar
toda a base necessria e minha namorada,
por ser o meu porto seguro.
ii
Se voc quer ir rpido, v sozinho. Se voc quer
ir longe, v acompanhado. (Provrbio Africano)
iii
Resumo
Como crescimento da capacidade de armazenamento, bases de dados grandes tornaram-
se comum nas empresas. No intuito de extrair informaes de grandes volumes de
dados, na rea de Minerao de Dados, so estudadas e desenvolvidas tcnicas espec-
cas que lidem com grandes conjuntos de dados de forma eciente. O presente trabalho
expe, de uma forma geral, as trs grandes reas da Minerao de Dados: minerao
de padres frequentes, classicao de dados e agrupamento. Para cumprir com esse
objetivo, aplicaremos pelo menos uma tcnica de cada rea citada na base de dados
disponvel no Portal da Transparncia do Governo Federal. Como resultado, esperamos
obter regras de associao, modelos de classicao e agrupamentos, referentes aos
gastos diretos do governo federal, que tragam informaes teis sociedade.
Palavras-chave: minerao de dados. padres frequentes. classicao. agrupamento.
portal da transparncia.
iv
Abstract
With an increasing storage capacity, big databases became common in the enterprise
scenario. In order to extract information from huge volumes of data, specic techniques
that handle big sets of data in a efcient way are being studied and developed in Data
Mining. The current project explains, in a general way, the three big elds of Data
Mining: frequent pattern mining, data classication and clustering. In order to achieve
this goal, we will run at least three techniques from each cited eld on data about the
direct expenses of the Brazilian government, available at Portal da Transparncia, an
open data initiative from the Federal government of Brazil, hoping to bring useful
information to society.
Keywords: data mining. frequent pattern mining. data classication. clustering. portal
da transparncia.
v
Lista de Figuras
Figura 1 Problemas que ocasionam m qualidade dos dados . . . . . . . . . . 6
Figura 2 Formas de pr-processamento . . . . . . . . . . . . . . . . . . . . . . . 7
Figura 3 Uso de histograma na reduo de dados . . . . . . . . . . . . . . . . . 10
Figura 4 Conceito de monotonicidade . . . . . . . . . . . . . . . . . . . . . . . 12
Figura 5 Representao dos passos do algoritmo Apriori . . . . . . . . . . . . 13
Figura 6 Representao do processo de classicao . . . . . . . . . . . . . . . 15
Figura 7 Exemplo de uma rvore de deciso para a classicao de animais
entre mamferos e no mamferos. . . . . . . . . . . . . . . . . . . . . 16
Figura 8 Exemplo de parties possveis no mtodo de separao de uma
rvore de deciso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Figura 9 Exemplo de rvore de deciso antes e depois da poda . . . . . . . . . 20
Figura 10 Exemplo do funcionamento do mtodo k-mdia. . . . . . . . . . . . . 26
Figura 11 Agrupamentos das unidades federais . . . . . . . . . . . . . . . . . . 30
vi
Lista de Tabelas
Tabela 1 Conjunto de transaes. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Tabela 2 Resumo das mtricas descritivas para os dados categricos dos gastos
diretos de janeiro de 2013. . . . . . . . . . . . . . . . . . . . . . . . . . 34
Tabela 3 Resumo das mtricas descritivas para os dados no categricos dos
gastos diretos de janeiro de 2013. . . . . . . . . . . . . . . . . . . . . . 34
vii
Lista de Quadros
Quadro 1 Cronograma do trabalho nal. . . . . . . . . . . . . . . . . . . . . . . 43
Quadro 2 Glossrio das colunas do arquivo de gastos diretos disponibilizado
no portal da transparncia. . . . . . . . . . . . . . . . . . . . . . . . . 48
viii
Lista de Algoritmos
Algoritmo 1 Algoritmo para a construo de uma rvore de deciso para o
conjunto de registros D . . . . . . . . . . . . . . . . . . . . . . . . 17
Algoritmo 2 Algoritmo k-mdia. . . . . . . . . . . . . . . . . . . . . . . . . . . 26
ix
Lista de Abreviaturas e Siglas
CGU Controladoria Geral da Unio
MD Minerao de Dados
KDD Knowledge Discovery in Databases
ABNT Associao Brasileira de Normas Tcnicas
DECOM Departamento de Computao
x
Sumrio
1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Caracterizao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Fundamentao Terica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1 Tipos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Pr-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Limpeza dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.2 Integrao de Mltiplas Bases de Dados . . . . . . . . . . . . . . . 8
2.2.3 Reduo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Minerao de Padres Frequentes e Regras de Associao . . . . . . . . . 9
2.3.1 Formalizao dos Conceitos Envolvidos . . . . . . . . . . . . . . . 10
2.3.2 Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.3 Mtodos de Avaliao de Padres . . . . . . . . . . . . . . . . . . 14
2.4 Classicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Induo por rvore de Deciso . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Avaliao do Modelo de Classicao . . . . . . . . . . . . . . . . 20
2.5 Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.1 Requisitos e Caractersticas . . . . . . . . . . . . . . . . . . . . . . 22
2.5.2 Classicao dos Mtodos de Agrupamento . . . . . . . . . . . . 24
2.5.3 Mtodos de Particionamento . . . . . . . . . . . . . . . . . . . . . 25
2.5.4 Avaliando os Mtodos de Agrupamento . . . . . . . . . . . . . . . 27
3 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1 Delineamento da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Pr-processamento e Anlise Descritiva dos Dados . . . . . . . . . . . . . 32
4.4 Aplicao e Funcionamento do Programa Apriori . . . . . . . . . . . . . 35
5 Anlise Preliminar dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . 37
6 Concluso e Cronograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
xi
Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Apndices 47
APNDICE AGlossrio do Arquivo de Gastos Diretos . . . . . . . . . . . . . 48
xii
1
1 Introduo
Nesse captulo feita a contextualizao do trabalho explicitando-se a caracteri-
zao do problema a ser tratado, a motivao em se aplicar tcnicas de Minerao de
Dados aos dados disponveis no Portal da Transparncia, a apresentao dos objetivos
do trabalho, o escopo do tema a ser discutido e, por m, a estrutura do texto.
1.1 Caracterizao do Problema
Organizaes mantm diariamente petabytes de contedo dos mais diversos,
desde transaes nanceiras, registros mdicos, leituras de sensores ssmicos, histrico
de buscas na Web, at a posio geogrca de nossos smartphones ao longo do tempo.
Temos uma quantidade crescente de dados, porm nossa capacidade analtica se mostra
no suciente para lidar com tamanha quantidade de dados. Tal situao vem sido
descrita como rica em dados mas pobre em informao (HAN et al., 2011, p. 5). O rpido
crescimento do poder de armazenamento superou a nossa capacidade de anlise sem o
auxlio de ferramentas adequadas para esse propsito. Sem essas ferramentas, as bases
de dados se tornam tumbas de dados, arquivos que so raramente analisados e, com
isso, decises importantes so tomadas, no com base em informaes geradas por esses
dados mas pela intuio de um gerente ou diretor.
Dado o tamanho e a diversidade dessas bases de dados se faz imprescindvel
a sistematizao no tratamento desses conjuntos de bytes para que informaes bem
como as conexes e os relacionamentos entre elas sejam mais facilmente extradas e,
assim, possam auxiliar no processo de tomada de deciso.
Fazendo-se uma analogia com a minerao do ouro, em que a pedra bruta
escavada e tratada at que algo valioso seja extrado, a Minerao de Dados prov
tcnicas que tem como objetivo tratar grandes bases de dados para buscar padres,
regras e conexes que construam informaes relevantes e possam guiar o processo de
tomada de deciso.
Na literatura, a Minerao de Dados considerada apenas um passo, ainda que
imprescindvel, em um processo maior chamado Descoberta de Conhecimento. Para
(ELSMARI; NAVATHE, 2010, p. 1036) a Descoberta de Conhecimento executada em
seis passos: seleo, limpeza, enriquecimento, transformao e minerao dos dados
e, nalmente, apresentao. No entanto, o termo Minerao de Dados est sendo
popularizado pela mdia e pelos prossionais da rea e em alguns casos assume o
papel do processo da descoberta de conhecimento como um todo, ou ainda, o processo
de extrair informaes relevantes de grandes bases de dados.
Captulo 1. Introduo 2
importante ressaltar a importncia de dois termos da denio de Minerao
de Dados acima: informaes relevantes e grandes bases de dados. Segundo Cios et
al. (2007, p. 3), informao relevante deve ser compreensvel, vlida, indita e til.
Informaes irrelevantes so aquelas que demandem uma quantidade grande de regras
e passos para serem entendidas, no podem ser reproduzidas ou validadas, j so
conhecidas na indstria ou comunidade (com exceo de casos em que se quer validar
os resultados j conhecidos) ou, ainda, aquelas que no trazem nenhuma utilidade
para o usurio nal tendo como ponto de vista o domnio estudado. Minerao de
Dados deve focar no tratamento eciente de grandes bases de dados. A empresa AT&T
lida com mais de 300 milhes de ligaes dirias de mais de 100 milhes de usurios,
o Wal-Mart mantm registro de 21 milhes de transaes diariamente em suas lojas
ao redor do mundo (CIOS et al., 2007, p. 4), esses so exemplos da escala em que a
minerao de dados utilizada.
OPortal da Transparncia do Governo Federal uma iniciativa da Controladoria-
Geral da Unio, lanada em novembro de 2004 (CGU, 2014) em uma tentativa de
aumentar a transparncia com os gastos de recursos pblicos. Os dados divulgados
no Portal da Transparncia so de responsabilidade dos ministrios e outros rgos
do Poder Executivo Federal (CGU, 2014) e a Controladoria Geral da Unio ca, ento,
responsvel por reunir e disponibilizar essas informaes no Portal. No site possvel
ter acesso informaes como as receitas previstas, lanadas e realizadas pelo Governo
Federal, Participao e Controle Social, Informaes sobre Gastos Diretos do Governo
Federal: contratao de obras, servios e compras governamentais, dentre outros.
1.2 Motivao
Em Maro de 2014, o Portal da Transparncia mantinha 1.702.803.410 registros
(CGU, 2014). Manipular esses dados tendo em vista a escalabilidade e o desempenho
demanda a aplicao de tcnicas engenhosas como as estudadas na MD.
O estudo dos dados disponveis no Portal da Transparncia motivado pelos
benefcios que advm dessa anlise como a scalizao do cumprimento do oramento
pblico, o entendimento por parte da populao a respeito da destinao dada aos
recursos pblicos, maior conhecimento dos diversos programas sociais oferecidos pelo
Governo Federal e seus rgos, entre outros.
As tcnicas de MDaplicadas aos dados do Portal da Transparncia podemprover
diversas anlises como, por exemplo, classicar os orgos
1
dispostos na base de dados
por gastos, predizer qual ser a despesa total de uma determinada entidade em um
1
Entidades do Governo Federal como por exemplo, o Ministrio da Educao, o Ministrio da Cincia,
Tecnologia e Inovao, entre outros.
Captulo 1. Introduo 3
ms especco com base em seu histrico, identicar o no cumprimento de regras
pblicas, entre outras. Dessa forma, decises podem ser tomadas com base informaes
retiradas sistematicamente dos dados estudados e no mais baseadas na intuio ou
conhecimento, por vezes supercial, de uma s pessoa ou comit, que pode estar
sujeito toda a sorte de interferncias e prejulgamentos. Ainda assim, fundamental
o conhecimento profundo, sinttico e semntico, dos dados estudados para que seja
denido a relevncia da informao extrada e dos padres encontrados.
1.3 Objetivos
Os objetivos do projeto so:
Conhecer o estado da arte na rea de minerao de dados;
Aplicar trs tcnicas de minerao de dados base de dados do Portal da Transpa-
rncia, mais especicamente, referente aos gastos diretos de 2013. Essas tcnicas
so das seguintes reas: minerao de padres frequentes, classicao e agrupa-
mento.
Com a realizao do trabalho busca-se ter ampliado os conhecimentos no s
na rea de minerao de dados mas tambm dos gastos disponibilizados no Portal
da Transparncia. Ao nal do trabalho espera-se poder encontrar padres que se repi-
tam ao longo do tempo, classicar os gastos em seus valores, datas e destinatrios e,
nalmente, esperamos tambm poder agrupar gastos que mantenham algum grau de
relacionamento entre si.
1.4 Estrutura do Texto
O presente trabalho est dividido em 6 captulos. O prximo captulo apresenta
toda a fundamentao terica necessria para a execuo do trabalho, abrangendo a
fase de preprocessamento, tcnicas de minerao de padres frequentes, classicao e,
por m, agrupamento. O Captulo 3 apresenta alguns trabalhos que discutem aplicaes
prticas das tcnicas descritas na fundamentao terica. No captulo seguinte, Captulo
4, descrita a metodologia adotada nos experimentos. O Captulo 5 discute a anlise
preliminar dos resultados obtidos e, por ltimo, no Captulo 6 feita concluso e a
apresentao do cronograma do trabalho completo.
4
2 Fundamentao Terica
Esse captulo apresenta as denies de termos utilizados ao longo do trabalho
bem como oferece uma viso geral dos conceitos e tcnicas de minerao de dados abor-
dados no mesmo. Os tipos de dados, o pr-processamento e as tcnicas de minerao de
padres frequentes, classicao e agrupamento, sero os principais tpicos descritos.
2.1 Tipos de Dados
O primeiro passo na busca por informaes provenientes de uma base de dados
entender que tipo de dados estamos lidando. Nesse primeiro passo devemos ser
capazes de responder perguntas como: Quais so os tipos de atributos que compem os
campos de dados? Quais so os possveis valores que esses atributos podem assumir?
Esses valores so discretos ou contnuos? Existe alguma maneira de melhor represent-
los para que possamos extrair melhor o sentido do dados? Qual a distribuio dos
valores?
Para tal, devemos aplicar tcnicas de Estatstica Descritiva como medidas de tendncia
central (moda, mdia e mediana) e medidas de variabilidade (varincia, desvio padro,
coeciente de variao). Essas medidas sero de grande utilidade durante a fase de
pr-processamento e tambm na deciso de quais tcnicas e algoritmos aplicar base
de dados com objetivo de extrair essa ou aquela informao. assumido que o leitor j
domine tais tcnicas e, portanto, suas explicaes esto fora do escopo deste trabalho.
Denimos como objeto de dado uma entidade, por exemplo, o registro de um cliente
em um banco de dados de uma loja de comrcio eletrnico. Objetos de dados (tambm
chamados somente de objetos) so descritos por atributos, so caractersticas desse
objeto de dado, por exemplo, o nome do cliente, seu CPF, dentre outros. Conjunto de
todos os atributos que descrevem o objeto de dados chamado de vetor de atributos.
Um atributo pode ser divido em nominal, binrio, ordinal e numrico.
Atributos nominais so atributos que cujos valores so simblicos que representem
nomes ou ainda classes para o atributo. Seguindo o exemplo do objeto de dado cliente,
um possvel atributo nominal seria cidade de nascimento. Podem tambm possuir
valores numricos em que, nesse caso, no representem nmeros em si mas classes para
um objeto. Os valores de atributos nominais, ao contrrio dos atributos ordinais, no
possuem em si um sentido de ordenao (MORETTIN; BUSSAB, 2010).
Atributos binrios so aqueles que podem assumir necessariamente dois valores como
por exemplo, fumante ou no fumante, casado ou solteiro. Usualmente, tais atributos
so valorados com 0 ou 1, representando a ausncia ou presena de uma determinada
Captulo 2. Fundamentao Terica 5
caracterstica.
Atributos ordinais so similares aos atributos nominais porm seus valores do um
sentido de ordenao ao atributo. Por exemplo, o grau de instruo de um cliente, que
pode assumir os valores fundamental, mdio e superior, indicando uma ordem entre
eles, porm a magnitude entre valores sucessivos no conhecida.
Atributos numricos so quantitativos (em oposio aos demais que so qualitativos) e
assumem valores reais ou inteiros e, por serem numricos, pode-se calcular medidas
estatsticas como mdia, mediana, entre outras, enquanto que nos demais tipos de
atributos, somente a moda e frequncia podem ser calculadas (HAN et al., 2011, p.39-
44).
2.2 Pr-processamento
Bases de dados do mundo real no raro contm inconsistncias como dados
de registros j deletados, discrepncias como erros de medio e ainda redundncias
como dados agregados entre outros. A m qualidade dos dados analisados leva a ms
concluses; e por isso, se faz necessria a sistematizao no tratamento inicial dos dados
antes da aplicao das tcnicas de minerao de dados. Alm do mais, quando os
usurios acreditam que os dados analisados contm erros, so discrepantes ou de m
qualidade, tendem a no conar nas informaes resultantes do processo de minerao
de dados. A denio da qualidade dos dados difere de autor para autor. Porm,
em sua maioria, possvel observar que os problemas a serem resolvidos nessa fase
da minerao de dados so a minimizao (idealmente a eliminao) da impreciso
(valores errados ou que desviam do esperado), da no completude (valores em branco
ou atributos que contenham somente dados agregados) e da inconsistncia (referncias
a registros deletados, por exemplo) dos dados. Han cita ainda a no sequncia temporal,
falta de credibilidade e a no interpretabilidade dos dados, como problemas a serem
solucionados nessa fase (HAN et al., 2011, p.84).
Para Rahm Rahm e Do (2000), os problemas que ocasionam a m qualidade dos
dados podem ser classicados em problemas de uma fonte ou de mltiplas fontes de
dados que, em seguida, so divididos em nvel de instncia e nvel de esquema. Para
uma fonte de dados, problemas a nvel de esquema, reete a m projeo do esquema
de dados enquanto no nvel de instncia os problemas esto nos registros. J no contexto
de mltiplas fontes de dados, no nvel de esquema, os problemas surgem devido a
heterogeneidade entre os diferentes esquemas enquanto que no nvel de instncia
os problemas tm origem na inconsistncia entre as mltiplas bases de dados. Essa
classicao est esquematizada na Figura 1.
O tratamento inicial dos dados conhecido como pr-processamento e envolve
Captulo 2. Fundamentao Terica 6
Figura 1 Problemas que ocasionam m qualidade dos dados
Fonte: Adaptado de Rahm e Do (2000, p.3)
os passos de: limpeza, em que inconsistncias so removidas (ou tratadas seguindo
algum critrio) integrao, passo no qual diferentes bases de dados so integradas
para gerar uma base s reduo, em que a base de dados reduzida de maneira que
a anlise seja mais rpida sem que se perca informao transformao dos dados,
operao que acontece tambm durante os demais passos seja para normalizar os dados,
formatar atributos como datas, entre outros. Na Figura 2, esto representados esses
passos do pr-processamento, que sero discutidos nas subsees seguintes.
2.2.1 Limpeza dos Dados
A limpeza dos dados lida com a remoo de erros e inconsistncias da base de
dados a ser minerada. Tais erros existem devido a uma innidade de razes como mal
funcionamento de umsensor emuma fbrica, erro de digitao emumformulrio online,
informao no verdadeira proposital (um cliente decide mentir sobre sua idade em
uma pesquisa, por exemplo), dentre outros. H tambm os casos em que a informao
faltante como um campo deixado em branco, algum erro ao salvar um arquivo, dentre
outros. Esses erros podem ser tratados das seguintes formas:
Ignorar a tupla: geralmente usado quando o valor do atributo que se est estu-
dando no est presente, assumindo que a tarefa de minerao envolve classi-
cao. Essa tcnica deve ser usada com cuidado uma vez que ignorando-se uma
tupla, a informao associada aos atributos que esto presentes perdida.
Usar uma constante global: caso o atributo sexo de uma tupla esteja faltando,
pode-se preencher com o valor Desconhecido, por exemplo. Apesar de simples,
essa abordagem pode levar os algoritmos de minerao a resultados errados visto
que muitas tuplas podem possuir esse valor em comum e, por isso, confundidos
como tendo algo em comum.
Captulo 2. Fundamentao Terica 7
Figura 2 Formas de pr-processamento
Fonte: Adaptado de Han et al. (2011, p.87)
Usar uma medida de tendncia central: pode-se usar o valor da mdia para
dados cuja distribuio de valores simtrica ou a mediana, caso contrrio.
Preencher com o valor mais provvel: aplicando-se tcnicas como regresso,
rvores de deciso, dentre outras, possvel estimar um valor provvel para
o atributo faltante, baseando-se nos demais atributos.
Vale lembrar, porm, que nas trs ltimas abordagens descritas acima introduzida
uma informao nova ao dataset dando, assim, margem para mais erros de interpretao
da anlise resultante do processo de minerao.
No caso em que os valores esto presentes porm so discrepantes possvel
aplicar tcnicas para suavizar essa discrepncia como a regresso, em que tentam con-
formar os valores conhecidos em uma funo matemtica; compartimentao, processo
em que os dados so divididos em conjuntos, ou bins, e o valor do atributo suavi-
zado ser a mdia dos valores do respectivo grupo e, por m, anlise de outliers, em
que os valores so agrupados com base em sua similaridade e os elementos que no
pertencerem a nenhum grupo so considerados outliers.
Captulo 2. Fundamentao Terica 8
A limpeza dos dados comea com a deteco de anomalias e, para tal, se faz
necessrio o conhecimento sinttico e estatstico da base de dados, isto , preciso
que se conhea os metadados. nesse ponto que se utiliza as mtricas descritivas e de
variao extradas da base como mdia, mediana, moda, valores mximo e mnimo,
coeciente de variao, dentre outros. O conhecimento sinttico diz respeito ao esquema
da base de dados, isto , qual a poltica para tuplas duplicadas, atributos em branco,
etc. um processo iterativo que envolve dois passos deteco de anomalias e trans-
formao dos dados e que em cada iterao susceptvel a introduo de mais erros,
segundo (JERMYN et al., 1999) devido ao no registro das decises de limpeza, falta de
metodologia, entre outros.
2.2.2 Integrao de Mltiplas Bases de Dados
No raro se quer minerar dados provenientes de mltiplas bases de dados e com
isso nos deparamos com o problema de integrao entre essas bases. O tratamento ade-
quado dessa integrao pode no somente eliminar dados redundantes como tambm
reduzir inconsistncias e elevar a qualidade da informao extrada pelos algoritmos de
minerao de dados.
Durante a fase de integrao so encontrados algumas diculdades como o
problema de identicao, que consiste em mapear os diferentes esquemas e modelos
de objetos do mundo real para um s esquema. Por exemplo, em um banco de dados o
atributo que mantm o nome de um cliente chamado nome_cli e em uma segunda
base de dados chamado cli_name; ou em um esquema o tipo de pagamento assume
os valores X e Y e em outro esquema so valorados com I e J.
Dados redundantes so causados por agregao entre atributos, tabelas no
normalizadas (uma prtica comum em banco de dados para diminuir o nmero de
operaes de juno entre tabelas) e apresentam problema para o processo de minerao
de dados uma vez que o nmero de registros da base de dados aumenta, demandando
mais tempo de computao e possivelmente alterando o resultado nal do processo
de Minerao. Algumas redundncias podem ser detectadas com o uso de anlise de
correlao, em que, dados dois ou mais atributos, tal anlise avalia se esses atributos
esto ou no correlacionados. Para atributos nominais usado o teste de correlao

2
, para atributos numricos pode-se usar o coeciente de correlao ou a covarincia
relacionada aos dois atributos.
Ainda na fase de integrao, deve-se detectar e resolver conitos de valores.
Por exemplo, em uma base de dados o atributo peso representado por quilograma
enquanto em uma outra base o mesmo atributo representado em libras, ou duas
universidades que mantm as notas dos alunos usando mtricas diferentes, uma usa a
escala de F at A e a outra usa de 0 a 100. Esse processo relacionado fase de limpeza
Captulo 2. Fundamentao Terica 9
dos dados discutido na Subseo 2.2.1.
2.2.3 Reduo de Dados
A fase de reduo de dados pode ser aplicada para se obter uma representao
do dataset muito menor em volume porm que mantenha, tanto quanto for possvel,
suas caractersticas. Isto , aplicando-se as tcnicas de minerao de dados na base de
dados reduzida se produzir resultados parecidos queles que seriam obtidos usando-
se a base de dados original. Os dados podem ser reduzidos com relao sua dimenso
ou em nmero de tuplas.
Reduo em dimenso o processo de se extrair os atributos, dimenses que
mais contribuem para o processo de anlise. Essa reduo pode ser feita usando-se
transformada discreta de onda, tcnica de processamento de sinais que quando aplicada
um vetor de atributos X, resulta em um vetor (geralmente esparso) X de coecientes
de onda (HAN et al., 2011, p.100). Pode-se usar, tambm, a Anlise de Componente
Principal, tcnica que visa produzir um vetor base de dimenso r que melhor captura
a varincia dos dados (ZAKI; JR., 2014, p.208). Por m, pode-se ainda fazer a seleo
de um subconjunto de atributos com algumas tcnicas cujo objetivo principal achar o
conjunto mnimo de atributos tal que a distribuio probabilstica dos dados em suas
classes seja a mais prxima possvel da distribuio original. Como objetivo, essa ltima
tcnica leva a um nmero menor de atributos a serem apresentados nos resultados nais
das tcnicas de minerao de dados, facilitando, ento, o entendimento dos padres
encontrados.
A reduo em nmero de tuplas pode ser obtida atravs do uso de histograma
emque, de modo geral, so criados grupos de valores do atributo de interesse e os dados,
ento, dispostos nesses grupos, como ilustrado na Figura 3. Para reduzir o nmero
de tuplas da base de dados so usadas tambm tcnicas estatsticas de amostragem
ou ainda a agregao de valores. Por exemplo, em uma base de dados que mantm o
histrico de vendas por dia, essas vendas so agregadas em vendas por ano e a anlise
usa, ento, somente esse ltimo resultado.
2.3 Minerao de Padres Frequentes e Regras de Associa-
o
Em muitas aplicaes deseja-se saber o quo frequente dois ou mais objetos
aparecememconjunto (ZAKI; JR., 2014). Considere por exemplo umwebsite que mantm
o histrico de pginas acessadas no servidor. Dado o histrico, o administrador do
website gostaria de saber se existem conjuntos de pginas que so acessadas com mais
Captulo 2. Fundamentao Terica 10
Figura 3 Uso de histograma na reduo de dados
Fonte: Prpria
frequncia para avaliar o padro de navegao de seus usurios. Outro exemplo, e o
mais famoso na literatura, o caso do carrinho de compras
1
em que so analisados
as compras feitas por clientes em um supermercado e, atravs do uso de tcnicas
de minerao de padres frequentes possvel observar, por exemplo, que em 90%
das compras em que os itens po e manteiga aparecem, o item leite tambm est
presente. Com essa informao, o gerente do supermercado pode, por exemplo, colocar
esses trs itens prximos uns aos outros para maior comodidade do cliente. Os padres
encontrados na base de dados so representados da seguinte forma:
{p ao, manteiga} leite [suporte = 15%, conana = 90%] (1)
Em que o suporte e conana medem o interesse da regra. Um suporte de 15%
nos diz que em 15% de todas as transaes analisadas, os itens po, manteiga e leite
aparecem juntos enquanto a conana de 90% nos diz que em 90% das compras em que
po, manteiga esto juntos, o item leite tambm comprado.
2.3.1 Formalizao dos Conceitos Envolvidos
Seja I = {i
1
, i
2
, ..., i
d
} o conjunto de todos os itens disponveis na base de dados e
T = {t
1
, t
2
, ..., t
N
} o conjunto de todas as transaes de forma que t
i
contm um subcon-
junto de I de tamanho k denominado conjunto-k ou k-itemsets, essa ltima denominao
usada no presente trabalho, devida a maior adoo na literatura nacional e estrangeira
Sejam A e B subconjuntos no vazios de I. Uma regra de associao uma implicao
do tipo A B com suporte e conana tais que:
suporte(A B) = P(A B) (2)
conana(A B) = P(A|B) (3)
1
market baskets
Captulo 2. Fundamentao Terica 11
A minerao de padres frequentes e de regras de associao, um processo de
duas fases. Na primeira fase a busca por todos os itemsets frequentes que satisfaam
o valor de suporte mnimo preestabelecido. Em um segundo momento, deve-se gerar
todas as regras de associao chamadas regras fortes, isto , que satisfaam os valores de
suporte e conana mnimos conhecidos previamente. A procura por todos os itemsets
frequentes torna-se um problema devido a quantidade enorme de subconjuntos de
itens que cresce com complexidade fatorial. Por exemplo, um itemset de tamanho 100,
{a
1
, a
2
, ..., a
100
}, contm

100
1

= 100 1-itemsets frequentes: {a


1
}, {a
2
}, ..., {a
100
};

100
2

2-itemsets frequentes: {a
1
, a
2
}, {a
1
, a
3
}, ..., {a
99
, a
100
}; e assim por diante. No total, o
nmero de itemsets frequentes :

100
1

100
2

+ ... +

100
100

= 2
100
1 1.27 10
30
. (4)
2.3.2 Algoritmo Apriori
Para superar o problema de analisar grandes quantidades de combinaes de
itemsets na gerao de itemsets frequentes, o algoritmo Apriori utiliza um princpio
(chamado princpio de Apriori) que diz que se um itemset frequente, ento todos os
seus subconjuntos devem tambm ser frequentes(TAN et al., 2005, p. 333, traduo
nossa, itlico nosso.) fcil perceber que, por exemplo, se o conjunto A = {a, b, c} um
itemset frequente, ento toda transao que contm o conjunto A deve, necessariamente,
conter os subconjuntos {a, b}, {a, c}, {b, c}, {a}, {b} e {c}, tornando-os, assim, frequentes
tambm. De maneira anloga, se um sub-itemset no frequente, ento, seus super-
itemsets so, tambm, no frequentes. Com essa propriedade, possvel descartar da
anlise itemsets que no sejam frequentes levando tambm em considerao a denio
de monotonicidade que, segundo Tan et al. (2005, p.334) diz que, dado um conjunto de
itens I e o conjunto J de todas as combinaes possveis dos elementos de I, a medida
f montona se:
X, Y J : (X Y ) f(X) f(Y ) (5)
Isto , para todo subconjunto de Y, a medida f(X) (em nosso contexto, a medida de
suporte do conjunto X) no deve exceder a medida f(Y ).
Vejamos o exemplo da Figura 4. Na primeira iterao so gerados todos os 1-
itemsets frequentes, {a}, {b}, {c}, {d} e {e}. Na segunda iterao so buscadas todas
os candidatos a 2-itemsets, isto , todas as transaes que contm uma combinao
dois a dois dos 1-itemsets encontrados na iterao anterior. Ainda na segunda iterao,
durante a fase de gerao de itemsets frequentes, vericado que o itemset {a, b} no
frequente, ou seja, no satisfazem os valores de suporte e conana mnimos. Dessa
forma, podemos descartar todo e qualquer itemset que contenha o elemento {a, b} pois
tal itemset deve ser, necessariamente, um superconjunto de {a, b} e, como {a, b} no
frequente, seus superconjuntos so, tambm, no frequentes.
Captulo 2. Fundamentao Terica 12
Figura 4 Conceito de monotonicidade
Fonte: Adaptado de Tan et al. (2005, p.335)
O algoritmo funciona da seguinte maneira: primeiro o conjunto de todos os 1-
itemsets so armazenados em C
1
, juntamente com suas respectivas medidas de suporte.
O conjunto L
1
armazena todos os itens de C
1
considerados frequentes, isto , que tm o
suporte maior do que o mnimo exigido. No prximo passo, o conjunto L
1
usado para
encontrar o conjunto de 2-itemsets frequentes L
2
, e assim por diante, at que no seja
mais possvel encontrar o conjunto de k-itemsets (conjunto vazio).
O processo de encontrar L
k
para k 2 se d em dois passos, o passo de juno e
o passo de poda, explicitados no exemplo a seguir. Considere o conjunto de transaes
da Tabela 1 e o suporte mnimo requerido igual a 2. A representao esquemtica de
cada iterao do algoritmo est ilustrada na Figura 5.
Na primeira iterao feita a busca pelos 1-itemsets e suas respectivas medidas
de suporte para a construo do conjunto de candidatos a itemsets frequentes C
1
e
feita a poda dos elementos que no atingem o suporte mnimo estipulado de. Nesse
exemplo, nenhum elemento podado na primeira iterao. Na segunda iterao, em
um primeiro momento, feita a juno dos elementos de L
1
consigo mesmo, isto ,
L
1
L
1
, para a construo dos candidatos a 2-itemsets C
2
Logo aps, so ltrados
os elementos de C
2
que no atingem o suporte mnimo para a construo de L
2
. Na
terceira iterao feita a juno de L
2
com L
2
para a produo de C
3
, que resulta-
ria em C
3
= {{I1, I2, I3}, {I1, I2, I5}, {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}}.
Porm, uma vez que os subconjuntos {I1, I4}, {I3, I4}, {I3, I5} e {I4, I5} foram po-
dados por no atingirem o suporte mnimo, nenhum superconjunto que contenha
Captulo 2. Fundamentao Terica 13
Tabela 1 Conjunto de transaes.
TID Lista de itens
T100 I1, I2, I5
T200 I2, I4
T300 I2, I3
T400 I1, I2, I4
T500 I1, I3
T600 I2, I3
T700 I1, I3
T800 I1, I2, I3, I5
T900 I1, I2, I3
Fonte: Adaptado de Han et al. (2011, p.250)
Figura 5 Representao dos passos do algoritmo Apriori
Fonte: Adaptado de Han et al. (2011, p.251)
esses subconjuntos podados ser tambm um itemset frequente. C
3
, ento, torna-se
{{I1, I2, I3}, {I1, I2, I5}} (aplicao do princpio Apriori). A quarta iterao geraria
C
4
= {{I1, I2, I3, I5}}. Porm, o itemset {I2, I3, I5} no frequente (no est presente
em L
3
) sendo assim podado para C
4
= , dando trmino ao algoritmo.
Captulo 2. Fundamentao Terica 14
2.3.3 Mtodos de Avaliao de Padres
A maioria dos algoritmos de minerao de padres usa as medidas de suporte
e conana como critrio de avaliao das regras de associao. Porm, ao minerar
bases de dados grandes na busca de padres frequentes pode-se ter como resultado
um conjunto muito grande de regras de associao, especialmente quando usamos um
suporte baixo. Nem sempre as medidas de suporte e conana sero o bastante para
denir se uma regra til (chamada tambm de regra forte) aquela que satisfaz o
suporte e conana mnimos ou intil.
Para se ter mais informao respeito do quo interessante uma regra de
associao podemos usar medidas de correlao, de forma que uma regra de associao
passa, agora, a ser:
{A} B [suporte, conana, correlao] (6)
Podem ser usadas medidas de correlao como:

2
=

(observadoesperado)
2
esperado
lift(A, B) =
P(AB)
P(A)P(B)
Ou ainda:
all condence dado por all conf(A, B) =
suporte(AB)
max{suporte(A),suporte(B)}
;
max condence em que, max conf(A, B) = max{P(A|B), P(B|A)};
medida de Kulczynski denida como Kulc(A, B) =
1
2
(P(A|B) + P(B|A)). Essa
ltima sendo recomendada por Han et al. (2011, p.271).
2.4 Classicao
Classicao a tarefa de, atravs de um modelo, designar objetos a uma catego-
ria predenida. Por exemplo, identicar se um e-mail considerado spam ou legtimo,
diagnosticar se um conjunto de clulas benignas ou no a partir de uma tomograa,
dentre outros.
Formalmente, classicao a tarefa de denir uma funo objetivo f que
mapeia cada conjunto de atributos x para uma das classes predenidas(TAN et al.,
2005, p. 146, traduo nossa.). Expandindo essa denio, o conjunto de atributos pode
conter qualquer tipo de valores, contnuos ou discretos, enquanto o atributo classe
deve ser, necessariamente, discreto. isso que distingue o processo de classicao
Captulo 2. Fundamentao Terica 15
Figura 6 Representao do processo de classicao
Fonte: Adaptado de Tan et al. (2005, p.146)
da conhecida regresso, em que a sada da funo objetivo mapeada para um valor
contnuo. A denio original est ilustrada na Figura 6.
Em geral, tcnicas de minerao de dados que envolvem classicao so execu-
tadas em dois grandes passos: construo de um modelo de classicao, ou ainda, o
passo de aprendizado, e o passo de classicao, em que o modelo construdo usado
para predizer a classe dos dados de entrada.
A fase de aprendizado, tambm chamada de fase de treino, dada pela anlise
de uma amostra da base de dados em que cada tupla X representada pelo vetor
de atributos de dimenso n X = (x
1
, x
2
, ..., x
n
) e o atributo classe j previamente
conhecido. Essas tuplas so ento chamadas de tuplas de treinamento, ou conjunto de
treinamento. Pelo fato de que as classes das tuplas de treinamento j serem conhecidas
no incio do processo de treinamento, esse tipo de aprendizado chamado de aprendi-
zado supervisionado ao contrrio do processo de Agrupamento estudado na seo
Seo 2.5, em que o aprendizado dado de maneira no supervisionada e cujo nico
dado conhecido previamente o nmero de grupos desejado no m do processo de
minerao.
A segunda fase, a fase de classicao, onde o modelo construdo ser usado
para predizer a classe dos novos dados. Primeiro feita uma predio do quo preciso o
modelo , usando outro conjunto de tuplas, distinto do conjunto de treinamento, cujas
classes so conhecidas, conjunto esse chamado de conjunto de teste. Se faz necessrio o
uso de outro conjunto devido a possibilidade de ocorrer o overtting, situao em que o
modelo se torna muito bom para prever as classes do conjunto de treinamento porm
no to preciso para outro conjunto de dados. A medida da preciso do modelo se d
calculando a porcentagem de acertos em relao ao nmero de predies que o modelo
obteve para o conjunto de teste.
Captulo 2. Fundamentao Terica 16
2.4.1 Induo por rvore de Deciso
Uma rvore de deciso um modelo de classicao construdo na forma de um
uxograma em que os ns internos dessa rvore representam condies enquanto os
ns folhas representam o valor do atributo classe ao que estamos tentando enquadrar
as tuplas. rvores de deciso so populares uma vez que no envolvem conhecimento
especco do domnio dos dados, tornando-as ideais para a descoberta exploratria
de conhecimento, alm de contarem com o fato de que sua representao , em geral,
simples e de fcil entendimento, como mostra a Figura 7. Na literatura os trs mtodos
Figura 7 Exemplo de uma rvore de deciso para a classicao de animais entre
mamferos e no mamferos.
Fonte: Adaptado de Tan et al. (2005, p.151)
de construo de rvores de deciso so os algoritmos ID3, Iterative Dichotomiser, conce-
bido por J. Ross Quinlan entre 1970 e 1980 e expandido por E. B. Hunt, J. Marin e P. T.
Stone, seu sucessor C4.5, proposto por Quinlan, considerado o algoritmo de benchmark
no ramo de classicao e, por m, CART proposto por um conjunto de estatsticos L.
Breiman, J. Friedman, R. Olshen e C. Stone e publicado em (BREIMAN et al., 1984).
Seja D
t
o conjunto de todas as tuplas de treinamento associadas ao n t e y =
{y
1
, y
2
, ..., y
c
} o conjunto das diferentes classes possveis. A construo recursiva de uma
rvore de deciso, em alto nvel, consiste nos seguintes passos:
Captulo 2. Fundamentao Terica 17
Passo 1: Se todas as tuplas em D
t
pertencem a uma mesma classe ento o n t se
torna um n folha cuja classe tem o valor y
t
.
Passo 2: Se D
t
contm tuplas que pertencem a classes diferentes ento chamado
um mtodo de separao que ir determinar qual atributo (atributo de diviso)
melhor classica as tuplas de D
t
, bem como o valor que as divide em grupos
(ponto de diviso). Um n criado para cada sada do mtodo de separao e as
tuplas de D
t
so distribudas de acordo com o atributo e o ponto de diviso. O
algoritmo , ento, chamado recursivamente para cada n criado.
O algoritmo um pouco mais detalhado est representado em Algoritmo 1.
Algoritmo 1: Algoritmo para a construo de uma rvore de deciso para o
conjunto de registros D
GeraArvoreDecisao(D, lista_atributos, metodo_separacao)
Input: Partio de dados D, o conjunto de todos os atributos candidatos
lista_atributos, mtodo de separao metodo_separacao
Output: Uma rvore de deciso
crie um n N;
if tuplas em D so todas da mesma classe, C then
return N como um n folha cuja classe C;
end
if lista_atributos est vazia then
return N como um n folha cuja classe a classe da maioria dos
elementos de D;
end
criterio_separacao execute metodo_separacao(D, lista_atributos);
atribui ao n N o critrio de separacao criterio_separacao;
if atributo_separacao discreto e divises mltiplas so permitidas then
lista_atributos lista_atributos atributo_separacao;
end
foreach sada j de criterio_separacao do
D_j conjunto de tuplas de D que satisfazem o critrio j;
if D_j vazio then
adicione um n folha em N com a classe da maioria das tuplas em D;
end
else
adicione a N o n retornado por GeraArvoreDecisao(D_j,
lista_atributos);
end
end
return N;
Podemos notar que um ponto crucial na criao de uma rvore de deciso o
parmetro, aqui denominado metodo_separacao, que tem a funo de nos informar o
atributo que melhor separa as tuplas de D em grupos, ou parties, que idealmente
pertenam mesma classe. No caso de o atributo de separao, provido pelo mtodo
Captulo 2. Fundamentao Terica 18
de separao, ser contnuo ou a rvore de deciso restrita a ser binria, o mtodo de
separao deve, tambm, nos informar o ponto de separao ou os subconjuntos de
separao. Dado o conjunto de atributos A, os possveis cenrios de partio esto
ilustrados na Figura 8.
Figura 8 Exemplo de parties possveis no mtodo de separao de uma rvore de
deciso.
Fonte: Adaptado de Han et al. (2011, p.334)
Um atributo considerado melhor ou pior no critrio de separao de acordo
com algumas medidas como o ganho de informao ou o ndice Gini. O ganho de
informao usa o conceito de entropia, que representa a quantidade mdia de infor-
mao necessria para se classicar uma tupla pertencente ao conjunto D. Seja p
i
a
probabilidade de uma tupla, pertencente ao conjunto D, ser da classe C
i
. A entropia de
D calculada da seguinte forma:
Info(D) =
c

i=1
p
i
log
2
(p
i
). (7)
A quantidade de informao necessria para se classicar as tuplas de D em grupos
puros, isto , grupos cujos elementos pertencem a somente uma classe, calculada da
seguinte forma:
Info
A
(D) =
v

j=1
|D
j
|
|D|
Info(D). (8)
O ganho de informao , nalmente, a diferena entre quantidade de informao
requerida para se classicar D e a quantidade de informao requerida para se classicar
D aps o particionamento pelo atributo A:
Ganho(A) = Info(D) Info
A
(D). (9)
Captulo 2. Fundamentao Terica 19
Ao usar o ganho de informao como medida de separao durante a construo da
rvore de induo deseja-se que em cada n seja escolhido o atributo A que oferece o
maior valor de Ganho(A).
O ndice Gini calculado de forma similar, porm diz respeito a quo impuro um
conjunto D . Entenda-se por impuro o conjunto que contm tuplas pertencentes a mais
de uma classe. Dado o conjunto D e p
i
a probabilidade de uma tupla p
i
, pertencente a
esse grupo, ser da classe C
i
, o ndice Gini denido por:
Gini(D) = 1
m

i=1
p
2
i
, (10)
O ndice Gini considera a separao binria para cada atributo, isto , para o atributo
A, a regra de separao ser do tipo A S
A
, dessa forma, para cada atributo com v
valores diferentes, existem 2
v
combinaes diferentes de subgrupos possveis. Por exem-
plo, o atributo salrio, que possui 3 valores possveis {baixo, medio, alto} os possveis
subgrupos so, {baixo, medio, alto}, {baixo, medio}, {baixo, alto}, {medio, alto}, {baixo},
{medio}, {alto} e {}. Os conjuntos {baixo, medio, alto} e {} so desconsiderados por no
trazer nenhuma classicao til, temos um total de (2
v
2)/2 maneiras possveis de se
obter duas parties de D. O ndice Gini ento calculado de acordo com a Equao (11).
Gini
A
(D) =
|D
1
|
|D|
Gini(D
1
) +
|D
2
|
|D|
Gini(D
2
). (11)
Quando usado na construo de uma rvore de deciso, desejado que se escolha o
atributo A cujo ndice Gini seja mnimo, uma vez que representa a impureza das
parties realizadas.
Quando o atributo a ser considerado na separao um atributo de valor cont-
nuo, primeiro os valores so ordenados de forma crescente
2
e ento o ponto de separao
considerado o ponto intermedirio entre dois valores contnuos, isto :
a
i
+ a
i+1
2
(12)
Dessa forma, para o atributo A que contenha v valores distintos sero considerados
v 1 pontos de separao. Essa regra para lidar com atributos contnuos vlida para
ambas as medidas Ganho de Informao e ndice Gini.
Construda a rvore de deciso, muitos ramos da rvore reetem anomalias do
conjunto de treinamento devido a rudo ou outliers. Por isso, feita a poda da rvore de
deciso. Na Figura 9, vemos um exemplo de poda de rvore de deciso. A subrvore
que comea no n representado por A
3
? podada e assume o valor Classe B.
2
A ordenao requerida por motivos de desempenho, uma vez que com o conjunto ordenado
preciso somente uma leitura do conjunto D para determinar o ponto de separao.
Captulo 2. Fundamentao Terica 20
Figura 9 Exemplo de rvore de deciso antes e depois da poda
Fonte: Adaptado de Han et al. (2011, p.345)
possvel realizar a poda de duas formas. Uma abordagem faz a predio se um
ramo deve ou no ser criado, interrompendo um n de se ramicar caso os subgrupos
destinados essa subrvore no satisfaam alguma medida de interesse (Ganho de
Informao, ndice Gini, dentre outros) preestabelecidos Adiculdade nessa abordagem
se encontra em determinar bons valores para essas medidas de interesse. Uma segunda
abordagem podar a rvore de deciso aps a sua construo, [...] a qual requere maior
custo computacional porm, em geral, leva a uma rvore de deciso mais convel
Han et al. (2011, p.346, traduo nossa).
2.4.2 Avaliao do Modelo de Classicao
Com um modelo de classicao construdo no raro deseja-se estimar o quo
prximo da realidade esse modelo est, em outras palavras, o quo preciso o modelo
criado ser na classicao de novas tuplas. Pode-se, ainda, querer comparar diferentes
mtodos de classicao, requerendo assim mtricas que descrevam a preciso do
modelo criado. Para esse m, consideremos as seguintes denies:
TP: Nmero de tuplas positivas, isto , tuplas que pertenam classe de interesse
(exemplo portadores_cancer = sim);
TN: Nmero de tuplas negativas, aquelas que no pertencem classe de interesse;
PV: Nmero de positivos verdadeiros, aqueles corretamente classicados como
positivos;
Captulo 2. Fundamentao Terica 21
NV: Nmero de negativos verdadeiros, aqueles corretamente classicados como
negativos;
FP: Nmero de falsos positivos, aqueles erroneamente classicados como positi-
vos;
FN: Nmero de falsos negativos, aqueles erroneamente classicados como negati-
vos.
A exatido de um modelo de classicao, isto , a porcentagem de tuplas
corretamente classicadas, tambm conhecida pelo nome de taxa de reconhecimento,
calculada por:
exatido =
TP + TN
P + N
(13)
Nem sempre a taxa de reconhecimento nos dar uma boa descrio do comportamento
do modelo de classicao. Tomando, por exemplo, problemas em que as tuplas no
so uniformemente distribudas em todas as classes, como deteco de fraudes, em que
somente uma minoria se enquadra na classe positiva de fraude, ou ainda, problemas
de diagnstico mdico, em que um nmero pequeno ser diagnosticado com a doena
em relao ao universo de amostras. Nesses casos, uma taxa de reconhecimento de, por
exemplo, 97% pode parecer bastante satisfatria. Mas, e se somente 3% das amostras
realmente tinha a doena (amostras positivas) e o modelo no as previu corretamente
enquanto que previu 100% das amostras negativas? Para esses casos, h outras mtricas
que visam diminuir essa falta de informao, como a sensibilidade e a especicidade,
denidas por:
sensibilidade =
TP
P
(14)
especicidade =
TN
N
. (15)
Ainda, possvel calcular a preciso de um modelo de classicao, bem como sua
revocao:
preciso =
TP
TP + FP
(16)
revocao =
TP
TP + FN
. (17)
Ainda assim, uma medida de preciso perfeita de 1.0 obtida pelo modelo sobre a classe
C, nos diz que todas as tuplas que o modelo previu como classe C eram, de fato, da
classe C. Porm, no nos diz nada a respeito das tuplas que eram da classe C e o modelo
previu as classicou em outra classe. Da mesma forma, a revocao perfeita de 1.0
somente nos informa que todas as tuplas que eram da classe C foram classicadas como
tal porm, no nos informa sobre quantas outras tuplas, que no pertencem a classe
Captulo 2. Fundamentao Terica 22
C, foram classicadas nessa classe. Para juntar essas duas medidas em uma s, foram
desenvolvidas as medidas F e F

, denidas por:
F =
2 preciso revocao
preciso + revocao
(18)
F

=
(1 +
2
) preciso revocao

2
preciso + revocao
. (19)
A medida F , segundo Han et al. (2011, p.369), a mdia harmnica entre a preciso e
a revocao. E as medidas de F

mais comumente usadas so a F


2
que d duas vezes
mais importncia para a revocao do que a preciso e a F
0.5
que d peso duas vezes
maior preciso em relao a revocao.
2.5 Agrupamento
Agrupar a atividade de formar grupos em que os elementos de um grupo tm
alta semelhana entre si e pouca semelhana com os elementos que esto fora do grupo.
Isto , agrupar maximizar a similaridade intergrupal e minimizar a similaridade
intragrupal.
Diferentemente da classicao, no agrupamento a classe da tupla analisada no
conhecida previamente e ser, ento, descoberta ao m do processo de agrupamento.
com frequncia chamada de classicao automtica e na rea de machine learning
conhecida ainda, como aprendizado no supervisionado, que aprende por observao
enquanto que a classicao conhecida como uma forma de aprendizado supervisio-
nado, dada por exemplos (HAN et al., 2011, p.445).
2.5.1 Requisitos e Caractersticas
Na minerao de dados o desao tem sido o tratamento eciente e escalvel
de grandes bases de dados bem como a efetividade de mtodos para agrupar formas
complexas (no convexas), agrupar objetos com um alto nmero de atributos e, por m,
agrupar objetos com tipos de atributos variados como nominais, numricos, binrios
dentre outros, ao mesmo tempo. Nessa rea, so levantados os seguintes requisitos para
algoritmos de agrupamento:
Escalabilidade: a maioria dos mtodos de agrupamento lida bem com conjuntos
de algumas centenas de objetos; porm, bases de dados com milhes ou at
bilhes de objetos no so mais incomuns no mercado. Por isso, essencial que se
preocupe com a escalabilidade de tais mtodos.
Captulo 2. Fundamentao Terica 23
Habilidade para agrupar diferentes tipos de dados: alguns mtodos de agrupa-
mento so projetados especicamente para tratar somente um tipo de dados, seja
ele numrico, binrio, etc. No entanto, o caso mais frequente quando temos
elementos com os mais variados atributos e queremos classic-los levando-os
em considerao ao mesmo tempo. Mais recentemente, so estudados mtodos
para agrupar estruturas ainda mais complexas como grafos, imagens, sequncias,
entre outros.
Agrupar formas no convexas: emsua maioria, algoritmos de agrupamento usam
medidas de similaridade entre os objetos calculadas em um espao euclidiano e,
assim, tendem a formar grupos cuja forma esfrica. Porm, em alguns casos,
agrupamentos esfricos no so adequados ao problema que se quer resolver
como, por exemplo, em deteco de caracteres de variadas formas em uma ima-
gem.
Minimizar o conhecimento do domnio: ainda que as tcnicas de agrupamento
sejam conhecidas como uma forma de aprendizado automtico, se faz necessrio
algum conhecimento sobre os dados para que se possa denir, por exemplo, o
nmero de grupos as quais se deseja agrupar os objetos. Esse conhecimento prvio
visto como uma desvantagem e h alguns mtodos que visam sua eliminao.
Robustez: com frequncia os algoritmos de agrupamento usam medidas de ten-
dncia central e, por isso, se tornamsusceptveis valores discrepantes ou faltantes.
Minimizar essa susceptibilidade um foco de algumas tcnicas de agrupamento.
Clculo incremental: por tratar de grandes bases de dados, reagrupar os objetos
a todo instante em que um objeto for inserido, modicado ou removido da base
se torna muito custoso e algumas tcnicas visam o clculo dos agrupamentos de
uma forma incremental.
Lidar com nmero alto de atributos: em minerao de documentos como pgi-
nas Web, por exemplo, um objeto de dados muitas vezes contm um vetor de
atributos esparso, com muitos zeros, levando a resultados de agrupamentos de
baixa qualidade. Assim, se faz necessrio o estudo de algoritmos especcos para
esses casos.
Alm dos aspectos observados acima, podemos ainda analisar os algoritmos de
agrupamento em relao as seguintes caractersticas:
Critrio de partio: particionar os elementos de tal forma que todos os grupos
estejam no mesmo nvel hierrquico, por exemplo, designar grupos de clientes
para diferentes gerentes, ou formar grupos e subgrupos hierrquicos; por exemplo,
Captulo 2. Fundamentao Terica 24
em minerao de pginas Web podemos dividi-las em pginas de esporte, cincia,
etc. e as pginas de esporte, por sua vez, divididas empginas de futebol, basquete,
entre outros.
Separao dos grupos: podem ser mutuamente exclusivas, em que os elementos
pertencem a um, e somente um, grupo ou os agrupamentos podem ter sobreposi-
es.
Medida de similaridade: grupos so formados calculando-se a distncia entre os
objetos emumdado espao geomtrico (o caso mais comum o espao euclidiano),
porm existem algoritmos que adotam outro tipo de medida de similaridade,
baseados em densidade ou bayesiano.
Espao dos atributos: muitas vezes, em objetos com um nmero alto de atributos,
apenas uma poro desses atributos de fato relevante para o agrupamento. Al-
guns algoritmos restringem o espao de atributos utilizados, analisando somente
parte do objeto.
2.5.2 Classicao dos Mtodos de Agrupamento
Podemos ainda classicar os mtodos de agrupamento em mtodos de particio-
namento, hierrquicos e baseado em densidade.
Mtodos de Particionamento: dado um conjunto de N objetos, os algoritmos
dessa classe dividemo conjunto emk grupos, comk N, dispostos emummesmo
nvel hierrquico e, em geral, so mutuamente exclusivos (essa ltima restrio
algumas vezes relaxada para um particionamento fuzzy). Partem de um nmero
k de parties iniciais e tentam melhorar os agrupamentos usando a tcnica de
realocao iterativa, em que os elementos so realocados de grupo em grupo e as
medidas de similaridade recalculadas at que umtimo local seja encontrado (uma
vez que o timo global seria computacionalmente impeditivo de ser calculado
devido ao grande nmero de combinaes entre os elementos).Alguns algoritmos
dessa classe so o k-mdia, k-medoide e PAM (Partitioning Around Medeoids)
Mtodos hierrquicos: constroemestruturas do tipo rvore comos agrupamentos
formados, sendo que essa construo pode ser divisiva, top-down, em que um
grande grupo formado e ento dividido diversas vezes at que se satisfaa uma
funo objetivo, ou aglomerativa, bottom-up, diversos grupos, mais especializados,
so formados e baseando-se na similaridade com os demais feita a juno entre
eles at que se satisfaa uma funo objetivo. Sofrem do fato de que uma vez
que um grupo formado ou dividido, essa deciso no pode ser desfeita. Tal
deciso em geral tomada para tentar diminuir o custo computacional de se
Captulo 2. Fundamentao Terica 25
calcular as medidas de similaridade entre os grupos. Na literatura consultada, os
algoritmos hierrquicos mais discutidos so o AGNES (AGlomerative NESting),
DIANA (DIvisive ANAlysis) e o BIRCH (Multiphase Hierarchical Clustering);
Mtodos Baseados emDensidade: os mtodos de particionamento e hierrquicos,
dados o seu uso baseado em distncias euclidianas, somente podem encontrar gru-
pos de forma esfrica e, sendo assim, no so aplicveis para alguns problemas do
mundo real. Mtodos baseados em Densidade superam essa limitao calculando
a similaridade no mais baseado na distncia entre os objetos mas usando os con-
ceitos de densidade de acessibilidade e densidade de conectividade. Exemplos
de algoritmos baseados em densidade so o DBSCAN (Density-Based Clustering
Based on Connect Regions with High Density), o OPTICS (Ordering Points to Identify
the Clustering Structure) e o DENCLUE (Clustering Based on Density Distribution
Funcions).
2.5.3 Mtodos de Particionamento
Os mtodos de particionamento so as formas mais simples e fundamentais
dentre os mtodos de agrupamento. Tm como parmetros de entrada um conjunto
de tuplas D de tamanho n, k, o nmero de agrupamentos a serem descobertos e, por
m, o algoritmo de particionamento. Os agrupamentos so formados com o objetivo
de maximizar a similaridade entre os objetos internos e minimizar a similaridade entre
objetos de grupos distintos.
Seja o conjunto de tuplas D contendo n objetos em um espao Euclidiano, m-
todos de particionamento devem distribuir esses objetos em k agrupamentos
3
C
1
, ...,
C
k
em que C
i
D e C
i
C
j
= para (i i, j k). Uma funo objetivo usada para
se medir a qualidade do particionamento de tal forma que maximize a similaridade
intragrupal e minimize a intergrupal.
Uma possvel abordagem para mtodos de particionamento baseada no con-
ceito de que um grupo representado por um nico elemento denominado centroide e
a medida de qualidade desse agrupamento dada por:
E =
k

i=1

pC
i
dist(p, c
i
)
2
(20)
Em que p representa o ponto no espao do objeto p, c
i
o ponto no espao do centroide
de C
i
, ou ainda, a representao de C
i
e dist(p, c
i
) a distncia espacial entre dois pontos
p e c
i
. Dessa forma, a Equao (20) tem E como a soma dos quadrados dos erros entre
todos os objetos presentes no agrupamento C
i
e seu centroide C
i
.
3
Conhecidos na literatura por clusters.
Captulo 2. Fundamentao Terica 26
Essa abordagem extremamente custosa computacionalmente uma vez que
enumerar todos os agrupamentos possveis emD e calcular sua similaridade mostrado
ser um problema NP-difcil de complexidade O(n
dk+1
log n) para k agrupamentos de
dimenso (nmero de atributos) d e n objetos (HAN et al., 2011, p. 452). Uma heurstica
possvel para esse problema de particionamento a chamada k-mdia.
O mtodo k-mdia, representado pelo Algoritmo 2, escolhe aleatoriamente k
objetos do conjunto D e, agora, o centroide do agrupamento C
i
passa a ser a mdia dos
objetos contidos em C
i
. Os objetos restantes em D so designados para o agrupamento
cuja distncia entre o objeto e o centroide mnima. Uma vez que os grupos esto
formados, o algoritmo calcula novamente a mdia para cada grupo e seus objetos
so rearranjados de acordo com a nova mdia calculada. O algoritmo para quando os
agrupamentos permanecem estveis, isto , os novos agrupamentos so os mesmos
em relao aos agrupamentos da iterao anterior. Como exemplo, temos a Figura 10
em que, no quadro a), temos o grupo inicial, cujos centroides foram so escolhidos
aleatoriamente, j no quadro b) so recalculados os centroides para cada agrupamento
e os elementos rearranjados de acordo com sua similaridade em relao aos novos
centroides e, por m, no quadro c), os agrupamentos cam estveis, isto , no mudam
mais, caracterizando o critrio de parada para o algoritmo.
Algoritmo 2: Algoritmo k-mdia.
Input: Conjunto de dados contendo n objetos D, k nmero de agrupamentos
desejados
Output: Um conjunto de k agrupamentos
escolha aleatoriamente k objetos de D para representar os centrides iniciais;
repeat
distribua os objetos de acordo com as mdias dos objetos e dos
agrupamentos;
atualize a mdia de cada grupo;
until at que no haja mudana;
Figura 10 Exemplo do funcionamento do mtodo k-mdia.
Fonte: Adaptado de Han et al. (2011, p.453)
Captulo 2. Fundamentao Terica 27
O mtodo k-mdias no garante a convergncia global, isto , no garante que
os agrupamentos formados so os melhores possveis e s pode ser aplicado quando
a mdias dos atributos dos objetos podem ser calculadas. No caso em que os objetos
tenham atributos nominais, possvel utilizar o mtodo k-modas em que ao invs
da mdia usada a moda para o clculo de similaridade. O mtodo k-mdia no
recomendado na descoberta de agrupamentos de tamanhos muito discrepantes ou no
convexos e sensvel presena de outliers por utilizar medidas de tendncia central.
2.5.4 Avaliando os Mtodos de Agrupamento
Com os agrupamentos construdos, no raro desejamos medir a qualidade dos
agrupamentos ou, ainda, comparar diferentes tcnicas de agrupamentos. Para esse m,
se faz necessrio analisar trs aspectos importantes:
Tendncia de agrupamento: Dado um conjunto de dados se pertinente medir
se existe uma estrutura no aleatria presente nos dados, ou seja, aplicando-se
mtodos para encontrar agrupamentos nesse conjunto de dados resultar em
grupos no aleatrios;
Determinar o nmero de agrupamentos para um conjunto de dados: Apesar de
alguns mtodos de agrupamento, como o k-mdia por exemplo, requererem o
nmero de agrupamentos como parmetro inicial, deseja-se saber que nmero
representa um bom nmero de agrupamentos a serem encontrados;
Medidas de qualidade do agrupamento: Muitas vezes possvel confrontar os
agrupamentos atingidos com agrupamentos conhecidos ou, caso no exista tais
agrupamentos, so usados mtodos chamados mtodos intrnsecos, que medem,
basicamente, o quo separados so os agrupamentos uns dos outros;
Para se calcular a tendncia de agrupamento pode-se utilizar a Estatstica de
Hopkins, que mede o quo aleatria uma varivel distribuda no espao, denida da
seguinte forma:
1. Retire n amostras p
1
, ..., p
n
de do conjunto de dados D e encontre o vizinho mais
prximo de p
i
em D, tal que:
x
i
= min
vD
{dist(p
i
, v)}. (21)
2. Retire n amostras q
1
, ..., q
n
e para cada q
i
encontre o vizinho mais prximo em
D q
i
, tal que:
y
i
= min
vD,v=q
i
{dist(q
i
, v)}. (22)
Captulo 2. Fundamentao Terica 28
3. A estatstica de Hopkins , ento:
H =

n
i=1
y
i

n
i=1
x
i
+

n
i=1
y
i
. (23)
Se D for uniformemente distribudo ento,

n
i=1
x
i
ser prximo de

n
i=1
y
i
e,
assim, H ser aproximadamente 0.5. Porm, a distribuio de D seja bastante irregular
ento,

n
i=1
y
i
tende a ser substancialmente menor que

n
i=1
x
i
e H, dessa forma, pr-
ximo de 0. Essa informao til de maneira que estatstica de Hopkins pode ser usada
como limiar calculada para diferentes agrupamentos, em que um valor de H > 0.5
indica que o conjunto D tem agrupamentos estatisticamente desinteressantes, uma vez
que H > 0.5 representa grande uniformidade dos objetos de D.
Em relao ao aspecto de estimar um bom nmero de agrupamentos, Han et
al. (2011, p.486) discute o uso de uma regra simples, obtida experimentalmente, que
nos diz para usar k =

n
2
para um conjunto de dados que tenha n objetos. Assim,
esperado que cada agrupamento contenha

2n elementos.
29
3 Trabalhos Relacionados
O Portal da Transparncia tem sido explorado por diversos autores com os
objetivos mais variados como a anlise da governana, deteco de anomalias, entre
outros. O Portal foi lanado em 2004 e, desde 2008, a Controladoria Geral da Unio,
atravs do rgo Observatrio da Despesa Pblica, vemestudando os gastos dos Cartes
de Pagamento do Governo Federal, os chamados cartes corporativos. Em um trabalho
publicado em 2009 (SILVA et al., 2009) aplicou-se tcnicas de Minerao de Dados (em
especco, minerao de regras de associao) e foram encontrados, dentre um total de
155 regras de associao, gastos com aluguel de carro para viagens pessoais e outras
irregularidades.
Em um artigo publicado em 2011, pesquisadores da CGU, descrevem o emprego
de Minerao de Dados na deteco de cartis em licitaes pblicas (SILVA; RALHA,
2010) utilizando agentes de minerao em um sistema multiagente A diculdade em se
encontrar grupos de empresas suspeitos de praticar cartis reside em dois pontos chave:
analisar as diversas combinaes possveis entre empresas envolvidas em licitaes se
torna computacionalmente impraticvel e, muitas vezes, a atuao de cartis extrapola
o escopo de apenas um rgo da Administrao Pblica Federal.
Os dados analisados no trabalho citado acima, so provenientes de um outro
portal de dados governamentais abertos chamado Compras Governamentais (PLANE-
JAMENTO, 2014) em que so disponibilizados os dados de licitaes pblicas. Ainda
nesse artigo, os autores modelaram os dados em uma matriz em que uma linha cor-
responderia a uma licitao, cada coluna um fornecedor e o valor do item a
ij
, dessa
matriz, um atributo booleano e assumindo verdadeiro caso a empresa j tenha partici-
pado da licitao i. Os autores, ento, usaram duas abordagens na minerao das regras
de associao. No primeiro momento, o algoritmo Apriori (entraremos em detalhes
sobre esse algoritmo na fundamentao terica) foi aplicado sobre toda a base de dados.
A segunda abordagem emprega algoritmos de agrupamento para primeiro agrupar
fornecedores que atuem em conjunto e, ento, aplicar o algoritmo Apriori em cada
grupo descoberto para encontrar as regras de associao. Os grupos encontrados esto
ilustrados na Figura 11, em que esto agrupados as unidades federais nas quais grupos
de fornecedores atuam conjuntamente.
A segunda abordagem se mostrou mais apropriada uma vez que, em geral,
os cartis acontecem em grupos regionais e dicilmente tm abrangncia nacional,
segundo especialistas da CGU. Ao m do trabalho, diversas regras de associao davam
indcios de prticas irregulares como rodzio de licitaes e simulao de concorrncia,
por exemplo.
Captulo 3. Trabalhos Relacionados 30
Figura 11 Agrupamentos das unidades federais
Fonte: Silva e Ralha (2010, p.11)
No ano de 2008, uma empresa ganhou nove licitaes em um mesmo
rgo, concorrendo com outra empresa que no ganhou nenhuma das
licitaes em que ambas participaram. O detalhe que as nove licitaes
perdidas pela segunda empresa foram exatamente as nicas licitaes
da base de dados em que ela participou. O total de vitrias da primeira
empresa na base de dados era de apenas 12, mostrando que no se
tratava de um grande fornecedor. Segundo o especialista, essa regra
aponta fortes caractersticas de cartelizao e simulao de concorrncia.
(SILVA; RALHA, 2010, p.16).
Em uma outra regra descoberta, foram apontados trs fornecedores que parti-
ciparam conjuntamente de 22 licitaes. No entanto, cada um desses fornecedores j
havia participado em mais de 100 licitaes, ou seja, tratavam-se apenas de grandes
fornecedores que, por coincidncia, participaram de algumas licitaes em conjunto.
Podemos perceber que a descoberta de conhecimento no processo de MD de-
pende fortemente do conhecimento do domnio do problema. De outra forma, a inter-
pretao dos dados se d de forma errnea e pode produzir concluses que no reetem
a realidade.
Em um trabalho publicado em 2009 (CARVALHO et al., 2009) os autores ex-
ploram a importncia do KDD no processo de compras governamentais. No trabalho,
foram analisados dados relativos ao perodo de 2004 a 2008 do Portal ComprasNet
(atual ComprasGovernamentais) e foram encontrados alguns padres que vo contra
os princpios relativos s compras governamentais como:
Realizao de aquisies por dispensa de licitao de um mesmo fornecedor
destacando-se a inexistncia de competitividade, favorecimento de fornecedores e
direcionamento de resultados;
Captulo 3. Trabalhos Relacionados 31
Realizao de aquisies por dispensa de licitao de um mesmo material vrias
vezes em um mesmo ano indicando o fracionamento de licitaes;
Observando os trabalhos citados, podemos compreender melhor a importncia
da anlise detalhada dos dados disponibilizados no Portal da Transparncia. Devido
ao grande nmero de dados, a aplicao de mtodos da Minerao de Dados torna-se
atraente no sentido de que so projetados tendo em vista a performance ao lidar com
grandes bases de dados.
32
4 Metodologia
O presente captulo apresenta como foi feita a coleta dos dados, a anlise des-
critiva de parte dos dados coletados e, por m, o uso da implementao escolhida do
algoritmo Apriori.
4.1 Delineamento da Pesquisa
Nesse primeiro momento do trabalho, decidimos fazer a coleta dos dados, pre-
processar parte da base coletada e, ao nal, aplicar uma tcnica de minerao dentre as
discutidas na fundamentao terica. A tcnica escolhida foi a de minerao de regras
de associao, devido sua relativa simplicidade de aplicao.
4.2 Coleta de Dados
A coleta de dados feita atravs do download dos arquivos disponveis no portal
da transparncia
1
. Os arquivos esto organizados por categorias, ano de exerccio que,
por sua vez, esto divididos por ms. Decidimos estreitar nossa pesquisa nos dados
referentes aos de Gastos Diretos. Escolhemos tambm trabalhar com os dados referentes
ao ano de 2013 (13648631 registros) por julgarmos que os dados coletados por um ano
seriam sucientes para o desenvolvimento do trabalho.
Devido s restries de tempo para a apresentao do trabalho, optamos por
utilizar os dados do perodo de Janeiro de 2013 (626147 registros) na execuo do
presente trabalho e na anlise preliminar dos resultados. Portanto, todos os dados
analisados so referentes ao arquivo 201301_GastosDiretos.csv.
4.3 Pr-processamento e Anlise Descritiva dos Dados
Em um primeiro momento desejvel que tenhamos informaes respeito
da base de dados estudada. Informaes como, por exemplo: Esto todos os atributos
preenchidos? Quais so os valores mximo e mnimo que cada coluna pode assumir?
No caso de um atributo numrico, quais so as principais medidas estatsticas, valor
mnimo, valor mximo e mdia?
Os dados sobre gastos diretos esto dispostos em arquivos no formato CSV,
comma separated value, contendo 25 colunas, sendo elas: Cdigo rgo Superior, Nome
1
Os dados do presente trabalho foram encontrados em na URL <http://www.portaltransparencia.
gov.br/downloads/mensal.asp?c=GastosDiretos#exercicios2013>
Captulo 4. Metodologia 33
rgo Superior, Cdigo rgo Subordinado, Nome rgo Subordinado, Cdigo Uni-
dade Gestora, Nome Unidade Gestora, Cdigo Grupo Despesa, Nome Grupo Despesa,
Cdigo Elemento Despesa, Nome Elemento Despesa, Cdigo Funo, Nome Funo,
Cdigo Subfuno, Nome Subfuno, Cdigo Programa, Nome Programa, Cdigo Ao,
Nome Ao, Linguagem Cidad, Cdigo Favorecido, Nome Favorecido, Nmero Docu-
mento, Gesto Pagamento, Data Pagamento e Valor Pagamento. Para mais informaes
sobre oque signica cada coluna, vide Apndice A.
Na pr-anlise dos arquivos, nos deparamos com dois problemas. A diculdade
de leitura da base original pois os arquivos usam a codicao de texto WINDOWS-
1252 e a representao de caracteres especiais como letras acentuadas, por exemplo,
cava prejudicada ou, at mesmo, causava erros na execuo de alguns scripts. O outro
problema encontrado foi a presena de dois caracteres especiais \r ( carriage return ) e
o caractere nulo \000 que tambm ocasionavam erro no resultado nal dos scripts
utilizados. Para resolver esses problemas foram utilizados os seguintes comandos:
LC_ALL=C tr -d "[\000\r]" < base/201301_GastosDiretos.csv
> base/201301_GastosDiretos_sem_char_especiais.csv
iconv -f WINDOWS-1252 -t UTF-8 201301_GastosDiretos.csv
> 201301_GastosDiretos_utf.csv
O primeiro retira os caracteres especiais do arquivo original, criando um segundo
arquivo chamado 201301_GastosDiretos_sem_char_especiais.csv. Nesse ar-
quivo usado o comando iconv para transformar sua codicao original WINDOWS-
1252 para a codicao UTF-8 gerando, assim, um terceiro arquivo chamado de
201301_GastosDiretos_sem_char_especiais_utf.csv.
Para saber se os atributos estavam completos, isto , se havia algum valor di-
ferente de vazio em cada coluna do arquivo, geramos, para cada coluna, uma matriz
associativa cujo ndice do elemento dessa matriz representa o valor encontrado na
coluna e o elemento representa a frequncia daquele valor. Com isso fomos capazes de
encontrar as colunas que continham o valor vazio e sua frequncia, isto , quantos
registros estavam com essa determinada coluna vazia. Por m, a completude de cada
coluna foi ento calculada usando a equao:
Completude = 1
Frequncia de valores vazios
Nmero de registros
(24)
A Tabela 2 contm o resumo das mtricas calculadas para os dados categri-
cos, todos do tipo textual. Para os dados no categricos, Data Pagamento e Valor
Pagamento, alm de calcular a completude e a mdia (somente para o campo Valor ),
Captulo 4. Metodologia 34
extramos os valores mximo e mnimo que cada atributo assumiu. O resumo dessas
mtricas est contido na Tabela 3. Diversas anlises podem ser feitas com base nessas
Tabela 2 Resumo das mtricas descritivas para os dados categricos dos gastos diretos
de janeiro de 2013.
Coluna Nome da coluna Moda Frequncia da
moda
Completude
1 Cdigo rgo Superior 26000 381746 100%
2 Nome rgo Superior MINISTRIO DA EDUCAO 381746 100%
3 Cdigo Orgo Subordinado 26291 125072 100%
4 Nome Orgo Subordinado FUND.COORD.DE APERF.DE
PESSOAL NIVEL SUPERIOR
125072 100%
5 Cdigo Unidade Gestora 154003 125072 100%
6 Nome Unidade Gestora FUND.COORD.DE APERF.DE
PESSOAL NIVEL SUPERIOR
125072 100%
7 Cdigo Grupo Despesa 3 593909 100%
8 Nome Grupo Despesa Outras Despesas Correntes 593909 100%
9 Cdigo Elemento Despesa 18 241477 100%
10 Nome Elemento Despesa Auxlio Financeiro a Estudantes 241477 100%
11 Cdigo Funo 12 359566 100%
12 Nome Funo Educao 359566 100%
13 Cdigo Subfuno 364 198079 100%
14 Nome Subfuno Ensino Superior 198079 100%
15 Cdigo Programa 2032 197618 100%
16 Nome Programa Educao Superior - Gradua-
o, Ps-Graduao, Ensino,
Pesquisa e Extenso
197618 100%
17 Cdigo Ao 487 79215 100%
18 Nome Ao Concesso de Bolsas de Estudos 79215 100%
19 Linguagem Cidad Bolsas de Estudos no Pas 79215 26.36%
20 Cdigo Favorecido 00000000000191 2443 100%
21 Nome Favorecido BANCO DO BRASIL SA [DIRE-
CAO GERAL]
2443 100%
22 Nmero Documento 2013OB800192 27222 100%
23 Gesto Pagamento 15279 74021 100%
24 Data Pagamento 07/01/2013 63385 100%
Fonte: Prpria
Tabela 3 Resumo das mtricas descritivas para os dados no categricos dos gastos
diretos de janeiro de 2013.
Coluna Nome da coluna Mdia Mximo Mnimo Completude
24 Data Pagamento N.A. 31/01/2013 02/01/2013 100%
25 Valor Pagamento R$ 21005.27 R$ 100,000,000.00 R$ 0.01 100%
Fonte: Prpria
tabelas. Por exemplo, da Tabela 2 vemos que o Ministrio da Educao tem frequncia
de 381746, isto , est presente em 60,97% de todos os pagamentos referentes ao ms de
Janeiro de 2013, lembrando que o referido perodo possui 626147 registros.
Um outro ponto interessante a se observar da mesma tabela, a completude da
coluna 19, Linguagem Cidad. A completude representa o nmero relativo de registros
(linhas no arquivo) que continham alguma informao na respectiva coluna. Nesse
caso, podemos observar que somente 26,36% dos registros (aproximadamente 105
mil registros) tinham o atributo Linguagem Cidad, o que no representou prejuzo
para a nossa anlise, visto que a coluna 19 apenas uma descrio mais amigvel do
Captulo 4. Metodologia 35
programa governamental envolvido no pagamento. Da Tabela 3 podemos observar que
os pagamentos comearam no dia 02 de Janeiro, sendo que o menor valor pago foi de 1
centavo e o maior valor foi de R$100 milhes.
4.4 Aplicao e Funcionamento do Programa Apriori
Na rea de minerao de padres frequentes, decidimos usar o algoritmo Apriori
devido sua relativa simplicidade de entendimento quando comparado aos demais
algoritmos de minerao de padres frequentes e tambm devido ao fato de ser um
algoritmo j consolidado, pois foi criado em1994 e ainda hoje utilizado como benchmark
na rea (GILLMEISTER; CAZELLA, 2007).
A implementao do algoritmo escolhida foi a implementao feita por Christian
Borgelt por fazer parte de programas de minerao de dados bem estabelecidos no
mercado como, por exemplo, o Clementine da IBM e tambm pela boa documentao
2
oferecida que inclui, dentre outras coisas, o pseudocdigo do algoritmo Apriori e
uma explicao geral sobre minerao de regras de associao. Na pgina do autor
3
possvel encontrar os cdigos fonte bem como os executveis, para as plataformas
UNIX e Windows.
O programa implementado por Borgelt espera um arquivo de entrada em que
cada linha representa uma transao (tupla). As linhas so separadas por um caractere
delimitador (no nosso caso tab) e cada elemento representa o valor de um atributo.
Abaixo, um exemplo de entrada no formato esperado:
po manteiga leite
po leite
manteiga leite ma
... ... ...
O programa gera como sada um arquivo com as regras de associao encontradas
(quando usada a opo -tr) da seguinte forma:
A <- B C ... (suporte, conana) (25)
X <- Y Z ... (suporte, conana) (26)
Em que cada linha representa uma regra de associao que satisfaz os valores de
suporte mnimo e mximo e conana mnima e mxima. No exemplo dado acima, A
e X representam as implicaes, B C e Y Z so os atributos que implicam em A e X,
2
A documentao pode ser encontrada em <http://www.borgelt.net/doc/apriori/apriori.html>
3
Pgina de download do programa Apriori implementado por Christian Borgelt <http://www.borgelt.
net/apriori.html>
Captulo 4. Metodologia 36
respectivamente e, nalmente, os valores de suporte e conana da regra vm a seguir
entre parnteses.
Por ltimo, Borgelt trata o valor de suporte, em seu algoritmo, de uma forma um
pouco diferente da forma proposta pelos autores do algoritmo Apriori. Para Agrawal
e Srikant (1994), o valor de suporte relativo de uma regra de associao A, B X
a frequncia relativa com que o itemset {A, B, X} aparece na base de dados. Porm,
para Borgelt, o suporte de uma regra , baseando-se no exemplo anterior, a frequncia
relativa com que os elementos {A, B}, isto , os elementos antecedentes da regra de
associao, aparecem na base de dados. H duas razes por ter usado essa denio e
no a original, segundo o autor. A primeira de que o valor do suporte denido por
Agrawal e Srikant no funciona bem quando so aliados a outras mtricas de correlao.
A segunda razo a de que, da maneira como ele dene o suporte, pode-se ter uma
ideia estatstica a respeito da frequncia dos elementos antecedentes em relao base
de dados como um todo (BORGELT, 2014).
37
5 Anlise Preliminar dos Resultados
Emumprimeiro momento foi executado o programa Apriori tendo como entrada
o arquivo de despesas diretas referente ao perodo de Janeiro de 2013, com todas as
suas colunas. Porm, nos deparamos com o problema de haver um relacionamento
inerente entre algumas colunas do arquivo. Por exemplo, rgos e subrgos do governo
federal: o subrgo FUND.COORD.DE APERF.DE PESSOAL NIVEL SUPERIOR est
associado ao rgo superior MINISTRIO DA EDUCAO em 100% das vezes em que
o subrgo est presente. Como resultado, nessa primeira execuo em que todas as
colunas estavam presentes, o arquivo de sada do algoritmo Apriori, foi muito grande
(maior do que 4GB) e, claramente, no era de utilidade, uma vez que analisar todas as
regras do arquivo de sada, uma a uma, seria invivel.
Para contornar esse problema, extramos somente as colunas: 2, Nome rgo
Superior; 10, Nome Elemento despesa; 21, Nome Favorecido; 24, Data pagamento e
25, Valor do pagamento. Essas colunas foram escolhidas por julgarmos que no h um
relacionamento preestabelecido entre elas e por trazerem informaes importantes a
respeito de um pagamento efetuado.
Na primeira execuo, o algoritmo encontrou todas as regras de associao que
tm suporte mnimo de 10% e conana de 80% (valores padro do algoritmo). Como
resultado, foram encontradas as cinco regras de associao as seguir:
1. Auxlio Financeiro a Estudantes <- 07/01/2013 (17.3926, 94.5355)
2. MINISTERIO DA EDUCACAO <- 07/01/2013 (17.3926, 96.8118)
3. MINISTERIO DA EDUCACAO <- Auxlio Financeiro a Estudantes (38.5656,
98.8599)
4. MINISTERIO DA EDUCACAO <- 07/01/2013 Auxlio Financeiro a Estudantes
(16.4422, 99.9563)
5. Auxlio Financeiro a Estudantes <- 07/01/2013 MINISTERIO DA EDUCACAO
(16.8381, 97.606)
Lembrando que o formato da sada X <- A (Suporte, Conana), das regras acima, po-
demos concluir que o Ministrio da Educao realizou o auxlio nanceiro a estudantes
no dia 07 de Janeiro de 2013 com suporte de 16,4422% e conana de 99,9563%.
Na segunda execuo do algoritmo, pede-se todas as regras de associao que
satisfaam suporte mnimo de 5% e conana de 80%. comum que se use um valor
Captulo 5. Anlise Preliminar dos Resultados 38
de suporte mnimo baixo devido a grande diversidade de valores e grande volume de
dados. No trabalho de Silva et al. (2009), por exemplo, o suporte mnimo estabelecido
foi de 0,1% e a conana de 50%. Valores esses, obtidos a partir da anlise de outras
iteraes do algoritmo. Os resultados obtidos, ento, na nossa segunda execuo foram
os seguintes:
1. MINISTERIO DA CIENCIA, TECNOLOGIA E INOVACAO <- Despesas de Exer-
ccios Anteriores (6.54288, 82.1422);
2. Auxlio Financeiro a Estudantes <- 1350,00 (8.38191, 82.5448);
3. MINISTERIO DA EDUCACAO <- 1350,00 (8.38191, 82.3352);
4. Auxlio Financeiro a Estudantes <- 400,00 (9.70844, 89.9686);
5. MINISTERIO DA EDUCACAO <- 400,00 (9.70844, 92.0973);
6. Auxlio Financeiro a Estudantes <- 07/01/2013 (17.3926, 94.5355);
7. MINISTERIO DA EDUCACAO <- 07/01/2013 (17.3926, 96.8118);
8. MINISTERIO DA EDUCACAO <- Auxlio Financeiro a Estudantes (38.5656,
98.8599);
9. 04/01/2013 <- Despesas de Exerccios Anteriores MINISTERIO DA CIENCIA,
TECNOLOGIA E INOVACAO (5.37447, 91.2071);
10. Despesas de Exerccios Anteriores <- MINISTERIO DA CIENCIA, TECNOLOGIA
E INOVACAO 04/01/2013 (5.05585, 96.9549);
11. Auxlio Financeiro a Estudantes <- 1350,00 07/01/2013 (6.05019, 99.9947);
12. 07/01/2013 <- 1350,00 Auxlio Financeiro a Estudantes (6.91883, 87.4406);
13. MINISTERIO DA EDUCACAO <- 1350,00 07/01/2013 (6.05019, 99.9974);
14. 07/01/2013 <- 1350,00 MINISTERIO DA EDUCACAO (6.90127, 87.6655);
15. MINISTERIODAEDUCACAO<- 1350,00 Auxlio Financeiro a Estudantes (6.91883,
99.663);
16. Auxlio Financeiro a Estudantes <- 1350,00 MINISTERIODAEDUCACAO(6.90127,
99.9167);
17. Auxlio Financeiro a Estudantes <- 400,00 07/01/2013 (5.5099, 98.8957);
18. MINISTERIO DA EDUCACAO <- 400,00 07/01/2013 (5.5099, 99.971);
Captulo 5. Anlise Preliminar dos Resultados 39
19. MINISTERIO DA EDUCACAO <- 400,00 Auxlio Financeiro a Estudantes (8.73454,
99.4423);
20. Auxlio Financeiro a Estudantes <- 400,00 MINISTERIO DA EDUCACAO (8.94121,
97.1439);
21. MINISTERIO DA EDUCACAO <- 07/01/2013 Auxlio Financeiro a Estudantes
(16.4422, 99.9563);
22. Auxlio Financeiro a Estudantes <- 07/01/2013 MINISTERIO DA EDUCACAO
(16.8381, 97.606);
23. MINISTERIO DA EDUCACAO <- 1350,00 07/01/2013 Auxlio Financeiro a Estu-
dantes (6.04987, 100);
24. Auxlio Financeiro a Estudantes <- 1350,00 07/01/2013 MINISTERIO DA EDU-
CACAO (6.05003, 99.9974);
25. 07/01/2013 <- 1350,00 Auxlio Financeiro a Estudantes MINISTERIO DA EDU-
CACAO (6.89552, 87.7362);
26. MINISTERIO DA EDUCACAO <- 400,00 07/01/2013 Auxlio Financeiro a Estu-
dantes (5.44905, 100);
27. Auxlio Financeiro a Estudantes <- 400,00 07/01/2013 MINISTERIO DA EDUCA-
CAO (5.5083, 98.9243).
Novamente, como na execuo anterior, pode-se notar o fato de que o pagamento
do Auxlio Financeiro a Estudantes foi feito no dia 07/01/2013 pelo Ministrio
da Educao. Ainda mais, podemos vericar que h, para os valores mnimos de
suporte e conana estabelecidos, dois valores monetrios desse auxlio, R$1350,50
e R$400,00, ambos pagos na mesma data. Podemos concluir tambm, pela regra de
nmero 1
1
que em 82% das vezes em que foi feito um pagamento referentes a Despesas
de Exerccios Anteriores, esses pagamentos foram feitos pelo Ministrio da Cincia,
Tecnologia e Inovao e, pela regra de nmero 9, podemos concluir que, em sua maioria,
os pagamentos foram executados no dia 4 de Janeiro de 2013, apesar de no sabermos,
nesse caso, os valores associados, provavelmente por serem variados e, assim, no
satisfazem o suporte mnimo estabelecido de 5%.
Na terceira e ltima execuo do algoritmo, mantivemos o valor do suporte
mnimo em 5% e alteramos o valor da conana mnima de 80% para 60%. Os resultados
obtidos esto enumerados abaixo:
1
As regras foram enumeradas apenas para poderem ser referenciadas no texto, no tm, assim,
nenhuma ordem especca.
Captulo 5. Anlise Preliminar dos Resultados 40
1. MINISTERIO DA EDUCACAO <- 28/01/2013 (5.05457, 71.7274);
2. 07/01/2013 <- 2000,00 (5.26347, 65.0241);
3. Auxlio Financeiro a Estudantes <- 2000,00 (5.26347, 71.7966);
4. MINISTERIO DA EDUCACAO <- 2000,00 (5.26347, 71.8876);
5. MINISTERIO DA EDUCACAO <- 29/01/2013 (5.49824, 61.0771);
6. MINISTERIO DA CIENCIA, TECNOLOGIA E INOVACAO <- Despesas de Exer-
ccios Anteriores (6.54288, 82.1422);
7. Despesas de Exerccios Anteriores <- MINISTERIO DA CIENCIA, TECNOLOGIA
E INOVACAO (7.29846, 73.6384);
8. 04/01/2013 <- Despesas de Exerccios Anteriores (6.54288, 75.0195);
9. 04/01/2013 <- MINISTERIODACIENCIA, TECNOLOGIAE INOVACAO(7.29846,
69.2729);
10. 07/01/2013 <- 1350,00 (8.38191, 72.1815);
11. Auxlio Financeiro a Estudantes <- 1350,00 (8.38191, 82.5448);
12. MINISTERIO DA EDUCACAO <- 1350,00 (8.38191, 82.3352);
13. MINISTERIO DA EDUCACAO <- Outros Servios de Terceiros - Pessoa Fsica
(8.87557, 69.2536);
14. Auxlio Financeiro a Estudantes <- 400,00 (9.70844, 89.9686);
15. MINISTERIO DA EDUCACAO <- 400,00 (9.70844, 92.0973);
16. Auxlio Financeiro a Estudantes <- 07/01/2013 (17.3926, 94.5355);
17. MINISTERIO DA EDUCACAO <- 07/01/2013 (17.3926, 96.8118);
18. MINISTERIO DA EDUCACAO <- Auxlio Financeiro a Estudantes (38.5656,
98.8599);
19. Auxlio Financeiro a Estudantes <- MINISTERIO DA EDUCACAO (60.9676,
62.5348);
20. 04/01/2013 <- Despesas de Exerccios Anteriores MINISTERIO DA CIENCIA,
TECNOLOGIA E INOVACAO (5.37447, 91.2071);
21. Despesas de Exerccios Anteriores <- MINISTERIO DA CIENCIA, TECNOLOGIA
E INOVACAO 04/01/2013 (5.05585, 96.9549);
Captulo 5. Anlise Preliminar dos Resultados 41
22. Auxlio Financeiro a Estudantes <- 1350,00 07/01/2013 (6.05019, 99.9947);
23. 07/01/2013 <- 1350,00 Auxlio Financeiro a Estudantes (6.91883, 87.4406);
24. MINISTERIO DA EDUCACAO <- 1350,00 07/01/2013 (6.05019, 99.9974);
25. 07/01/2013 <- 1350,00 MINISTERIO DA EDUCACAO (6.90127, 87.6655);
26. MINISTERIODAEDUCACAO<- 1350,00 Auxlio Financeiro a Estudantes (6.91883,
99.663);
27. Auxlio Financeiro a Estudantes <- 1350,00 MINISTERIODAEDUCACAO(6.90127,
99.9167);
28. Auxlio Financeiro a Estudantes <- 400,00 07/01/2013 (5.5099, 98.8957);
29. 07/01/2013 <- 400,00 Auxlio Financeiro a Estudantes (8.73454, 62.385);
30. MINISTERIO DA EDUCACAO <- 400,00 07/01/2013 (5.5099, 99.971);
31. 07/01/2013 <- 400,00 MINISTERIO DA EDUCACAO (8.94121, 61.6058);
32. MINISTERIO DA EDUCACAO <- 400,00 Auxlio Financeiro a Estudantes (8.73454,
99.4423);
33. Auxlio Financeiro a Estudantes <- 400,00 MINISTERIO DA EDUCACAO (8.94121,
97.1439);
34. MINISTERIO DA EDUCACAO <- 07/01/2013 Auxlio Financeiro a Estudantes
(16.4422, 99.9563);
35. Auxlio Financeiro a Estudantes <- 07/01/2013 MINISTERIO DA EDUCACAO
(16.8381, 97.606);
36. MINISTERIO DA EDUCACAO <- 1350,00 07/01/2013 Auxlio Financeiro a Estu-
dantes (6.04987, 100);
37. Auxlio Financeiro a Estudantes <- 1350,00 07/01/2013 MINISTERIO DA EDU-
CACAO (6.05003, 99.9974);
38. 07/01/2013 <- 1350,00 Auxlio Financeiro a Estudantes MINISTERIO DA EDU-
CACAO (6.89552, 87.7362);
39. MINISTERIO DA EDUCACAO <- 400,00 07/01/2013 Auxlio Financeiro a Estu-
dantes (5.44905, 100);
40. Auxlio Financeiro a Estudantes <- 400,00 07/01/2013 MINISTERIO DA EDUCA-
CAO (5.5083, 98.9243);
Captulo 5. Anlise Preliminar dos Resultados 42
41. 07/01/2013 <- 400,00 Auxlio Financeiro a Estudantes MINISTERIO DA EDUCA-
CAO (8.68583, 62.7349).
Obtivemos os mesmos resultados das execues passadas com alguns acrsci-
mos. Nas execues passadas, conclumos que h dois valores para o auxlio pago a
estudantes, sendo eles: R$1350,50 e R$400,00. No entanto, das regras 2, 3 e 4, podemos
perceber que h um terceiro valor monetrio para o Auxlio Financeiro a Estudantes
no valor de R$2000,00 porm, diferentemente dos demais valores pagos, no podemos
concluir que este valor tambm pago na mesma data, 07 de Janeiro, por no haver
uma regra que indique esse acontecimento.
Com apenas trs execues do algoritmo Apriori foi possvel identicar infor-
maes que seriam dicilmente encontradas caso no se estivesse procurando espe-
cicamente por elas, isto , caso no se soubesse quais os valores dos atributos esto
relacionados entre si e quais so os atributos que se relacionam. exatamente esse o
comportamento esperado quando usamos as tcnicas de minerao de padres frequen-
tes, obter mais informaes a respeito da base de dados, descobrindo os relacionamentos
existentes entre os atributos.
43
6 Concluso e Cronograma
Ao longo da execuo do trabalho foi possvel compreender a extenso da rea
de minerao de dados que faz uso intenso de algoritmos de alto desempenho, visando
lidar com grandes quantidades de dados. Pudemos tambm vericar a aplicao direta
de conceitos estatsticos como medidas de correlao, medidas de tendncia central,
entre outros. Dessa forma atingimos o primeiro objetivo proposto para o trabalho nal:
conhecer o estado da arte da minerao de dados. Identicando os principais aspectos a
respeito de minerao de padres frequentes, classicao e agrupamento.
Durante a execuo dos experimentos pudemos vericar o quo dispendiosa a
fase de preprocessamento, uma vez que requer seja feita de maneira sistemtica e com
cuidado rigoroso, para que no haja falta de credibilidade quanto as anlises realizadas.
Por m, pudemos vericar o poder oferecido pelas tcnicas de minerao de
padres frequentes na descoberta de informaes em uma base de dados grande e
esperamos, na segunda parte do trabalho de concluso de curso, poder explorar mais o
algoritmo Apriori aplicando-o na base de dados toda, isto , usar no somente o perodo
de Janeiro de 2013, como foi feito. Alm disso, esperamos experimentar diferentes
valores de suporte, conana e, ainda, outra medidas como a lift, entre outras.
O cronograma do trabalho executado, juntamente com o do trabalho nal est
no Quadro 1.
Quadro 1 Cronograma do trabalho nal.
Atividades Mai Jun Jul Ago Set Out Nov Dez Jan
1
2
3
4
5
6
7
8
9
10
Fonte: Prpria
1. Reviso bibliogrca sobre Minerao de Dados e escolha da primeira tcnica a
ser utilizada no para as anlises preliminares;
2. Pr-processamento da base de dados;
Captulo 6. Concluso e Cronograma 44
3. Aplicao e discusso do algoritmo Apriori, da rea de minerao de padres
frequentes, na base j processada.
4. Escrita, reviso e entrega do projeto;
5. Explorar mais o algoritmo Apriori, aplicando-o na base de dados completa (pe-
rodo de 2013) e variaes dos valores de suporte e conana;
6. Aplicao e discusso da segunda tcnica, referente a rea classicao de dados,
na base de dados preprocessada;
7. Aplicao e discusso da terceira tcnica, referente a rea de agrupamento, na
base de dados preprocessada;
8. Anlise geral das trs tcnicas e identicao de oportunidades para trabalhos
futuros;
9. Escrita e reviso do trabalho nal;
10. Entrega e apresentao;
45
Referncias
AGRAWAL, R.; SRIKANT, R. Fast algorithms for mining association rules in large
databases. In: Proceedings of the 20th International Conference on Very Large Data
Bases. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1994. (VLDB 94),
p. 487499. ISBN 1-55860-153-8. Disponvel em: <http://dl.acm.org/citation.cfm?id=
645920.672836>. Citado na pgina 36.
BORGELT, C. Apriori. 2014. <http://www.borgelt.net/doc/apriori/apriori.html#
supprule>. Acessado em 15 de Agosto de 2014. Citado na pgina 36.
BREIMAN, L.; FRIEDMAN, J.; STONE, C.; OLSHEN, R. Classication and Regres-
sion Trees. 1. ed. Taylor & Francis, 1984. (The Wadsworth and Brooks-Cole statistics-
probability series). ISBN 9780412048418. Disponvel em: <http://books.google.com.br/
books?id=JwQx-WOmSyQC>. Citado na pgina 16.
CARVALHO, I. M. d.; MUHOZ, D. L. C.; FERREIRA, M. V. A. S.; SANTOS, P. M.;
ROVER, A. J.; FIALHO, F. A. P. F. Contribuies das tecnologias KDD e DW como
ferramentas de gesto do conhecimento aplicadas ao processo de compras do governo
eletrnico. In: V Conferncia Sul-Americana em Cincia e Tecnologia Aplicada ao
Governo Eletrnico. Florianpolis: Editora Digital Ijuris, 2009. p. 95113. Citado na
pgina 30.
CGU. Portal da Transparncia. 2014. <http://www.portaltransparencia.gov.br/>.
Acesso em maro de 2014. Citado na pgina 2.
CIOS, K. J.; PEDRYCZ, W.; SWINIARSKI, R. W.; KURGAN, L. A. Data Mining A
Knowledge Discovery Approach. 1st. ed. New York: Springer, 2007. Citado na pgina
2.
ELSMARI, R.; NAVATHE, S. B. Fundamentals of Database Systems. 6. ed. Boston,
Massachusetts: Pearson, 2010. Citado na pgina 1.
GILLMEISTER, P. R. G.; CAZELLA, S. C. Uma anlise comparativa de algoritmos de
regras de associao: minerando dados da indstria automotiva. ERBD, USC, Caxias
do Sul - RS, 2007. Disponvel em: <http://www.ais.com.br/pos/Uma%20an%E1lise%
20comparativa%20de%20algoritmos%20de%20regras%20de%20associa%E7%E3o%
20-%20minerando%20dados%20da%20ind%FAstria%20automotiva.pdf>. Citado na
pgina 35.
HAN, J.; KAMBER, M.; PEI, J. Data Mining : Concepts and Techniques. 3rd. ed.
Waltham, USA: Morgan Kaufmann, 2011. ISBN 9789380931913. Citado 11 vezes nas
pginas 1, 5, 7, 9, 13, 14, 18, 20, 22, 26 e 28.
JERMYN, P.; DIXON, M.; READ, B. J. Preparing clean views of data for data mining.
ERCIM Work. on Database Res, p. 115, 1999. Citado na pgina 8.
MORETTIN, P. A.; BUSSAB, W. O. Estatstica Bsica. 6. ed. So Paulo: Perseus Pu-
blishing, 2010. Citado na pgina 4.
Referncias 46
PLANEJAMENTO, O. e. G. Ministrio do. Compras Gorvenamentais. 2014. <http:
//www.comprasgovernamentais.gov.br/>. Acesso em Julho de 2014. Citado na pgina
29.
RAHM, E.; DO, H. H. Data cleaning: Problems and current approaches. IEEE Data
Engineering Bulletin, v. 23, p. 2000, 2000. Citado 2 vezes nas pginas 5 e 6.
SILVA, C. V. S.; RALHA, C. G. Deteco de cartis em licitaes pblicas com agentes de
minerao de dados. Revista Eletrnica de Sistemas de Informao, v. 10, n. 1, janeiro
2010. Disponvel em: <http://revistas.facecla.com.br/index.php/reinfo/article/view/
754/pdf>. Acesso em: 3 de Julho de 2014. Citado 2 vezes nas pginas 29 e 30.
SILVA, M.; STOPANOVSKI, M.; ROCHA, H.; COSAC, D. Carto de pagamento do
governo federal: uma anlise de regras de associao. In: Workshop Franco-Brasileiro
sobre Minerao de Dados. Pernambuco: [s.n.], 2009. p. 4041. Citado 2 vezes nas
pginas 29 e 38.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining. 1. ed. Boston,
MA, USA: Addison-Wesley Longman Publishing Co., Inc., 2005. ISBN 0321321367.
Citado 5 vezes nas pginas 11, 12, 14, 15 e 16.
ZAKI, M. J.; JR., W. M. Data Mining and Analysis Fundamental Concepts and Al-
gorithms. 1. ed. New York: Cambridge University Press, 2014. ISBN 9780521766333.
Citado na pgina 9.
Apndices
48
APNDICE A Glossrio do Arquivo de Gastos Diretos
Quadro 2 Glossrio das colunas do arquivo de gastos diretos disponibilizado no portal
da transparncia.
Coluna Signicado
rgo Superior
So rgos de direo, controle e comando, mas sujeitos subordinao e ao controle hie-
rrquico de uma chea; no gozamde autonomia administrativa nemnanceira. Incluem-
se nessa categoria rgos com variadas denominaes, como Departamentos, Coordena-
dorias, Divises, Gabinetes. Fonte: Hely Lopes Meirelies
rgo Subordinado Denio de rgo subordinado no encontrada.
Unidade Gestora
Unidade oramentria ou administrativa investida do poder de gerir recursos oramen-
trios e nanceiros, prprios ou sob descentralizao. Fonte: Tesouro Nacional
Grupo Despesa
Classicao da despesa quanto sua natureza, compreendendo os grupamentos, a saber:
1 - Pessoal e encargos sociais; 2 - Juros e encargos da dvida interna; 3 - Juros e encargos da
dvida externa; 4 - Outras despesas correntes; 5 - Investimentos; 6 - Inverses nanceiras;
7 - Amortizao da dvida interna; 8 - Amortizao da dvida externa; 9 - Outras despesas
de capital. Fonte: Tesouro Nacional
Elemento Despesa
Desdobramento da despesa com pessoal, material, servios, obras e outras meios de que
se serve a administrao pblica para a consecuo dos seus ns. Fonte: Tesouro Nacional
Funo
Representa o maior nvel de agregao das diversas reas de despesa que competem ao
setor pblico. Exemplo: Sade, Educao, etc. Fonte: Manual Tcnico de Oramento
Subfuno Denio no encontrada
Programa
Programas de Governo so polticas pblicas, principal instrumento que os governos uti-
lizam para promover a integrao entre os entes e os setores para otimizar seus recursos,
sejam eles nanceiros, humanos, logsticos ou materiais. Fonte: Banco do Brasil.
Ao
Conjunto de operaes, cujos produtos contribuem para os objetivos do programa gover-
namental. A ao pode ser um projeto, atividade ou operao especial. Para conhecer o
Cadastro das Aes Governamentais acesse: <https://www1.siop.planejamento.gov.br/
acessopublico/?pp=acessopublico&rvn=1>. Fonte: Cmara dos Deputados
Linguagem Cidad
Nomes mais intuitivos pelos quais as aes governamentais so apresentadas aos cida-
dos. Exemplo: Transferncia de Renda Diretamente s Famlias emCondio de Pobreza
e Extrema Pobreza (Bolsa Famlia).
Favorecido
No Portal sero chamados de Favorecidos os rgos ou Empresas Privadas e Pessoas
Fsicas que receberam recursos pblicos federais, independentemente da origem desses
valores. Fonte: Controladoria-Geral da Unio
Pagamento
Opagamento refere-se ao terceiro estgio da despesa oramentria e ser processada pela
Unidade Gestora Executora no momento da emisso do documento OrdemBancria (OB)
e documentos relativos a retenes de tributos, quando for o caso. O pagamento consiste
na entrega de numerrio ao credor e s pode ser efetuado aps a regular liquidao da
despesa. A Lei n
o
4.320/1964, em seu art. 64, dene ordem de pagamento como sendo
o despacho exarado por autoridade competente, determinando que a despesa liquidada
seja paga. Principais documentos contbeis envolvidos nessa fase: OB (Ordem Bancria),
DF (Documento de Arrecadao de Receitas Federais - Darf), DR (Documento de Arreca-
dao Financeira - Dar), GR (Guia de Recolhimento da Unio) e NL (Nota de Lanamento)
em casos especcos. Fonte: Controladoria-Geral da Unio (CGU)
Gesto Pagamento
Ato de gerenciar a parcela do patrimnio pblico, sob a responsabilidade de uma deter-
minada unidade. Aplica-se o conceito de gesto a fundos, entidades supervisionadas e a
outras situaes em que se justique a administrao distinta. Fonte: Tesouro Nacional
Data Pagamento Data em que o pagamento foi efetuado.
Valor Pagamento Valor do pagamento.
Fonte: Adaptado de <http://www.portaltransparencia.gov.br/glossario/>, acessado em
07/08/2014