Sunteți pe pagina 1din 5

IV Semana de Cincia e Tecnologia IFMG Campus Bambu IV Jornada Cientfica 06 a 09 Dezembro de 2011

Sistema de minerao de dados para descoberta de padres em dados mdicos


Matheus Felipe MIRANDA; Marcos Roberto RIBEIRO Estudante do curso de Tecnologia em Anlise e Desenvolvimento de Sistemas e bolsista do Programa Institucional de Bolsas de Iniciao Cientfica do IFMG campus Bambu; Professor do IFMG campus Bambu; RESUMO Atualmente, h uma grande quantidade de dados disponveis. Entretanto, estes devem ser analisados, de forma a transform-los em conhecimento. Para isso, dispomos da minerao de dados. A minerao de dados muito importante na medicina, auxiliando o mdico a analisar dados provenientes de grandes bancos de dados. Dessa forma, este profissional poder visualizar informaes no evidentes atravs de tcnicas convencionais de bancos de dados ou anlise manual. O presente projeto visa utilizar tcnicas de minerao de dados para obteno de regras e padres em um banco de dados mdicos. Ser desenvolvida uma aplicao para auxiliar a tarefa de minerao. Palavras-chaves: Minerao de dados, dados mdicos, bancos de dados. INTRODUO Os diversos sistemas de informaes atuais trabalham com um volume de dados cada vez maior. Entretanto, tais dados devem ser transformados em conhecimento e informaes teis. (MURASSE, 2010). Dentre estes sistemas, destacam-se os da rea mdica. Devido grande quantidade de dispositivos para coleta e armazenamento de dados, o volume de dados coletados cada vez maior, surgindo a necessidade de criar instrumentos para anlise dos mesmos. (COLAZZOS, 2002). Entretanto, o mdico no o profissional especialista em descobrir as informaes contidas nos bancos de dados. Dessa forma, desenvolver uma aplicao que auxilie o mdico nessa tarefa pode ajud-lo a obter informaes teis no evidentes. (JUNGLOS, 2003). Para que tais informaes possam ser descobertas, utilizamos neste projeto a minerao de dados. Podemos enxergar a minerao de dados como um instrumento para visualizar informaes teis no visveis atravs de tcnicas convencionais de busca em bancos de dados ou tcnicas manuais. Dessa forma, a minerao de dados permite analisar uma grande quantidade de dados para chegar a novas informaes teis. Um formato de entrada amplamente utilizado na minerao de dados um banco de transaes. Transaes so dados correlatos que esto em uma mesma tupla no banco de dados. Em uma transao, temos itemsets, conjuntos de itens dentro de uma transao. Por exemplo, um itemset em um banco de dados mdicos pode ser os dados do pronturio do

IV Semana de Cincia e Tecnologia IFMG Campus Bambu IV Jornada Cientfica 06 a 09 Dezembro de 2011 paciente e uma transao o prprio pronturio de um paciente. Um resultado que poderia ser obtido pela minerao de dados seria a descoberta de uma combinao de medicamentos que levam a uma enfermidade. O objetivo deste projeto realizar um processo de minerao de dados e desenvolver uma aplicao que auxilie na tarefa de minerar regras de associao em um banco de dados mdicos. MATERIAIS E MTODOS Para descobrir as regras de associao de um banco de transaes, utilizamos o algoritmo apriori. Este algoritmo obtm regras de associao do tipo A B, onde A e B so itemsets. Por exemplo, medicamento A, medicamento B doena C. Neste exemplo, existem transaes em que apareceram o medicamento A e o medicamento B, o paciente teve uma doena C. O algoritmo apriori emprega os conceitos de suporte e confiana. O suporte de um itemset pode ser entendido como a porcentagem de transaes em que um itemset aparece no banco de dados. Sua frmula SUP(X) = NTRANS(X)/NTRANS(BD), onde SUP(X) o suporte do itemset X, NTRANS(X) o nmero de transaes em que o itemset X aparece e NTRANS(BD) o nmero de transaes total do banco de dados. A confiana til para verificar se a regra significativa. (SILBERSCHATZ, 1999). Sua frmula CONF(A B) = SUP(AB)/SUP(B), onde CONF(A B) a confiana da regra A B, SUP(AB) o suporte do itemset AB e SUP(B) o suporte do itemset B. O algoritmo apriori utiliza um suporte mnimo para obter apenas os itemsets frequentes, ou seja, aqueles que possuem o suporte maior ou igual ao suporte mnimo. Analogamente, existe a confiana mnima para obter as regras de associao mais relevantes. (BORGELT, 2002). A execuo do algoritmo apriori consiste de trs fases: gerao, poda e varredura. A gerao consiste em gerar itemsets maiores a partir de itemsets menores frequentes. A poda a eliminao de itemsets gerados que no possuem probabilidade de serem frequentes. Por fim, a varredura percorre todas as transaes do banco de dados, verificando se os itemsets que passaram da poda so frequentes. Na obteno os itemsets de tamanho 1, o algoritmo realiza apenas uma varredura no banco de dados. No caso dos itemsets de tamanho 2, o algoritmo executa apenas a gerao e varredura. Para os itemsets de tamanho 3 ou maiores acontecem todas as trs etapas. Considere um exemplo de um banco de dados mostrado na Figura 1(a), onde cada letra representa uma doena. Considere tambm um suporte mnimo de 50% e confiana mnima de 80%. Inicialmente, O algoritmo apriori varre o banco de dados, verificando os itemsets de tamanho 1 frequentes. Em nosso exemplo, os itemsets A,B,C,D,E possuem os respectivos

IV Semana de Cincia e Tecnologia IFMG Campus Bambu IV Jornada Cientfica 06 a 09 Dezembro de 2011
Paciente 1 2 3 4 Doenas A, B, C C, D, E B, A, C C, A, B, D b) Itemsets de tamanho 3 Itemset ABC ACD BCD Podado No Sim (AD) Sim (BD) Regra AB B A AC BC DC Confiana 100% 100% 100% 100% Regra A B,C B A,C A,B C A,C B Confiana 100% 100% 100% 100% 100%

(a) Banco de Dados

100% B,C A (c) Regras de associao

Figura 1: Exemplo de minerao em dados mdicos

suportes 75%, 75%, 100%, 50%, 25%. Portanto, apenas os itemsets A, B, C e D so frequentes. Aps esta etapa, o algoritmo gera itemsets de tamanho 2 a partir dos itemsets de tamanho 1 frequentes. Em seguida, verificado se os itemsets gerados so frequentes. Em nosso exemplo, os itemsets de tamanho 2 gerados com seus respectivos suportes so AB (75%), AC (75%), AD (25%), BC (75%), BD (25%) e CD (50%). Portanto apenas AB, AC, BC e CD so frequentes. Para gerar itemsets de tamanho 3, itemsets de tamanho 2 frequentes so combinados. A seguir, os itemsets de tamanho 3 que contenham itemsets de tamanho 2 no frequentes so podados. Em nosso exemplo, o itemset ABC no foi podado, pois os itemsets AB, BC e AC so frequentes. Entretanto, ACD foi podado, pois o itemset AD no frequente. O resultado da poda nos itemsets de tamanho 3 pode ser visto na Figura 1(b). Aps a poda o suporte dos itemsets no podados verificado. A partir da, o algoritmo prossegue realizando estes passos iterativamente para itemsets de tamanho maior, at que seja obtido um conjunto vazio. As regras de associao so geradas a partir de itemsets de tamanho 2 ou maiores. Um itemset pode gerar mais de uma regra, dependendo da escolha do antecedente e consequente. Por exemplo, o itemset AB pode gerar as regras A B ou B A. Para todas as regras, o algoritmo verifica se a confiana da regra atende a confiana mnima. Por exemplo, a regra C D possui confiana de 50%, que inferior confiana mnima de 80%, portanto esta regra eliminada. A Figura 1(b) exibe todas as regras que atendem a confiana mnima. Os dados utilizados no projeto seriam inicialmente obtidos em centros de sade prximos ao IFMG Campus Bambu, entretanto, devido falta de informatizao, no foi possvel obt-los. Uma pesquisa foi realizada sobre outros bancos de dados mdicos disponveis e encontrado o banco de dados do Sistema de Informaes Sobre Mortalidade (SIM) do Datasus1. Para minerar os dados do SIM foi utilizada uma implementao do apriori com algumas otimizaes desenvolvida por Borgelt (2002). Esta implementao possibilitar, posteriormente, manipular os dados a partir de uma aplicao que ser desenvolvida na
1 http://www.datasus.gov.br

IV Semana de Cincia e Tecnologia IFMG Campus Bambu IV Jornada Cientfica 06 a 09 Dezembro de 2011 prxima etapa deste projeto. Esta implementao utiliza arquivos de texto simples, entretanto, no SIM, os dados esto no formato dBase File (DBF) e compactados no formato DBC. Para que os dados pudessem ser manipulados pela implementao, foi utilizado um programa gratuito disponvel na pgina do SIM, o programa TabWin 1, utilizado para tabular dados de sade. O TabWin foi usado para converter entre os formatos DBF e DBC e para gerar instrues SQL (Structured Query Language). As instrues SQL obtidas no passo anterior foram inseridas no sistema de gerenciamento de banco de dados (SGBD) PostgreSQL, para criao de um banco de dados a partir dessas instrues SQL. (SOUZA, 2009). A aplicao que ser desenvolvida na prxima etapa do projeto ir manipular os dados que foram inseridos no PostgreSQL. Com o auxlio das ferramentas descritas anteriormente, foram obedecidos os seguintes passos: 1. Cpia dos dados disponveis no SIM para um computador local; 2. Utilizao do TabWin para converso dos arquivos e gerao de instrues SQL; 3. Insero no SGBD PostgreSQL; 4. Consulta ao banco de dados para gerao de arquivo de texto simples; 5. Obteno das regras e padres por meio da implementao do algoritmo apriori. Em seguida, ser desenvolvida uma aplicao para automatizao dos passos descritos. RESULTADOS E DISCUSSO Por meio dos mtodos descritos na seo anterior foram obtidas mais de 1.000 regras de associao como resultados preliminares. Posteriormente, ser necessria a anlise de um profissional da medicina para verificar as regras obtidas. Dentre estas regras, destacamos algumas de tamanho significativo na Tabela 1. A prxima etapa do projeto ser desenvolver uma aplicao, que ir realizar uma consulta ao banco de dados, para extrao de informaes. Ser utilizada a implementao do algoritmo apriori para gerar as regras e padres a partir dos dados obtidos pela consulta. Esta aplicao ir realizar as tarefas descritas na seo anterior, auxiliando o profissional da medicina. CONCLUSO H uma grande quantidade de dados disponveis atualmente. Entretanto, estes necessitam de um instrumento para uma anlise mais profunda, como a minerao de dados. A minerao de dados auxilia o profissional da medicina na interpretao dos dados provenientes destes bancos de dados. O projeto tinha o objetivo inicial de obter dados de sade de centros prximos ao

IV Semana de Cincia e Tecnologia IFMG Campus Bambu IV Jornada Cientfica 06 a 09 Dezembro de 2011
Regra Local ocorrncia = hospital assistncia mdica = sim exame = sim necropsia = no ano = 2001 Necropsia = No assistncia mdica = sim exame = sim cirurgia = no ano = 2001 Ano = 2001 assistncia mdica = sim exame = sim necropsia = no raa = branca Exame = sim assistncia mdica = sim necropsia = no raa = branca ano = 2001 Cirurgia = no exame = sim necropsia = no sexo = masculino ano = 2001 Ano = 2001 exame = sim necropsia = no cirurgia = no sexo = masculino 11,6 11,3 11,2 11,2 11,2 95,6 80,2 80,8 80,8 80,2 Suporte 12,7 Confiana 87,3

Tabela 1: Regras e padres obtidos do banco de dados mdicos

IFMG Campus Bambu. Entretanto, devido falta de informatizao, no foi possvel obt-los. Ento, foi utilizado o banco de dados do SIM. Em uma minerao de dados preliminar foram obtidos mais de 1.000 regras de associao. Podemos notar que para analisar melhor os parmetros e resultados da minerao preciso o acompanhamento de um profissional da rea. Obter os dados pela pgina do Datasus, preparar os dados para que possam ser utilizados na implementao do algoritmo apriori, e por fim realizar a minerao uma tarefa extremamente complexa. Portanto, a etapa atual do projeto consiste em desenvolver uma aplicao que auxilie o profissional da medicina nessas tarefas. AGRADECIMENTOS Os autores agradecem FAPEMIG pela concesso de bolsa para execuo do projeto. REFERNCIAS BIBLIOGRFICAS BORGELT, Christian, KRUSE, Rudolf. Introduction of association rules: apriori implementation. 15th Conference on Computational Statitics. Berlim, Alemanha. 2002. COLLAZOS, K.S., BARRETO, J.M., ROISENBERG, M. Dificuldades na aplicao de KDD em medicina. Anais do II Congresso Brasileiro de Computao. Itaja, Santa Catarina. 2002. JUNGLOS, Aldemir. Aplicao de Data Mining em banco de dados do servio de transplante de medula ssea. 2003.118 p. Dissertao (Mestrado em Mtodos Numricos em Engenharia) Programa de Ps-Graduao. Setor de Tecnologia. Universidade Federal do Paran, Curitiba, 2003. MURASSE, Carlos M., TSUNODA, Denise F. Descoberta de conhecimento a partir de uma base de indicadores de desenvolvimento social utilizando WEKA. Anais do XXX Congresso da SBC. Belo Horizonte, Minas Gerais. 2010. SOUZA, Evandro P. de. Instalao e configurao do PostgreSQL no linux via cdigofonte. Campinas: Embrapa Informtica Agropecuria, 2009. 19 p. SILBERCHATZ, Abraham., KORTH, Henry., SUDARSHAN, S. Sistema de banco de dados. So Paulo: Pearson. 3. ed. 1999.