Descoberta de Conhecimento em Banco de Dados

UNIVERSIDADE FEDERAL DO PAR INSTITUTO DE CINCIAS EXATAS E NATURAIS FACULDADE DE COMPUTAO CURSO DE BACHARELADO EM CINCIA DA COMPUTAO
DANIEL DIAS DE CARVALHO MAXWEL MACEDO DIAS
DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM: UM ESTUDO DE CASO NO LABSQL
Belm PA 2008
ii
Trabalho de Concluso de Curso apresentado como requisito para obteno do grau de Bacharel em Cincia da Computao, Universidade Federal da Par.
Orientador: Professor Dr. Eloi Luiz Favero
Belm PA 2008
iii

Trabalho de Concluso de Curso apresentado para obteno do grau de Bacharel em Cincia da Computao, Universidade Federal do Par. Data de defesa: 18 de Novembro de 2008. Conceito: EXCELENTE
Banca Examinadora Prof. Dr. Eloi Luiz Favero

Faculdade de Computao /UFPA - Orientador
Prof. Dr. Antnio Morais da Silveira

Faculdade de Computao / UFPA Membro
Prof. Dr. Edson Marcos Leal Soares Ramos

Faculdade de Estatstica /UFPA - Membro
iv
AGRADECIMENTOS
Agradeo primeiramente a Deus, por me demonstrar de uma forma bem particular os caminhos da vida. Aos meus pais, Carlos e Raimunda, por me ensinarem os valores mais importantes e que carregarei por toda a minha vida. A eles devo toda minha gratido quanto pessoa. Aos meus irmos, Rafael e Gabriel, pelos momentos marcantes que passamos ao longo da vida. minha afilhada, Karen Letcia, que apesar da distncia sempre foi uma das minhas maiores fontes de inspirao. toda a minha famlia que sempre me apoiou nos melhores e nos piores momentos. Aos meus amigos do Curso de Bacharelado em Cincia da Computao, Adeilson Pinheiro, Bernardo Lobato, Clodoaldo Estumano, Deivid Tinoco, Fbio Braga, Rafael Takashima e Lis Kanashiro, pelo companheirismo estabelecido no decorrer do curso. toda equipe Web do Centro de Tecnologia da Informao e Comunicao da UFPA, Jane Neiva, Marcelo Silva, Yossef Castelo, Marcus Badi, Larissa Chagas, alm dos j citados amigos de curso, por proporcionarem uma ambiente de trabalho mais agradvel possvel. Aos meus velhos amigos, Silvio Porto, Gabriel Victor, Marcus Pinheiro, Anderson Virino, Emanuel Rocha e Anderson Jos, por todos esses anos de amizade. Gostaria de citar o nome das vrias pessoas que permaneceram comigo e me ajudaram a dar prosseguimento a etapa da minha vida, mas fica aqui pra aqueles que no citei o meu sincero e profundo agradecimento. Daniel Dias de Carvalho
AGRADECIMENTOS
Agradeo a Deus por tudo o que tem feito por mim at hoje. Por ter iluminado os meus caminhos e me ajudado a vencer grandes obstculos. minha me Elizabeth, e ao meu pai Jairo que sempre deram o melhor de si em favor de mim. A quem devo toda a minha gratido enquanto pessoa. Aos meus tios Jackson e Nazar, a minha irm Marlia e as minhas primas Juliana e Luciana que me deram total apoio durante essa jornada. Aos meus grandes amigos do Curso de Bacharelado em Cincia da Computao, Robson Aguiar e Alessandra Caroline pelos momentos bons que compartilhamos. Esses momentos ficaro marcados por toda vida. Aos meus grandes e prestativos amigos do GEPEC, Luiz Alberto, Franklim dos Santos, Paula Daniele, Tcio Vincius, Monique Kelly e Vanessa Mayara, que sempre estiveram ao meu lado durante essa jornada. Meu muito obrigado a todos. Gostaria de citar o nome das vrias pessoas que permaneceram comigo e me ajudaram a dar prosseguimento a esta etapa da minha vida, mas fica aqui para aqueles que eu no citei o meu sincero e profundo agradecimento.
Maxwel Macedo Dias
vi
AGRADECIMENTOS
Agradecemos ao nosso orientador, o professor Eloi Luiz Favero, pelo empenho com que conduziu a orientao deste trabalho. A todos os professores da Universidade Federal do Par que contriburam direta ou indiretamente para a nossa formao. Em especial aos professores da Faculdade de Computao e Estatstica, em especial ao professor Edson Marcos Leal Soares Ramos.
vii
SUMRIO
LISTA DE FIGURAS ....................................................................................................... x LISTA DE TABELAS ...................................................................................................xiii LISTA DE SIGLAS ........................................................................................................ xv RESUMO ....................................................................................................................... xvii ABSTRACT ..................................................................................................................xviii 1. INTRODUO ........................................................................................................ 1
1.1. Motivao..............................................................................................................................1 1.2. Justificativa ...........................................................................................................................1 1.3 Trabalhos Relacionados .........................................................................................................3 1.4. Objetivos ...............................................................................................................................4
1.4.1 Objetivos Gerais ........................................................................................................................... 4 1.4.2 Objetivos Especficos ................................................................................................................... 4
1.5. Procedimentos Metodolgicos e Tcnicas ............................................................................5 1.6. Organizao do Trabalho ......................................................................................................5
2.
EDUCAO A DISTNCIA .................................................................................. 7

2.1 Ambientes Virtuais de Aprendizagem ...................................................................................7
2.1.1 TelEduc ........................................................................................................................................ 7 2.1.2 MOODLE ................................................................................................................................... 10 2.1.3 LabSQL ...................................................................................................................................... 12
3.
DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS .................... 17

3.1. Dados, Informao e Conhecimento ...................................................................................17 3.2. Etapas da Descoberta de Conhecimento .............................................................................20
viii
3.2.1 Seleo de Dados ........................................................................................................................ 20 3.2.2 Pr-processamento e Limpeza .................................................................................................... 21 3.2.3 Transformao ............................................................................................................................ 21 3.2.4 Minerao de Dados (MD) ......................................................................................................... 21 3.2.5 Interpretao ............................................................................................................................... 22
4.
MINERAO DE DADOS ................................................................................... 23

4.1. Tarefas de Minerao de Dados ..........................................................................................23
4.1.1 Classificao ............................................................................................................................... 23 4.1.2 Associao .................................................................................................................................. 24 4.1.3 Estimativas ................................................................................................................................. 24 4.1.4 Sumarizao ............................................................................................................................... 25 4.1.5 Agrupamento .............................................................................................................................. 25
4.2. Tarefa de Classificao .......................................................................................................25

4.2.1. rvore de Deciso ..................................................................................................................... 26 4.2.2. Representao de uma rvore de Deciso ................................................................................ 27 4.2.3. Entropia ..................................................................................................................................... 28 4.2.4. Overfitting e Underfitting .......................................................................................................... 29 4.2.5. Podagem .................................................................................................................................... 30 4.2.6. Algoritmos de rvore de Deciso ............................................................................................. 30 4.2.6.1. Algoritmo ID3 ................................................................................................................... 30 4.2.6.2. Algoritmo C4.5 .................................................................................................................. 31 4.2.6.3. Algoritmo CART (Classification and Regression Trees) .................................................. 32 4.2.7. Redes Bayesianas ...................................................................................................................... 32 4.2.8. Vantagens das Redes Bayesianas .............................................................................................. 36
4.3. Ferramentas de Minerao de Dados ..................................................................................37

4.3.1. WEKA ....................................................................................................................................... 38 4.3.1.1. Arquivos ARFF ................................................................................................................. 39 4.3.2. Bayesware Discoverer ............................................................................................................... 41
5.
ESTUDO DE CASO: MINERAO DO LABSQL ........................................... 45

5.1 O processo de KDD .............................................................................................................45
5.1.1. Seleo dos Dados ..................................................................................................................... 46 5.1.2. Pr-processamento e Limpeza dos Dados ................................................................................. 46 5.1.3. Transformao dos Dados ......................................................................................................... 47 5.1.4. Minerao de Dados............................................................................................................. 49
5.1.4.1 Aplicao de Redes Bayesianas .......................................................................................... 49 5.1.4.2 Aplicao de rvore de Deciso......................................................................................... 50
ix
5.1.5.
Anlise dos Resultados e Interpretaes .............................................................................. 50
5.1.5.1 Anlise dos Resultados e Interpretaes das Redes Bayesianas ......................................... 50 5.1.5.2 Anlise dos Resultados e Interpretaes da rvore de Deciso ......................................... 56
5.2 Anlise Comparativa entre um Modelo de Classificao de rvore de Deciso e um de Rede Bayesiana ..................................................................................................................................61
6.
CONCLUSO......................................................................................................... 64
6.1. Consideraes Finais ...........................................................................................................64 6.2. Trabalhos Futuros................................................................................................................65
REFERNCIAS .............................................................................................................. 66 APNDICE A DESCRIO COMPLETA DOS 59 ATRIBUTOS TRABALHADOS ............................................................................................................ 71 APNDICE B ANLISE DESCRITIVA DOS DADOS COLETADOS NO LABSQL .......................................................................................................................... 75 APNDICE C MINERAO DE DADOS: PASSO A PASSO NA FERRAMENTA BAYESWARE DISCOVERER ....................................................... 85 APNDICE D MINERAO DE DADOS: PASSO A PASSO NA FERRAMENTA WEKA ................................................................................................ 89 ANEXO A METODOLOGIA PARA O TESTE DE HIPTESES PARA PROPORES ............................................................................................................... 92
LISTA DE FIGURAS
Figura 2.1 Organizao Lgica das Ferramentas do TelEduc. (ROCHA, 2002, apud OEIRAS, 2005) .................................................................................................................. 9 Figura 2.2 Viso Geral da Arquitetura do LabSQL, LINO et al., (2007). ................. 13 Figura 2.3 Organizao dos Mdulos no LabSQL (LINO, 2007)............................... 15 Figura 3.1 Relacionamento Entre Dados, Informao e Conhecimento (KOCK JR. et al., 1996, apud REZENDE et al., 2003 ). .................................................................... 18 Figura 3.2 Etapas do KDD (FAYYAD et al., 1996)...................................................... 20 Figura 4.1 Representao de Uma rvore de Deciso. ............................................... 28 Figura 4.2 Um Grafo Dirigido Acclico. ........................................................................ 34 Figura 4.3 Rede Bayesiana para o Domnio 1 (RUSSEL, 1995). ................................ 34 Figura 4.4 Rede Bayesiana do Domnio 1 com a Probabilidade de cada Varivel (Adaptado de RUSSEL, 1995). ...................................................................................... 36 Figura 4.5 Interface da Ferramenta WEKA. ............................................................... 39 Figura 4.6 Exemplo de um Arquivo ARFF. ................................................................. 40 Figura 4.7 Viso Geral da Interface Grfica do Bayesware Discoverer (BAYESWARE, 2000). ................................................................................................... 42 Figura 4.8 Viso da Network Window (BAYESWARE, 2000). ................................... 43 Figura 5.1 Representao dos Dados no Formato Separado por Tabulao. ........... 48 Figura 5.2 Representao dos Dados no Formato ARFF. ........................................... 49 Figura 5.3 Rede Bayesiana para Anlise da Demora para Inscrio na Turma. ..... 51 Figura 5.4 Tabelas de Probabilidade para Anlise da Demora para Inscrio dos Usurios no Ambiente LabSQL (demora_para_inscricao_turma). ............................. 52
xi
Figura 5.5 Tabelas de Probabilidade e Rede Bayesiana para Anlise do Coordenador da Turma. ................................................................................................ 53 Figura 5.6 Rede Bayesiana para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nos Exerccios e Avaliaes (atributo acima_media_de_total_pontos_sql). ............................................................... 54 Figura 5.7 Tabelas de Probabilidade para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nos Exerccios e Avaliaes (atributo acima_media_de_total_pontos _sql). ........................................... 55 Figura 5.8 Resultado do Teste de Validao Cruzada Executado pelo Bayesware. . 55 Figura 5.9 Regras de Classificao para Anlise dos Usurios que esto, ou no, Acima da Mdia de Acessos ao Ambiente LabSQL (atributo acima_qtd_acessos). .. 58 Figura 5.10 Regras de Classificao para Anlise dos Usurios que esto, ou no, Acima da Mdia de Acessos ao SQL-Livre (atributo acima_qtd_acessos_sql_livre). 59 Figura 5.11 rvore de Deciso para Anlise dos Usurios que esto, ou no, Acima da Mdia de Tentativas de Programao SQL nas Avaliaes (atributo acima_media_de_tentativas_sql_avaliacao). .................................................................. 60 Figura 5.12 Rede Bayesiana para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nas Avaliaes (Atributo Acima_media_Pontos_SQL_Avaliao). ........................................................................ 61 Figura 5.13 rvore de Deciso na forma de Regras de Classificao para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nas Avaliaes (Atributo Acima_media_Pontos_SQL_Avaliao). ........................................................................................................................................... 62 Figura B.1.1 Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Gnero. ............................................................................. 75 Figura B.5.1 Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL Livre. ...................................................... 79 Figura B.5.2 Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL-Livre e Identificao da Turma. ......... 80 Figura B.5.3 Percentual de Acessos ao SQL-Livre pelos Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. .. 81
xii
Figura B.6.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio. ............... 82 Figura B.6.2 Percentual de Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio e Identificao da Turma. ........................................................................................................................ 83 Figura B.6.3 Percentual de Acessos ao Material de Apoio pelos Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. ................................................................................................. 84 Figura C.1 Tela Inicial do Bayesware Discoverer. ....................................................... 85 Figura C.2 Visualizao do Banco de Dados Carregado no Bayesware Discoverer. 86 Figura C.3 Opo para Discretizao de Atributos Contnuos. ................................ 87 Figura D.1 Tela do Modo Explorer no WEKA. ........................................................... 89 Figura D.2 Algoritmos Disponveis no WEKA............................................................. 90 Figura D.3 Execuo do Algoritmo J48 no WEKA ..................................................... 91
xiii
LISTA DE TABELAS
Tabela 4.1 TPC para a Varivel Alarme ...................................................................... 35 Tabela 5.1 Resultados do Teste para a Diferena de Duas Propores, ao nvel de significncia = 0,05 ou 5%........................................................................................... 63 Tabela B.1.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Gnero. .................................................... 75 Tabela B.2.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Curso. ...................................................... 76 Tabela B.3.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. ........................ 77 Tabela B.4.1 Mdia de Acesso dos Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. ..................................... 78 Tabela B.5.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL-Livre. ............................ 78 Tabela B.5.2 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL-Livre e Identificao da Turma. .............................................................................................................................. 79 Tabela B.5.3 Quantidade e Percentual de Acessos ao SQL-livre pelos Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. ........................................................................................................................ 80 Tabela B.6.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio. ............... 81
xiv
Tabela B.6.2 Quantidade e Percentual de Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio e Identificao da Turma. ................................................................................... 82 Tabela B.6.3 Quantidade e Percentual de Acessos ao Material de Apoio pelos Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. ................................................................................ 83
xv
LISTA DE SIGLAS
AG ARFF AVA BD CART CHAID DCL DDL DM DW EaD GPL
Algoritmos Genticos Attribute-Relation File Format Ambiente Virtual de Aprendizagem Banco de Dados Classification and Regression Trees Chi-squared Automatic Interation Detector Data Control Language Data Definition Language Data Mining Data Warehouse Educao a Distncia GNU General Public License
xvi
ID3 IP KDD LabSQL MD MOODLE PDF RNA SGBD SQL TPC Unicamp WEKA
Iterative Dichotomizer 3 Internet Protocol Knowledge Discovery in Databases Laboratrio para Ensino de SQL On-Line Minerao de Dados Modular Object-Oriented Dynamic Learning Portable Document Format Redes Neurais Artificiais Sistema Gerenciador de Banco de Dados Linguagem de Consulta Estruturada (Structured Query Language) Tabela de Probabilidades Condicionais Universidade Estadual de Campinas Waikato Environment for Knowledge Analysis
xvii
RESUMO
A utilizao do Ensino a Distncia a partir da Internet tem crescido bastante nos ltimos anos, no entanto, uma das maiores dificuldades est em acompanhar o aprendizado dos estudantes. Nesse contexto, este trabalho tem o objetivo de analisar os dados de um Ambiente Virtual de Aprendizagem a partir da aplicao de tcnicas de Minerao de Dados para descobrir informaes relevantes sobre o perfil dos envolvidos com relao utilizao dessa tecnologia. Para isso, foram aplicadas as tcnicas de Minerao de Dados denominadas rvore de Deciso e Redes Bayesianas para a descoberta de conhecimento em relao ao processo de ensino-aprendizagem no ambiente virtual de aprendizagem denominado LabSQL. Palavras-Chave: Minerao de Dados, Redes Bayesianas, rvore de Deciso, Ensino a Distncia, LabSQL.
xviii
ABSTRACT
Using Distance Learning from the Internet has grown greatly in recent years, however, is one of the greatest difficulties in tracking the learning of students. In that context, this study aims to analyze the data of a Virtual Learning Environment from the implementation of Data Mining to find relevant information about the profile of those involved with respect to the use of this technology. To do this, we applied the techniques of Data Mining called Decision Tree and Bayesian Networks for the knowledge discovery regarding the process of teachinglearning in the LabSQL. Key words: Data mining, Bayesian Networks, Decision Tree, Distance Learning, LabSQL.
1. INTRODUO
Para uma melhor anlise e compreenso do tema deste trabalho, ser apresentada a motivao do trabalho, a justificativa, os trabalhos relacionados, os objetivos gerais e especficos a serem alcanados, os procedimentos metodolgicos e tcnicas e, finalmente, a forma como foi estruturado esse trabalho.
1.1. MOTIVAO Aps cursar a disciplina de Informtica na Educao, em que se tem a oportunidade de aprender alguns conceitos e realizar algumas leituras sobre Educao a Distncia (EaD), entende-se que ela que surge como alternativa complementar ao ensino tradicionalmente presencial, possibilitando que indivduos, independente do lugar onde moram ou tempo disponvel, tenham oportunidade de iniciar ou complementar seus estudos. As possibilidades de se proporcionar a EaD tm sido ampliadas devido rpida evoluo das tecnologias de informao e comunicao, assim como das possibilidades oferecidas pelas mesmas. A Internet uma das ferramentas que desempenham um importante papel na EaD, uma vez que facilita o acesso a grandes repositrios de informao, materiais e possibilita uma intensa interao entre pessoas a partir de Ambientes Virtuais de Aprendizagem (AVA).
1.2. JUSTIFICATIVA A utilizao da Internet tem crescido demasiadamente nos ltimos anos, proporcionando a disseminao dos mais variados tipos de informaes e servios, como por exemplo, comrcio eletrnico, sites de relacionamentos, bibliotecas digitais, educao a distncia, dentre outros. A acessibilidade e a facilidade do uso de ferramentas para manipular os recursos da web tem tornado esta tecnologia uma escolha para EaD (MACHADO e BECKER, 2002). Segundo Souza (2007), a EaD uma forma de organizao de ensino-aprendizagem na qual alunos estudam, quer em grupo, quer individualmente em seus lares, locais de trabalho
ou outros lugares com materiais auto-instrutivos distribudos por meios de comunicao, possibilitando a comunicao com docentes, monitores ou outros alunos. Os Ambientes Virtuais de Aprendizagem (AVA) tm o objetivo de apoiar classes de usurios a partir da Internet, sendo til para usurios que no residem perto de instituies de ensino, ou no dispem de horrios regulares para estudar. Alm de servir como uma importante ferramenta complementar para os cursos presenciais. Os sistemas de aprendizagem baseados na Web contam com os servidores Web para fornecer acesso aos recursos e aplicaes. Os servidores Web armazenam os acessos de todas as atividades em um arquivo de log (registro) na forma de transaes. Cada transao indica quais pginas Web ou scripts foram requisitados e o status da requisio, o momento da solicitao, o endereo IP de onde partiu a solicitao, possivelmente a identificao dos usurios, dentre outros (COOLEY et al., 1999). Do ponto de vista tcnico, as dificuldades de se construir um curso baseado na Web so mnimas, principalmente aps o aparecimento de ferramentas que subtraem do professor necessidade de conhecer a tecnologia das redes, deixando para ele a nica e grande responsabilidade de se preocupar com o contedo de sua disciplina. Os educadores deste novo processo de aprendizagem utilizam estes ambientes e ferramentas para disponibilizar informaes online, porm possuem pouco suporte para avaliar e discriminar os diferentes comportamentos das aes dos alunos sobre o AVA e a forma de execuo das atividades online propostas durante a realizao dos cursos (ZAIANE e LUO, 2001). Portanto, um dos grandes problemas da Educao a Distncia est na dificuldade de acompanhar o aprendizado dos alunos distncia. Esta dificuldade se justifica, entre outros, pela falta de contato presencial entre professores e alunos. Sendo assim, faz-se necessrio o desenvolvimento de tcnicas computacionais que analisem essa grande quantidade de dados e que possam mostrar padres comportamentais dos alunos dentro desses ambientes (DIAS, 2008a; DIAS, 2008b). Sendo, dessa forma, de grande importncia a realizao de pesquisas nessa rea, de modo que os educadores deste novo processo tenham cada vez mais informaes a fim de avaliar e discriminar os diferentes comportamentos dos alunos sobre o AVA na Educao a Distncia.
A Minerao de Dados (MD), definida como a descoberta de conhecimento no-trivial e til em grandes bases de dados (GOLDSCHMIDT e PASSOS, 2005), apresenta variedade de aplicabilidade de suas tcnicas e tarefas a partir dos bancos de dados dos ambientes de EaD. Tais dados so provenientes, geralmente, do histrico dos acessos aos recursos do sistema pelos alunos, suas avaliaes, comunicao (chat e e-mail) entre alunos e entre alunos e professores, tempo utilizando o sistema, dentre outros.
1.3 TRABALHOS RELACIONADOS Alguns trabalhos foram realizados, mostrando como tcnicas de Minerao de Dados podem auxiliar na anlise de um sistema de ensino a distncia na Internet. Apresentando, dessa forma, novos mecanismos para analisar os atributos envolvidos na anlise do desempenho dos aprendizes em um curso de ensino a distncia. Machado e Becker (2002) propem um estudo de caso, para acompanhar uma aplicao voltada ao processo de ensino-aprendizagem a distncia, onde se busca descobrir e analisar, atravs da minerao Web, as interaes destes usurios com o ambiente de ensino baseado na Web. Mais especificamente, busca-se estabelecer um modelo de Minerao do Uso da Web pertinente para a descoberta de conhecimento aplicado a ambientes de ensino a distncia a partir da anlise de navegao dos usurios enquanto interagem neste ambiente, a fim de prover recursos de comparao entre os projetos atuais de um site educativo e seu uso real. Lopes e Schiel (2004) propem uma estratgia para o acompanhamento do aprendizado na educao a distncia baseada nas prticas de acompanhamento do ensino presencial, acrescida da tcnica de anlise de dados. Estes fatores permitem verificar a aprendizagem de forma mais elaborada. Estes dados foram gerados com ferramentas de Minerao de Dados. Wang e Meinel (2007) descobriram mudanas interessantes no aprendizado dos estudantes que usam os AVAs. Seu trabalho foi implementado em um ambiente de ensino a distncia denominado tele-TASK. Os resultados da minerao foram teis para ajudar os professores a conhecer seus estudantes e ajustar o programa de ensino de maneira mais eficaz.
Desta forma, o presente trabalho est centrado na pesquisa de tcnicas e ferramentas computacionais que podem auxiliar os educadores no processo de ensino-aprendizado, fornecendo suporte para avaliar e discriminar os diferentes comportamentos dos alunos sobre o AVA denominado LabSQL, utilizado na Educao a Distncia da Universidade Federal do Par.
1.4. OBJETIVOS Para um melhor entendimento dos objetivos a serem alcanados por esta pesquisa, foi realizada a diviso deste tpico em objetivos gerais e objetivos especficos. 1.4.1 Objetivos Gerais Este trabalho tem por objetivo geral analisar os dados obtidos a partir do Banco de Dados de um AVA, aplicando tcnicas de Minerao de Dados para descobrir informaes relevantes sobre o perfil dos envolvidos alunos e professores - com relao utilizao dessa tecnologia e ao processo de ensino-aprendizagem. Dessa forma, so avaliadas as informaes obtidas a partir do AVA denominado LabSQL com objetivo de gerar informaes que possam apoiar os educadores no processo de ensino-aprendizagem. Para a obteno desses resultados, so utilizadas as tcnicas de Minerao de Dados denominadas rvore de Deciso e Redes Bayesianas. 1.4.2 Objetivos Especficos i. Analisar os dados disponveis no LabSQL e identificar as principais dificuldades para a realizao da Minerao de Dados nessa base de dados; ii. Realizar os tratamentos dos dados obtidos para uma melhor aplicao das tcnicas de Minerao de Dados baseadas nas rvores de Deciso e Redes Bayesianas; iii. Utilizar a Minerao de Dados para a descoberta de conhecimento, proporcionando aos educadores mais mecanismos para planejar a utilizao do ambiente virtual de aprendizagem LabSQL no processo de ensino-aprendizagem;
iv.
Apresentar um estudo de caso utilizando o ambiente de ensino-aprendizagem LabSQL.
1.5. PROCEDIMENTOS METODOLGICOS E TCNICAS i. Pesquisa bibliogrfica acerca das tcnicas de Minerao de Dados que podem ser utilizadas para a realizao da anlise e acompanhamento do aprendizado em um AVA; ii. Pesquisa bibliogrfica acerca das ferramentas computacionais que podem auxiliar no processo de Minerao de Dados; iii. Pesquisa bibliogrfica acerca das tcnicas computacionais e estatsticas que vo orientar na anlise e interpretao dos dados; iv. v. Estudos exploratrios acerca da utilizao do AVA LabSQL; Desenvolver um estudo de caso com o objetivo de analisar o AVA LabSQL a partir da aplicao de tcnicas de Minerao de Dados a fim de descobrir novos padres e regras que possam auxiliar neste processo; vi. Coletar dados estruturados acerca das atividades desenvolvidas em um AVA utilizando a linguagem de consulta estruturada SQL; vii. Utilizar de tcnicas de Minerao de Dados denominadas rvore de Deciso e Redes Bayesianas para realizao da descoberta de conhecimento no processo de aprendizado na EaD.
1.6. ORGANIZAO DO TRABALHO O presente trabalho foi dividido em seis captulos, alm deste Capitulo introdutrio, este trabalho est organizado como segue: No Captulo 2 so apresentados os conceitos de Ensino a Distncia e uma viso geral dos AVAs, sendo enfatizado o ambiente LabSQL;
No Captulo 3 so apresentados os conceitos Descoberta de Conhecimento em Base de Dados (KDD), bem como a descrio de cada uma das etapas desse processo; No Captulo 4 so discutidas a Minerao de Dados, suas tarefas, tcnicas e algoritmos. Alm da apresentao das ferramentas Bayesware Discovery e WEKA. Detalhando-se ainda as tcnicas de Minerao de Dados utilizada neste trabalho denominadas rvore de Deciso e Redes Bayesianas; No Captulo 5 apresentado o estudo de caso realizado a partir do LabSQL, em que so mostrados as etapas e os resultados da aplicao das tcnicas de Minerao de Dados; Finalmente, no Captulo 6 apresenta-se as consideraes finais e as propostas de trabalhos futuros.
2. EDUCAO A DISTNCIA
A educao moderna se preocupa com o aluno na elaborao do saber, sendo caracterizada de uma forma mais pessoal, respeitando o ritmo individual de cada estudante (LOLLINI, 2001). O professor deixa de ser um mero distribuidor de conhecimento e os alunos apenas receptores passivos. O acesso Internet permite ao estudante navegar em um mar de informaes em tempo real, aumentando de forma exponencial a sua experincia com o conhecimento. A partir de ento, o termo EaD (Educao a Distncia) passa a ser difundido, amadurecido e implementado em larga escala. A EaD vem se tornando um novo paradigma de aprendizado, aliada a toda infra-estrutura e todo o aparato tecnolgico disponvel, crescente a cada dia. Atualmente, no preciso muito esforo para encontrar atividades que vo de cursos supletivos a programas de ps-graduao, cursados totalmente ou parcialmente a distncia. Diversas ferramentas computacionais, conhecidas como Ambientes Virtuais de Aprendizagem, j existem e outras esto sendo criadas a cada dia com o objetivos de dar apoio a EaD.
2.1 AMBIENTES VIRTUAIS DE APRENDIZAGEM O ambiente de aprendizagem ou Ambiente de Educao a Distncia um sistema que fornece suporte a qualquer tipo de atividade realizada pelo aluno, isto , um conjunto de ferramentas que so utilizadas em diferentes situaes do processo de aprendizagem. Estes ambientes tm o objetivo de apoiar classes de usurios por meio da Internet, sendo til para usurios que no residem perto de instituies de ensino, ou no dispem de horrios regulares para estudar (MARTINS e CAMPESTRINI, 2004). As Subsees 2.1.1, 2.1.2 e 2.1.3 apresentam os AVAs TelEduc, MOODLE e, em mais detalhes o LabSQL, respectivamente. 2.1.1 TelEduc O TelEduc um AVA desenvolvido na Universidade Estadual de Campinas (Unicamp) em uma parceria entre o Instituto de Computao (IC) e o Ncleo de Informtica Aplicada
Educao (Nied). OEIRAS (2005) comenta que comeou a ser implementado no ano de 1997 e teve como objetivo inicial apoiar cursos de formao docente na utilizao de computadores como ferramenta pedaggica, porm, com o passar dos anos, a ferramenta rompeu as fronteiras da Unicamp e atualmente mais de 4 mil instituies em todo o pas e no exterior esto cadastradas para o uso, inclusive a Universidade Federal do Par (UFPA). O TelEduc um software que est sob os termos da GNU General Public License (GPL), portanto, pode ser livremente copiado, distribudo, utilizado e modificado (GNU, 2008). Foi desenvolvido nas linguagens de programao Java1 e PHP2 e utiliza o gerenciador de banco de dados MySQL. O ambiente disponibiliza diversos recursos de acordo com o perfil do usurio que o acessa: alunos ou professores (formadores). A Figura 2.1 demonstra a organizao lgicas das ferramentas disponveis no TelEduc.
1 2
Java uma linguagem de programao orientada a objetos, multi-plataforma e de propsito geral. PHP uma linguagem de programao interpretada, que foi desenvolvida especialmente para a implementao de aplicativos Web.
Figura 2.1 Organizao Lgica das Ferramentas do TelEduc. (ROCHA, 2002, apud OEIRAS, 2005)
Dentre os recursos disponveis no ambiente TelEduc, destacam-se: i. Dinmica do Curso: contm informaes sobre a metodologia e a organizao do curso; ii. iii. Atividades: atividades a serem realizadas durante o curso; Material de Apoio: informaes teis relacionadas temtica do curso, subsidiando o desenvolvimento das atividades propostas; iv. Leituras: artigos relacionados temtica do curso e algumas sugestes de revistas, jornais, endereos na web;
10
v.
Perguntas Freqentes: relao das perguntas realizadas com maior freqncia durante o curso e suas respectivas respostas;
vi. vii. viii.
Correio: correio eletrnico interno do ambiente; Grupos: grupos de pessoas para facilitar a distribuio de tarefas; Portflio: ferramenta onde os participantes do curso podem armazenar textos e arquivos a serem utilizados ou desenvolvidos durante o curso, bem como endereos da Internet; esses dados podem ser particulares ou compartilhados; se compartilhados, podem receber comentrios;
ix.
Intermap: que permite aos docentes visualizar a interao dos participantes do curso;
x.
Administrao: disponibilizar materiais nas diversas ferramentas do ambiente, bem como configurar opes em algumas delas; permite tambm gerenciar as pessoas que participam do curso.
2.1.2 MOODLE O MOODLE (Modular Object-Oriented Dynamic Learning) foi desenvolvido pelo educador e cientista computacional australiano Martin Dougiamos, no ano de 1999. Segundo MOODLE (2008), est disponvel em mais de 75 idiomas e utilizado por instituies de todo o mundo, contendo uma comunidade com mais de 200 mil usurios em 193 pases. Assim como, o TelEduc, est sob os termos da GPL, de forma que pode ser modificado, copiado e redistribudo seguindo suas especificaes. implementado na linguagem PHP e utiliza o gerenciador de banco de dados MySQL. Possui uma vasta documentao em vrios idiomas disponvel no site oficial3. O MOODLE baseado em uma filosofia particular de aprendizado, a chamada Pedagogia social construtivista. Esta filosofia baseada em quatro conceitos principais, que
http://moodle.org
11
regem todo o processo de aprendizado no ambiente. so eles: o construtivismo, o construcionismo, o construcionismo social e o Connected and separate (MOODLE, 2008). Dentre os recursos disponveis no ambiente MOODLE, destacam-se: i. Fruns: so utilizados para discusses sobre os mais variados temas pelos participantes cadastrados em um curso. So importantes por tratar-se de um espao onde os alunos e professores trocam idias e reflexes. Uma caracterstica importante que as mensagens podem incluir anexos; ii. Chats: a ferramenta de chat permite uma comunicao sncrona, com feedback4 imediato entre os professores e estudantes. bastante til para o esclarecimento de dvidas; iii. Dilogos: uma forma simples de comunicao entre dois alunos ou entre um aluno e um professor participante da disciplina; iv. Testes: os testes podem ser para os alunos responderem entre verdadeiro e falso, mltipla escolha, valores especficos, dentre outras formas. A correo feita automaticamente e, portanto, os alunos tm um feedback imediato; v. Trabalhos: espao reservado para os alunos submeterem matrias, tais como apresentaes. Os professores fazem comentrios e atribuem notas aos trabalhos; vi. Wikis: essa ferramenta permite a construo colaborativa de contedos multimdia. Os participantes podem acrescentar contedo de forma incremental e as verses sero guardadas para uma posterior comparao entre elas; vii. Glossrios: com os glossrios, os participantes podem formar uma base de termos com seus respectivos significados; viii. Livros: simulam um livro de forma on-line, onde possvel encadear pginas e organiz-las em captulos e sub-captulos;
Resposta sobre algo feito, para verificar se foi adequadamente executado.
12
ix.
Referendos: esta ferramenta permite definir as opes, em que os participantes podem votar escolhendo uma das alternativas disponveis. O referendo pode ser annimo ou pblico, podendo ser ocultado o resultado at que seja colocada uma resposta;
x.
Questionrios: permitem construir inquritos para os participantes inscritos no sistema ou, at mesmo, para participantes que no esto inscritos. Existe a opo de manter o anonimato.
2.1.3 LabSQL O LabSQL um ambiente interativo para auxiliar os alunos no aprendizado da linguagem SQL e pode ser utilizado como ferramenta de apoio ao mediador para realizar automaticamente as avaliaes nas atividades de laboratrio (LINO et al., 2007). As principais vantagens so, para os alunos, recebem feedback imediatamente. para os professores, tem a vantagem de deixar de corrigir manualmente todos os exerccios dos alunos. No ambiente de aprendizagem de SQL, o aprendiz visualiza o texto didtico acompanhado de exemplos executveis. Juntamente com o contedo so apresentadas listas de exerccios para que o aprendiz treine suas habilidades. Existem trs tipos de exerccios: objetivos de mltipla escolha (ou V/F); no objetivos descritivos e exerccios de programao. No momento em que o aprendiz interage com o sistema, enviando sua consulta SQL, o sistema executa e avalia a complexidade desta consulta em relao consulta do mediador. Dessa forma, o aprendiz pode receber um retorno automtico, contendo: o resultado da consulta, permitindo avaliar se a resposta est correta ou no; a avaliao automtica da resposta do aprendiz, levando em considerao o resultado da execuo e o grau de complexidade comparado com a resposta do mediador; o nmero de tentativas e a avaliao global da prova ou exerccio. Na Figura 2.2, est representada a arquitetura geral do LabSQL. Nela, observa-se a interface de mediao, que utilizada pelo professor para definir as avaliaes e questes e algumas solues associadas. As questes podem ser disponibilizadas apenas para
13
treinamento ou para a avaliao formal dos alunos e a seleo das mesmas pode ser feita previamente pelo professor ou a partir de um sorteio entre as questes armazenas da base de avaliaes e questes, que feito isoladamente para cada aluno. No segundo caso, cada aluno ter uma alta probabilidade de ter uma lista de questes bastante distinta dos demais alunos.
Figura 2.2 Viso Geral da Arquitetura do LabSQL, LINO et al., (2007).
A interface de aprendizagem utilizada pelos alunos para resolver as questes selecionadas anteriormente. Ao enviar uma questo, a requisio passa pelo executor de avaliaes, que por sua vez aciona o interpretador SQL. O interpretador SQL retorna o resultado da consulta feita pelo aluno e a compara com a base de testes daquele aluno. Caso as consultas retornem os mesmos resultados, a consulta do aluno avaliada automaticamente pelo executor de mtricas. Todos os erros e acertos de cada aluno so registrados nas bases com a trilha e desempenho dos aprendizes. Na base de dados institucionais do AVA persistem informaes referentes aos cursos, alunos e professores. Alm do feedback para o aprendiz, gerado um relatrio detalhado para o mediador, contendo as informaes de cada aprendiz e da turma em geral; permite visualizar a avaliao de cada questo resolvida por aprendiz e identificar os aprendizes com dificuldade de concluir os exerccios. Por exemplo, o ambiente mostra os alunos que j tentaram mais de 10 vezes. A
14
partir dessa interface, o mediador pode enviar comentrios associados s questes de cada aprendiz. No relatrio de acompanhamento de avaliao, o mediador tem uma viso geral do andamento da turma em relao s avaliaes cadastradas (listas de exerccios e provas). Este relatrio tem como objetivo visualizar um ranking dos aprendizes por turma; facilitar o planejamento do tempo necessrio para os aprendizes conclurem os exerccios e identificar grupos de aprendizes mais (ou menos) adiantados para propor exerccios em grupos. O contedo do LabSQL apresentado em 5 mdulos, onde o grau de dificuldade aumenta do primeiro para o quinto. Porm, o ambiente promove bastante flexibilidade em relao seqncia de apresentao do contedo, pois os alunos no so obrigados a segui-lo em ordem pr-estabelecida. O Mdulo I introduz os conceitos bsicos de bancos de dados e da linguagem SQL; o Mdulo II introduz o comando select e os operadores aritmticos e lgicos utilizados na linguagem; o Mdulo III apresenta os conceitos da DDL e DCL; o Mdulo IV apresenta as funes de agregao; o Mdulo V apresenta o conceito de sub-consultas. Os mdulos esto dispostos na interface de aprendizagem em formato de rvore, como mostrado na Figura 2.3.
15
Figura 2.3 Organizao dos Mdulos no LabSQL (LINO, 2007).
O LabSQL apresenta um grande nmero de recursos para os estudantes e professores cadastrados no sistema, possibilitando uma interao intensa entre os usurios e o sistema. Os seguintes recursos presentes no ambiente se destacam: i. ii. Frum: permite uma comunicao entre todos os participantes do LabSQL; Analisar resultado: exibe o desempenho do aprendiz quanto realizao das listas de exerccios, participao, freqncia e aproveitamento nas provas; iii. Administrar Questo: relatrio que contm questes cadastradas por grupo e disponvel no formato PDF para impresso;
16
iv.
Administrar Usurio: esse recurso permite ao aprendiz editar seus dados cadastrais;
v.
Material de Apoio: materiais disponveis para os aprendizes que so inseridos pelo professor. Atualmente contm um arquivo compactado com vrias apresentaes de BD e links para o contedo no formato PDF e o vdeo de introduo ao sistema;
vi.
Relatrio de Desempenho/Acessos: o aprendiz tem a opo de visualizar os seguintes relatrios grficos: acesso por usurio e usurio on-line, apresenta a mesma funcionalidade da rea do professor; desempenho do aluno, identifica seu progresso na avaliao a partir do grfico de Gantt5 interativo;
vii.
Avaliao: apresentada ao aprendiz quando existe uma prova ou lista de exerccio;
viii.
Exerccio: fica disponvel quando o professor associa questes a uma determinada sesso;
ix.
Agenda: fornece um espao para o aprendiz realizar qualquer anotao, funciona como um caderno no qual o aprendiz tem a liberdade de escrever, reescrever ou apagar uma informao.
Grfico de Gantt uma ferramenta simples, inventada em 1917 por Henry L. Gantt (1861-1919), que representa o tempo a partir de barras horizontais.
17
3. DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS

Historicamente, a noo de encontrar padres teis em dados em seu estado bruto tem recebido diversos nomes, inclusive a Descoberta de Conhecimento em Base de Dados (KDD Knowledge Discovery in Database), sendo definido como a descoberta de novos conhecimentos, sejam padres, tendncias, relaes, associaes, probabilidades ou fatos, que no so bvios ou de fcil identificao. Carvalho (1999) mostra a abrangncia do KDD ao afirmar que interdisciplinar e envolve diversas reas, entre elas, estatstica e matemtica banco de dados aprendizado de mquina, sistemas especialistas e reconhecimento de padres. O processo KDD combina tcnicas, algoritmos e definies de todas as reas com o objetivo principal de extrair conhecimento a partir de grandes bases de dados (CARVALHO, 1999). O processo de descoberta de conhecimento deve obedecer a uma determinada seqncia\etapa para que se consiga atingir o resultado esperado. Neste captulo mostrada cada uma dessas etapas, bem como a definio de alguns termos que so fundamentais para o melhor entendimento do restante desse trabalho.
3.1. DADOS, INFORMAO E CONHECIMENTO Segundo Rezende et al. (2003), os conceitos de dados, informao e conhecimento esto interligados. Na Figura 3.1 mostrada uma representao grfica do relacionamento entre dados, informao e conhecimento, em funo da capacidade de entendimento e da independncia de contexto que cada um destes conceitos implica.
18
Independncia de contexto Inteligncia Compreenso dos princpios Conhecimento
Compreenso dos padres Informao Compreenso relacionamentos Entendimento Dados dos
Figura 3.1 Relacionamento Entre Dados, Informao e Conhecimento (KOCK JR. et al., 1996, apud REZENDE et al., 2003 ).
Antes de se estabelecer qualquer ligao desses conceitos com as diferentes tecnologias para seu registro e processamento, faz-se necessria a realizao de uma distino entre dados, informao e conhecimento. O dado um elemento puro, quantificvel sobre um determinado evento. Dados so fatos, nmeros, texto ou qualquer mdia que possa ser processada pelo computador. Ressaltase que o dado, por si s, no oferece embasamento para o entendimento da situao. A informao o dado analisado e contextualizado. Envolve a interpretao de um conjunto de dados, ou seja, a informao constituda por padres, associaes ou relaes que todos aqueles dados acumulados podem proporcionar. Por exemplo, a anlise do quantitativo de acesso dos usurios pode fornecer informao acerca de quais usurios esto ou no utilizando o ambiente virtual de aprendizagem. Enquanto que a informao descritiva, o conhecimento utilizado fundamentalmente para fornecer uma base de previso com um determinado grau de certeza. O conhecimento refere-se habilidade de criar um modelo mental que descreva o objeto e indique as aes e decises a serem tomadas.
19
Uma deciso o uso explcito de um conhecimento. O conhecimento pode ser representado como uma combinao de estruturas de dados e procedimentos interpretveis que levam a um comportamento conhecido. Este comportamento fornece informaes que podem ser utilizadas para planejar e decidir. Analisando as relaes entre dados, informao e conhecimento, pode-se afirmar que o entendimento, a anlise e as aes fundamentais para a tomada de decises so realizadas a partir do nvel do conhecimento, no tendo menos importncia as demais relaes, uma vez que so correlacionadas e dependentes entre si. No necessrio que uma organizao somente possua uma grande quantidade de dados que revelam suas aes, mas necessrio utilizar tcnicas e ferramentas computacionais para transformar esses dados em informao e essa informao em conhecimento. No processo de descoberta de conhecimento, o conceito de informao relevante precisa ser destacado, uma vez que a afirmao de que um determinado dado ou no relevante tende a ser subjetivo, ou seja, uma informao pode representar uma descoberta de conhecimento til para uma pessoa e para outra no. Isso porque informao relevante aquela informao que o usurio necessita em determinado momento para a realizao de uma determinada atividade, ou seja, ela deve estar no contexto que o usurio quer e no momento certo. Tem-se ainda o fator tempo, pois determinado documento pode no ser relevante a uma consulta em determinado momento e tornar a ser em outro (MIZZARO, 1997). Alm disso, ainda importante o processo de envio dessa informao para um especialista. Essa pessoa precisa ter um notrio conhecimento das atividades que envolvem um determinado problema, a fim de que tome decises eficazes e saiba retirar o mximo de informaes das consultas realizadas nas bases de dados. Porm, esse processo de descoberta de conhecimento no realizado de forma desorganizada e sem seguir nenhum padro, pelo contrrio, seguir etapas predefinidas de fundamental importncia para alcanar o resultado desejado. As etapas que devem ser seguidas para a realizao do processo de descoberta de conhecimento em base de dados so apresentadas na Subseo 3.2.
20
3.2. ETAPAS DA DESCOBERTA DE CONHECIMENTO O processo de KDD o conjunto de atividades contnuas que compartilham o conhecimento descoberto a partir de bases de dados. O KDD composto pelas etapas de seleo de dados, pr-processamento e limpeza, transformao, Minerao de Dados e interpretao, conforme a Figura 3.2 A descrio de cada uma dessas etapas ser detalhada nas prximas sees. No processo de KDD, geralmente cada fase possui uma interseo com as demais. Desse modo, os resultados produzidos numa fase podem ser utilizados para melhorar os resultados das prximas fases. Indicando que este processo iterativo, buscando sempre aprimorar os resultados a cada iterao. Na execuo do processo de KDD o usurio analisa as informaes geradas em cada fase e procura incorporar sua experincia de analista de dados para obter, cada vez mais, melhores resultados.
Figura 3.2 Etapas do KDD (FAYYAD et al., 1996).
3.2.1 Seleo de Dados Uma vez definido o domnio sobre o qual se pretende executar o processo de descoberta, o prximo passo selecionar e coletar o conjunto de dados ou variveis necessrias para representar o domnio. Nesta etapa pode ser necessrio integrar e compatibilizar as bases de dados.
21
3.2.2 Pr-processamento e Limpeza Na atividade de limpeza de dados, da etapa de pr-processamento, as informaes consideradas desnecessrias so removidas. Adotam-se estratgias para manusear dados faltantes ou inconsistentes (REFAAT, 2007). A fase de pr-processamento tem como objetivo consolidar e trabalhar com as informaes relevantes, buscando reduzir a complexidade do problema. Este objetivo alcanado fazendo uma seleo para escolher apenas atributos relevantes de um conjunto de atributos do banco de dados, onde as escolhas destes subconjuntos estaro disponveis para serem usados no algoritmo do KDD de acordo com a finalidade proposta. Uma motivao para esta seleo otimizar o tempo de processamento do algoritmo, visto que ele apenas trabalhar com um subconjunto de atributos, deste modo, diminuindo o seu espao de busca, fazendo com que a velocidade dos algoritmos seja maior (BATISTA, 2003). 3.2.3 Transformao Aps a fase de pr-processamento, em que nem todos os dados presentes em um banco de dados so informativos ou teis em um processo de aquisio de conhecimento e nem sempre esto em um formato adequado para os algoritmos os utilizarem, torna-se necessrio que esses dados sejam transformados. O motivo destas transformaes nos dados superar quaisquer limitaes existentes nos algoritmos empregados para extrao de padres, que dependem dos algoritmos utilizados na fase de Minerao de Dados. Existem alguns tipos de transformaes mais comuns como: normalizao, discretizao (que transforma um atributo contnuo da base de dados em um atributo discreto) de atributos quantitativos, transformaes de atributos qualitativos em quantidades, entre outros (WIVES, 1998). 3.2.4 Minerao de Dados (MD) Considerada como a principal etapa no processo de KDD, onde realizada a extrao e a descoberta de padres propriamente dita. A Minerao de Dados envolve um conjunto de tcnicas e ferramentas computacionais usadas para a identificao desses padres (conhecimentos) embutidos em grandes massas de dados.
22
Aplicam-se algoritmos para extrair padres dos dados ou gerar regras que descrevam o comportamento da base de dados (BERRY, 1997). De acordo com Fayyad et al. (1996), a busca realizada em trs etapas: primeiramente, decide-se se o processo ser de classificao, agrupamento ou sumarizao; em seguida, escolhe-se um dos mtodos a serem utilizados na busca por padres; e, por ltimo, efetua-se o processo de busca ou a minerao dos dados. Esta etapa ser bem mais detalhada no Captulo 4, onde so abordadas as principais tcnicas, mtodos, tarefas e algoritmos de Minerao de Dados aplicados descoberta de conhecimento. 3.2.5 Interpretao Aps a fase de Minerao de Dados, o processo de KDD entra na fase de avaliao e interpretao dos resultados que consiste em avaliar o conhecimento extrado das bases de dados, identificar padres e interpret-los, transformando-os em conhecimentos que possam apoiar as decises (DILLY, 1995). No KDD, o resultado do processo deve ser compreensvel para os tomadores de deciso, os quais so responsveis por validar o conhecimento adquirido, verificando se os resultados so aplicveis para descoberta de novos padres, para sugesto de melhores atributos e refinamento do conhecimento. Dessa forma, observa-se a importncia do trabalho em conjunto do analista com o usurio, a fim de que os resultados do processo de descoberta de conhecimento sejam cada vez mais relevantes e alcancem a confiabilidade desejada. Se, porventura, os resultados obtidos no forem satisfatrios, torna-se necessrio a repetio de todas ou de algumas etapas do KDD. Nesse sentido, pode-se dizer que somente aps a interpretao e avaliao dos dados, haver a descoberta de conhecimento propriamente dita.
23
4. MINERAO DE DADOS
A Minerao de Dados (Data Mining) consiste de um conjunto de tcnicas reunidas da Estatstica e da Inteligncia Artificial com o objetivo de descobrir conhecimento novo, til, relevante e no-trivial que porventura esteja escondido em uma grande massa de dados (GOLDSCHMIDT e PASSOS, 2005). Atualmente tm-se exemplos de sua utilizao em reas como o Marketing, a Economia, a Engenharia e at a Medicina (CARVALHO, 2001). Um conjunto de dados somado tcnica de Minerao de Dados resulta em informao (ou conjunto de informaes) til. Descobrir padres e tendncias escondidos em grandes massas de dados no processo trivial. Em Minerao de Dados esse processo envolve o uso de diversas tarefas (FAYYAD et al., 1996).
4.1. TAREFAS DE MINERAO DE DADOS Tarefa, no contexto da Minerao de Dados, um tipo de problema de descoberta de conhecimento a ser solucionado. Pode-se destacar as tarefas de classificao, agrupamento, estimativas, sumarizao e associao, que podem ser resolvidas de forma individual ou combinadas. A escolha da tarefa mais adequada depende da natureza da aplicao que se pretende desenvolver. 4.1.1 Classificao A tarefa de classificao uma funo de aprendizado que mapeia dados de entrada, ou conjuntos de dados de entrada, em um nmero finito de categorias. Nela, cada exemplo pertence a uma classe, entre um conjunto predefinido de classes (GOLDSCHMIDT e PASSO, 2005). Os exemplos consistem de um conjunto de atributos e um atributo-meta discreto. O objetivo de um algoritmo de classificao encontrar algum relacionamento entre os atributos e uma classe, de modo que o processo de classificao possa usar esse relacionamento para predizer a classe de um exemplo novo e desconhecido.
24
Assim, a classificao consiste em obter um modelo baseado em um conjunto de exemplos que descrevem uma funo no-conhecida. Esse modelo ento utilizado para predizer o valor do atributo-meta de novos exemplos. 4.1.2 Associao Uma transao em um banco de dados um conjunto de atributos que ocorrem simultaneamente. A tarefa de descoberta de associaes tem como objetivo encontrar padres de atributos verificados em uma mesma transao. Como resultado, obtm-se uma srie de regras no formato se x ento y, onde x e y so conjuntos de atributos. A ocorrncia de x, antecedente, implica na ocorrncia de y, conseqente, e a interseo do conjunto de atributos x com o conjunto de atributos y vazio. A freqncia de uma regra o nmero de vezes em que o antecedente e o conseqente ocorrem simultaneamente. O suporte o resultado da diviso entre a freqncia da regra e o total de transaes. A confiana de uma regra obtida a partir de uma diviso cujo numerador a freqncia em que o antecedente e o conseqente ocorrem simultaneamente e o denominador a freqncia em que somente o antecedente ocorre. A tarefa de associao pode ser considerada uma tarefa bem definida, determinstica e relativamente simples, que no envolve a predio da mesma forma que a tarefa de classificao (WIVES, 1998). 4.1.3 Estimativas A estimativa usada para definir o valor para alguma varivel contnua desconhecida, como, por exemplo, receita, altura, saldo de carto de crdito. Pode ser usada para executar uma tarefa de classificao, convencionando-se que diferentes faixas (intervalos) de valores contnuos correspondam a diferentes classes. Estimativa aprender uma funo que mapeia um item de dado para uma varivel de predio real estimada (FAYYAD et al., 1996). Como exemplo de uso das tcnicas de estimativas, tem-se estimar o nmero de filhos de uma famlia, estimar a renda total de uma famlia, estimar o valor em tempo de vida de um cliente, estimar a probabilidade de que um cliente morrer baseando-se no conjunto de
25
diagnsticos mdicos, prever a demanda de um consumidor para um novo produto, dentre outros. 4.1.4 Sumarizao Segundo Fayyad et al. (1996), a tarefa de sumarizao envolve mtodos para encontrar uma descrio compacta para um subconjunto de dados. Um simples exemplo dessa tarefa poderia ser tabular o significado e desvio padro para todos os itens de dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao. 4.1.5 Agrupamento O agrupamento o processo de partio de uma populao heterognea em vrios subgrupos ou clusters mais homogneos. No agrupamento no h classes pr-definidas, os registros so agrupados de acordo com a semelhana, o que diferencia da tarefa de classificao. Normalmente, a tarefa de agrupamento realizada antes de alguma outra forma de Minerao de Dados. Por exemplo, em uma aplicao de segmentao de mercado, pode-se dividir primeiro os clientes em grupos que tenham comportamento de compra similar ou que pertenam a uma mesma regio do pas. No contexto do processo de aprendizagem na EaD, este trabalho prope obter conhecimento relevante para o entendimento do perfil dos alunos na utilizao do ambiente LabSQL. A tarefa de Minerao de Dados mais adequada e vivel para responder perguntas de interesse neste segmento a tarefa de classificao, pois esta tarefa pode ser considerada preditiva, permitindo, dessa forma, prever o desempenho obtido pelos alunos. Na Seo 4.2, so apresentados os principais conceitos e tcnicas empregados na tarefa de classificao.
4.2. TAREFA DE CLASSIFICAO Classificao consiste em examinar as caractersticas de um objeto ou situao e atribuir a ele uma classe pr-definida, ou seja, esta tarefa tem como objetivo a construo de modelos que permitam agrupamento de dados em classes (GOLDSCHMIDT e PASSOS, 2005). Esta
26
tarefa considerada preditiva, pois uma vez que as classes so definidas, ela pode prever automaticamente a classe de um novo dado. Os modelos de classificao possuem atributos de dois tipos: os preditivos e os objetivos. Geralmente, um atributo objetivo corresponde a uma varivel categrica que representa as classes previamente definidas. Os atributos preditivos so os utilizados pela tcnica para inferir a que classe um novo objeto pertence. Existem diferentes tcnicas para a realizao desta tarefa, como Redes Neurais, Algoritmos Genticos, Mtodos Bayesianos, rvores de Deciso, entre outras. Dentre estas, utiliza-se neste trabalho rvore de Deciso e Redes Bayesianas. Tais tcnicas so utilizadas, pois, a partir das Redes Bayesianas, possvel contabilizar as relaes de dependncia entre as aes envolvidas no processo de aprendizagem e o desempenho obtido pelos alunos. As principais vantagens da utilizao das rvores de Deciso so que elas fazem decises levando em considerao os atributos que so mais representativos, alm de serem compreensveis para a maioria das pessoas. Ao escolher e apresentar as regras em ordem de importncia, as rvores de deciso permitem aos usurios observarem quais fatores mais influenciam os seus trabalhos. Nas Subsees 4.2.1 e 4.2.11, so detalhadas as tcnicas rvore de Deciso e Redes Bayesianas, respectivamente. 4.2.1. rvore de Deciso A rvore de Deciso consiste de uma hierarquia de ns internos e externos que so conectados por ramos. Uma das principais caractersticas de uma rvore de Deciso o seu tipo de representao: uma estrutura hierrquica que traduz uma rvore invertida a qual se desenvolve da raiz para as folhas. A estrutura hierrquica traduz uma progresso da anlise de dados no sentido de desempenhar uma tarefa de previso/classificao. A aprendizagem por rvore de deciso um dos mtodos mais usados e prticos para a inferncia indutiva. A induo mediante rvores de deciso uma das formas mais simples de algoritmos de aprendizagem e de maior sucesso. Recebe como entrada um objeto ou uma situao descrita por um conjunto de propriedades ou atributos, e retorna como sada uma deciso. Em termos de rvore de deciso, um exemplo descrito pelos valores dos atributos e pelo predicado meta. O valor do predicado meta chamado classificao do exemplo. Para
27
cada um dos possveis valores de atributos, tem-se um ramo para outra rvore de deciso (sub-rvore). Cada sub-rvore contm a mesma estrutura de uma rvore. Uma rvore de deciso formada por um conjunto de regras de classificao. Cada caminho da raiz at uma folha representa uma destas regras. Cada percurso da rvore de deciso, desde um n raiz at um n folha, convertido em uma regra, onde a classe do n folha corresponde classe prevista pelo conseqente (parte Ento da regra) e as condies ao longo do caminho correspondem s condies do antecedente (parte Se da regra). De acordo com Fayyad et al. (1996), as regras de classificao que resultam da transformao de rvores de deciso podem ter as seguintes vantagens: i. So uma forma de representao do conhecimento amplamente utilizadas em sistemas especialistas; ii. iii. Em geral so de fcil interpretao pelo ser humano; Geralmente melhoram a preciso preditiva pela eliminao das ramificaes que expressam peculiaridades do conjunto de treinamento que so pouco generalizveis para os dados do teste. importante que as regras sejam acompanhadas de medidas relativas sua preciso (ou confiana) e a sua cobertura. A preciso informa o quanto a regra correta, ou seja, qual a porcentagem de casos que, se o antecedente verdadeiro, ento o conseqente verdadeiro. Uma alta preciso indica uma regra com uma forte dependncia entre o antecedente e o conseqente da regra. 4.2.2. Representao de uma rvore de Deciso A Figura 4.1 representa uma rvore de deciso onde cada n de deciso contm um teste para algum atributo, cada ramo descendente corresponde a um possvel valor deste atributo, o conjunto de ramos distinto, cada folha est associada a uma classe e, cada percurso da rvore, da raiz folha corresponde uma regra de classificao.
28
Figura 4.1 Representao de Uma rvore de Deciso.
O critrio utilizado para realizar as parties o da utilidade do atributo para a classificao. Aplica-se, por este critrio, um determinado ganho de informao a cada atributo. O atributo escolhido como atributo teste para o corrente n aquele que possui o maior ganho de informao. A partir desta aplicao, inicia-se um novo processo de partio. Nos casos em que a rvore usada para classificao, os critrios de partio mais conhecidos so baseados na entropia. 4.2.3. Entropia Entropia o clculo do ganho de informao baseado em uma medida utilizada na teoria da informao. A entropia caracteriza a pureza ou impureza dos dados: em um conjunto de dados, uma medida da falta de homogeneidade dos dados de entrada em relao a sua classificao. Por exemplo, a entropia mxima (igual a 1) quando o conjunto de dados heterogneo (OVERVIEW, 2005). Dado um conjunto de entrada (S) que pode ter c classes distintas, a entropia de S ser dada pela Equao 4.1, como,
Entropia ( s ) = pi log 2 pi ,
i =1 c
(4.1)
onde pi a proporo de dados em S que pertencem classe i.
29
O ganho de informao para um atributo A de um conjunto de dados S nos d a medida da diminuio da entropia esperada quando se utiliza o atributo A para fazer a partio do conjunto de dados. Seja P(A) o conjunto dos valores que A pode assumir; seja x um elemento deste conjunto e seja Sx o subconjunto de S formado pelos dados em que A = x; a entropia que se obtm ao particionar S em funo do atributo A dada pela Equao 4.2, como
E ( A) =
X P ( A)
SX S
Entropia ( S X ).
(4.2)
O ganho de informao dado pela Equao 4.3, como ganho (S, A) = Entropia (S) E (A) (4.3)
onde Entropia(S) uma medida de (no) homogeneidade do conjunto S e P(A) uma medida de (no) homogeneidade estimada para o conjunto S caso utilize o atributo A para fazer a prxima partio. A construo de uma rvore de deciso tem trs objetivos: diminuir a entropia (a aleatoriedade da varivel objetivo), ser consistente com o conjunto de dados e possuir o menor nmero de ns. 4.2.4. Overfitting e Underfitting Tem-se o fenmeno do underfitting quando devido a uma amostra muito pouco representativa, elementos de grande participao/importncia so desconsiderados ou tem menor peso que o ideal fazendo assim que o classificador cubra uma extenso menor que a adequada. O fenmeno do overfitting ocorre devido considerao excessiva de um rudo (dados em branco ou inconsistente) na amostra ou de simplesmente uma amostra anmala, acarretando com que o classificador decida considerar uma extenso maior de amostras que a ideal (GOLDSCHMIDT e PASSOS, 2005).
30
4.2.5. Podagem Geralmente uma rvore construda pelo algoritmo C4.5 (apresentado na Subseo 4.2.6.2) deve ser podada, a fim de reduzir o excesso de ajustes (overfitting) aos dados de treinamento. Existem duas possibilidades de podagem em rvore de deciso: parar com o crescimento da rvore mais cedo (pr-poda) ou crescer uma rvore completa e, em seguida, podar a rvore (ps-poda) (CARVALHO, 1999). Porm, verifica-se que a ps-poda mais lenta, porm mais confivel que a pr-poda (QUILAN, 1986). Para entender o mecanismo de podagem, precisa-se antes entender o conceito de taxa de estimativa de erro, a qual pode ser obtida da seguinte forma: se N exemplos so cobertos por determinado n folha e E dentre estes N so classificados de forma incorreta, ento a taxa de estimativa de erro dessa folha E/N (BERSON e SMITH, 1997). As caractersticas descritas acima so comuns a todas as tcnicas baseadas em rvores de deciso, no entanto, o algoritmo para a construo da rvore em si pode variar, alm de outros detalhes como a forma de realizar a deciso do melhor caminho em um n ou at mesmo fazer o tratamento de atributos contnuos. 4.2.6. Algoritmos de rvore de Deciso Esta subseo apresenta os principais algoritmos de rvore de deciso: ID3 (QUILAN, 1986), C4.5 (QUILAN, 1986) e CART (RVORES DE DECISO, 2007). 4.2.6.1. Algoritmo ID3 O algoritmo ID3, Iterative Dichotomizer 3, foi desenvolvido por Ross Quinlan (QUILAN, 1986). Esse algoritmo consiste em um processo de induo de rvores de deciso e tem como finalidade avaliar a informao contida nos atributos segundo a sua entropia, que mede quanto esse espao homogneo, ou por outro lado, quanto maior for a entropia maior ser a desordem. O atributo mais importante colocado na raiz e, de forma top-down, a rvore construda recursivamente, com o objetivo de sempre escolher o melhor atributo para determinado n.
31
Uma das grandes vantagens do ID3 a sua simplicidade, o seu processo de construo torna relativamente simples a compreenso do seu funcionamento. A maior desvantagem desse algoritmo que a rvore de deciso produzida por ele praticamente imutvel, o que implica que no se pode eficientemente reutilizar a rvore sem reconstru-la. 4.2.6.2. Algoritmo C4.5 O algoritmo C4.5 um mtodo melhorado a partir do ID3. Seu principal objetivo suprir as deficincias apresentadas pelo algoritmo ID3. Este algoritmo segue um princpio orientador que o princpio de Occam (Occams Razor), criado por William Occam, que d preferncia escolha de hipteses menos complexas, compatveis com a realidade observada (QUILAN, 1986). O algoritmo C4.5 adota o estratgia ps-poda. Podar uma rvore neste contexto, significa reduzir algumas sub-rvores a folhas, ou de outra forma, um ramo de rvore, a partir de determinado n cortado (ou seja, transformado em folha). O corte de um ramo da rvore guiado por um teste estatstico que leva em conta os erros em um n e soma dos erros nos ns que descendem desse n. Sendo assim, para cada n da rvore, a poda s se concretiza se o desempenho da rvore no diminuir consideravelmente (QUILAN, 1986). Outra vantagem desse algoritmo a capacidade que o mesmo possui de gerar regras de deciso a partir de rvores e de as compararem entre si independentemente das rvores construdas. Um dos mecanismos de poda utilizados por este algoritmo baseado na comparao das taxas de estimativas de erro de cada sub-rvore e do n folha. So processados sucessivos testes a partir do n raiz da rvore, se a estimativa de erro indicar que a rvore ser mais precisa se os ns descendentes (filhos) de um determinado n forem eliminados, ento estes ns descendentes sero eliminados e o n n passar a ser o novo n folha (CARVALHO, 1999).
32
4.2.6.3. Algoritmo CART (Classification and Regression Trees) O algoritmo CART gera sua rvore de deciso realizando particionamentos binrios no domnio dos atributos, gerando ns com apenas dois caminhos a seguir: sim ou no. Da mesma forma que o algoritmo C4.5, o CART recursivo e pode lidar com dados ausentes e diversos tipos numricos (contnuos, categricos, booleanos, etc.). Entretanto, por realizar particionamentos binrios, esse algoritmo apresenta dificuldades de trabalhar com atributos que podem assumir mais de duas classes (por exemplo, baixo, mdio e alto). Nesses casos, podem existir dois ou mais ns para representar o mesmo atributo, gerando rvores maiores e mais complexas (MARTINHAGO, 2005). As rvores obtidas a partir do algoritmo CART tm normalmente muitos nveis, o que pode tornar pouco eficiente a apresentao dos resultados tornando as concluses obtidas a partir de sua estrutura, pouco confiveis. O algoritmo, apesar de flexvel, complexo tornando o clculo dos resultados muito demorados para grande conjunto de dados. Segundo Martinhago (2005), as principais vantagens do algoritmo CART so: i. Pode utilizar variveis independentes de diferentes tipos, desde contnuas, ordinais e nominais; ii. No obriga a realizao de transformaes de variveis iniciais independentes (como a logaritmizao ou a normalizao), pois o mtodo tem bom comportamento para qualquer tipo de dado; iii. Pode usar a mesma varivel em diferentes estgios do modelo, permitindo reconhecer efeitos que certas variveis produzem sobre outras; iv. No necessita satisfazer qualquer condio de aplicabilidade do modelo, o que no acontece nos modelos paramtricos. 4.2.7. Redes Bayesianas A noo fundamental da Estatstica Bayesiana a Probabilidade Condicional, definida por P (H|E) no qual H a hiptese e E a evidncia. Para computar a probabilidade de uma
33
hiptese H, necessrio levar em considerao o valor da evidncia E. Quando no existir evidncias, tem-se a probabilidade incondicional P(H) (RUSSELL e NORVIG, 2004). O clculo feito a partir da Equao 4.4, dada por P( H E ) . P( E )
P( H | E ) =
(4.4)
onde o denominador a probabilidade de E e H ocorrerem simultaneamente e o numerador a probabilidade de ocorrer H isoladamente, ou probabilidade incondicional. A formulao do teorema de Bayes envolve estas probabilidades. A Equao 4.5 apresenta o teorema formulado por Bayes, P ( E | H ) P( H ) . P( E )
P( H | E ) =
(4.5)
As Redes Bayesianas so modelos grficos representados por grafos acclicos e direcionados, mostrando as relaes de causalidade entre as variveis de um problema (RUSSEL, 1995). Nestes grafos, os vrtices representam as variveis e as arestas representam os relacionamentos de influncia direta entre os atributos. A ausncia de aresta entre dois vrtices supe uma independncia condicional. Por exemplo, considerando o grafo representado pela Figura 4.2, pode-se observar que a ocorrncia de A ou B so provveis causas direta da ocorrncia de C, assim como, a ocorrncia de C uma provvel causa das ocorrncias de D e E. A e B so pais de C, que por sua vez pai de D e E. Como A e B no tm pai, so considerados ns razes da rede.
34
Figura 4.2 Um Grafo Dirigido Acclico.
O seguinte problema, que chamar-se- de domnio 1 para facilitar futuras referncias, exemplificado por Russel (1995), para um melhor entendimento sobre os conceitos de uma Rede Bayesiana, com a representao grfica demonstrada a partir da Figura 4.3.
Voc possui um novo alarme contra ladres em casa. Este alarme muito confivel na deteco de ladres, entretanto, ele tambm pode disparar caso ocorra um terremoto. Voc tem dois vizinhos, Joo e Maria, os quais prometeram telefonar-lhe no trabalho caso o alarme dispare. Joo sempre liga quando ouve o alarme, entretanto, algumas vezes confunde o alarme com o telefone e tambm liga nestes casos. Maria, por outro lado, gosta de ouvir msica alta e s vezes no escuta o alarme.
Figura 4.3 Rede Bayesiana para o Domnio 1 (RUSSEL, 1995).
35
O modelo grfico proposto na Figura 4.3 trata-se de uma simplificao do domnio 1, pois alguns fatos, como Maria ouvindo msica alta e Joo escutando o barulho do telefone, esto implcitos. Se a Rede Bayesiana considerasse todos os fatos possveis de ocorrer em um domnio, tornaria o modelo muito complexo e algumas variveis podem no ser relevantes (RUSSEL, 1995). Estabelecida a topologia da rede, necessrio quantificar as ligaes entre as variveis a partir da construo de uma Tabela de Probabilidades Condicionais (TPC) para cada varivel. Para isso, necessria a identificao de todas as combinaes de possveis valores das suas variveis pais e, tambm, os possveis valores que a varivel em questo pode assumir. A Equao 4.6 demonstra como so feitos os clculos das probabilidades para cada varivel,
P (U ) = P ( A1 , A2 ,..., An ) = P (U ) = P ( Ai | pa ( Ai )),
i =1 n
(4.6)
onde P(U) a probabilidade conjunta para a rede e P( Ai | pa ( Ai )), so as probabilidades condicionais de A em relao aos seus pais. Assim, a Tabela 4.1 descreve a TPC para a varivel alarme.
Tabela 4.1 TPC para a Varivel Alarme
Ladro Verdadeiro Verdadeiro Falso Falso
Terremoto Verdadeiro Falso Verdadeiro Falso
P(Alarme|Ladro, Terremoto) Verdadeiro Falso 0,95 0,050 0,95 0,050 0,29 0,710 0,001 0,999
Na Figura 4.4 temos a representao da Rede Bayesiana do domnio 1 com as respectivas probabilidades condicionais de cada varivel. A letras L, T, A, J e M representam Ladro, Terremoto, Alarme, Joo_Liga e Maria_Liga, respectivamente.
36
Figura 4.4 Rede Bayesiana do Domnio 1 com a Probabilidade de cada Varivel (Adaptado de RUSSEL, 1995).
A partir dos clculos estatsticos, cada varivel ter uma tabela de valores de probabilidades para que suas possveis aes sejam realizadas. Dessa forma, para cada varivel A do problema, com pais B1, B2, ..., Bn, existe uma tabela P(A|B1, B2, ..., Bn). Com a utilizao de uma ferramenta de anlise de Redes Bayesianas possvel definir hipteses sobre um determinado atributo, tendo respostas sobre as influncias dele de acordo com as ligaes existentes entre os outros atributos. 4.2.8. Vantagens das Redes Bayesianas Para Luna (2004) existem muitos pontos positivos de se utilizar Redes Bayesianas, dentre suas principais caractersticas destacam-se: i. Permite expressar as assertivas de independncia de forma visual e fcil de perceber; ii. Torna o processo de inferncia eficiente computacionalmente;
37
iii. iv.
Permitem analisar grandes quantidades de dados; Pode ser utilizada em vrios domnios.
4.3. FERRAMENTAS DE MINERAO DE DADOS Atualmente existem diversas ferramentas capazes de lidar com os diversos algoritmos de Minerao de Dados. Muitas delas so genricas da Inteligncia Artificial ou da comunidade de estatstica. Tais ferramentas operam separadamente da fonte de dados, requerendo uma quantidade significativa de tempo gasto com exportao e importao de dados, pr e psprocessamento e transformaes de dados. Entretanto, a conexo entre a ferramenta de descoberta de conhecimentos e a base de dados analisadas, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de Dados) existente, extremamente desejvel. Para Goebel e Gruenwald (1999 apud ESCOVAR, 2004), as caractersticas a serem consideradas na escolha de uma ferramenta de descoberta de conhecimento devem ser: i. A habilidade de acesso a uma variedade de fontes de dados, de uma forma on-line e off-line; ii. A capacidade de incluir modelos de dados orientados a objetos ou modelos no padronizados (tal como multimdia, espacial ou temporal); iii. A capacidade de processamentos com relao ao nmero mximo de tabelas/tuplas/atributos; iv. v. vi. A capacidade de processamento com relao ao tamanho do banco de dados; A variedade do tipo de atributos que a ferramenta pode manipular; e O tipo de linguagem da consulta.
As ferramentas de Minerao de Dados utilizadas neste trabalho foram o software livre WEKA, para aplicao da tcnica de rvore de Deciso e o software Bayesware Discoverer, para gerao das Redes Bayesianas.
38
A principal justificativa para a utilizao do WEKA consiste do fato desta ferramenta ser um software livre amplamente utilizado para Minerao de Dados e com bastantes referncias de sua utilizao. Por outro lado, apesar de ser um software proprietrio verso para estudante com limitaes na capacidade de processamento com relao ao tamanho do banco de dados, o Bayesware Discoverer foi utilizado devido grande facilidade em sua utilizao, principalmente durante a interpretao e anlise dos resultados obtidos a partir das Redes Bayesianas geradas. As Subsees 4.3.1 e 4.3.2 apresentam as ferramentas de Minerao de Dados utilizadas neste trabalho. 4.3.1. WEKA A ferramenta WEKA (Waikato Environment for Knowledge Analysis), tem sido bastante utilizada na realizao da etapa de Minerao de Dados, por ser de domnio pblico e prover um conjunto de algoritmos que implementam diversas tcnicas para resolver problemas reais de Minerao de Dados. Esta ferramenta foi implementada na linguagem Java e desenvolvida no meio acadmico da Universidade de Waikato, na Nova Zelndia, em 1999. Suas principais caractersticas so herdadas do fato de ser uma ferramenta desenvolvida em Java, uma linguagem multiplataforma orientada a objetos. A portabilidade da linguagem Java permite ao WEKA rodar em diversas plataformas diferentes, e sua orientao a objetos produz vantagens como modularidade, polimorfismo, encapsulamento, reutilizao de cdigo entre outras. O WEKA composto por dois pacotes que podem ser embutidos em outros programas escritos em Java, permitindo que um desenvolvedor possa criar seu prprio ambiente de Minerao de Dados. O primeiro pacote possui interfaces para a manipulao interativa de algoritmos de Minerao de Dados e o segundo possui classes Java responsveis pelo encapsulamento desses algoritmos. A Figura 4.5 apresenta uma das principais interfaces da ferramenta WEKA.
39
Figura 4.5 Interface da Ferramenta WEKA.
O principal tipo de arquivo utilizado pelo WEKA o ARFF - Attribute-Relation File Format. 4.3.1.1. Arquivos ARFF ARFF um formato desenvolvido na University of Waikato para ser utilizado no projeto Weka Machine Learning Project. So arquivos de texto na codificao ASCII que descrevem as relaes e seus atributos (ATTRIBUTE-RELATION, 2008). Na primeira parte do arquivo, conhecida como header, so declaradas as relaes e os atributos, onde a declarao das relaes sequem o formato: @relation <nome-da-relao>, e a declarao dos atributos sequem o formato: @attribute <nome-do-atributo> <tipo>. Os tipos podem ser: i. numeric: usado para nmeros reais e inteiros;
40
ii.
<nominal-specification>: especifica uma lista pr-definida de valores possveis separados por vrgula. Por exemplo: {amarelo, vermelho, azul};
iii. iv.
string: tipo que contm valores textuais; date: usado para datas.
Na segunda parte do arquivo so declaradas as instncias, seguindo o formato: @data <valor-atributo-1>, <valor-atributo-2>, ..., <valor-atributo-n>, conforme mostrado na Figura 4.6.
Figura 4.6 Exemplo de um Arquivo ARFF.
41
4.3.2. Bayesware Discoverer O Bayesware Discoverer um programa computacional proprietrio, disponvel apenas para a plataforma Windows, especfico para a anlise de Redes Bayesianas. Existem quatro verses disponveis atualmente no mercado (BAYESWARE, 2008): i. Professional Edition: prov uma srie de funcionalidades para se trabalhar com Redes Bayesianas e a integrao com outros sistemas, tais como Microsoft Excel 97/2000, Microsoft Access 97/2000 e Mathsoft S-Plus 2000; ii. Enterprise Edition: inclui todas as funcionalidades da verso Professional Edition e, adicionalmente, prov a possibilidade de importao e exportao de consultas SQL em uma rede de computadores; iii. Academic Edition: verso utilizada para pesquisas e por instituies acadmicas. Possui as mesmas funcionalidades do Professional Edition, porm o preo sofre um desconto. Est includo nessa verso um ano de suporte; iv. Student Edition: uma verso que pode ser livremente usada para fins de pesquisa e por instituies acadmicas. Possui a limitao de trabalhar com bases de dados com no mximo 500 registros. A interface grfica do Bayesware Discoverer est separada em trs elementos principais: Database Browser, Database Window e Network Window. O Database Browser prov acesso a todos os bancos de dados disponveis e, cada banco pode ser visualizado em uma Database Window. Alm disso, para o mesmo banco, podem ser associadas diversas redes, que so visualizadas na Network Window. A viso geral da interface grfica est demonstrada na Figura 4.7.
42
Figura 4.7 Viso Geral da Interface Grfica do Bayesware Discoverer (BAYESWARE, 2000).
A Network Window a viso principal do programa. Nela esto localizadas todas as funcionalidades para a modelagem, explorao e anlise das Redes Bayesianas. Na Figura 4.8 temos uma viso da Network Window e cada componente ser brevemente explicado posteriormente.
43
Figura 4.8 Viso da Network
Window (BAYESWARE, 2000).
1. Network Menu Bar: contm os comandos bsicos para a manipulao da janela, tais como abrir um novo arquivo, fechar a janela, ajuda, etc; 2. Network Tool Bar: composta por um conjunto de cones que representam atalhos para os principais comandos do Network Menu Bar; 3. Network Node Bar: contm uma lista de todos os ns definidos na Network Panel. Clicando sobre cada um dos ns, so exibidas informaes mais detalhadas; 4. Network Panel: nesse componente a Rede Bayesiana pode ser visualizada graficamente a partir de um grafo dirigido; 5. Network Help Line: descreve brevemente aes que podem ser executadas, como clicar com o boto direito do mouse;
44
6. Network Progress Indicator: exibe uma barra de progresso de alguma atividade sendo executada.
45
5. ESTUDO DE CASO: MINERAO DO LABSQL

Este captulo apresenta uma aplicao de tcnicas de Minerao de Dados no processo de aprendizagem na educao a distncia. O objetivo deste estudo de caso analisar os dados obtidos a partir do ambiente virtual de aprendizagem LabSQL, aplicando as tcnicas de Minerao de Dados denominadas rvore de Deciso e Redes Bayesianas para descobrir informaes relevantes sobre o desempenho dos alunos com relao utilizao dessa tecnologia e ao processo de ensino-aprendizado. Este trabalho do tipo exploratrio, onde se analisa os dados buscando relacionamentos novos e no previstos. A aplicao das tcnicas de minerao de dados utilizadas para alcanar os objetivos deste estudo de caso foi realizada de acordo com as etapas do processo de KDD. A Subseo 5.1 apresenta cada uma dessas etapas realizadas neste estudo de caso.
5.1 O PROCESSO DE KDD O contexto no qual o processo de KDD utilizado consiste na anlise dos dados obtidos a partir do banco de dados do LabSQL, correspondentes a 11 turmas em um modelo de ensinoaprendizagem semi-presencial, contendo, em mdia, 29 alunos cada, durante trs semestres letivos, da Universidade Federal do Par, correspondentes ao ano de 2007 e ao primeiro semestre de 2008, em que quatro turmas so de ps-graduao em especializao em Banco de Dados e sete turmas de graduao: sendo trs pertencentes ao curso de Cincia da computao e quatro de Sistemas de Informao. trezentos e dezenove usurios. Para uma maior compreenso acerca do domnio dos dados, o Apndice B apresenta uma anlise descritiva dos dados coletados no LabSQL. Uma vez definido o domnio sobre o qual se pretende executar o processo de descoberta de conhecimento, o prximo passo selecionar e coletar o conjunto de dados ou variveis necessrias para representar o domnio. No total, o sistema foi utilizado por
46
5.1.1. Seleo dos Dados Nesta etapa foi realizado um estudo da estrutura da base de dados do LabSQL com o objetivo de compreender os relacionamentos entre as tabelas desse banco de dados, e identificar os atributos relevantes e teis para discriminar as diferentes aes e desempenhos dos usurios do LabSQL. O banco de dados do LabSQL possui cerca de 20 tabelas com informaes associadas aos seus usurios. Aps estabelecer uma compreenso dos relacionamentos dessas tabelas, foram implementadas vinte e uma consultas SQL para coletar os diferentes atributos utilizados neste trabalho. Aps a realizao dessas consultas, obteve-se dados estruturados acerca do desempenho das atividades desenvolvidas pelos usurios do ambiente LabSQL. Dessa forma, dentre os atributos selecionados destaca-se: sexo do usurio (masculino ou feminino); nome do curso (Cincia da Computao, Sistema de Informao ou Especializao em Banco de Dados); nome do tipo de curso (graduao ou especializao); cdigo da turma (11 valores); cdigo do coordenador da turma (2 valores); o tempo que o usurio levou para se inscrever na turma aps o incio de inscrio (em dias); trabalhou em equipe (sim ou no); usou agenda de anotaes do sistema (sim ou no). O Apndice A apresenta a descrio completa dos 34 atributos primrios obtidos durante a fase de Seleo dos Dados. 5.1.2. Pr-processamento e Limpeza dos Dados Nesta etapa foram realizados alguns tratamentos nos dados obtidos para uma melhor aplicao das tcnicas de minerao de dados. Dentre as atividades realizadas nesta etapa destacam-se: i. ii. A retirada de registros de usurios de testes cadastrados no ambiente LabSQL; O preenchimento manual de dados em branco, como o sexo do usurio, inferido a partir do seu nome; Em seguida, os usurios foram renomeados para preservar a privacidade das demais informaes a eles associados, convencionando aluno_1, aluno_2, etc.
47
Alm disso, houve a definio de quais atributos so relevantes, baseando-se em conversas e entrevistas com os professores que utilizam o ambiente. Nesse sentido, destacamse os atributos relacionados Freqncia (quantidade) de acesso; aos acertos nos exerccios, aos acertos nas provas, ao nmero de submisses (SQL-livre, exerccios), aos acertos na prova (Nota), ao trabalho em grupos, e a utilizao dos recursos disponveis do ambiente, como o SQL-livre e o material de apoio. Esses atributos so considerados relevantes, pois so comumente utilizados pelos professores para avaliar o desempenho e atribuir as notas (conceitos) finais dos alunos na disciplina. 5.1.3. Transformao dos Dados Antes de realizar a etapa de extrao de padres, realizou-se um tratamento nos dados, adequando o formato dos dados selecionados para o processo de extrao de conhecimento. A construo de uma rvore de deciso utilizando atributos contnuos exigiria a criao de um ramo para cada valor distinto do atributo, tornando a rvore pouco generalista. Para evitar este problema, recomendado submeter os atributos contnuos a um processo de discretizao (FAYYAD, 1993). Assim, foi realizada a discretizao de alguns atributos para a reduo do nmero de valores contnuos, agrupando-os em classes. Alm disso, criaram-se novos atributos a partir de outros, visando avaliar o desempenho dos alunos, por exemplo, para avaliar se o aluno est abaixo ou acima da mdia de pontos ou de acessos ou se o aluno usou ou no determinado recurso do ambiente LabSQL, como a agenda e o trabalho em grupo. Foi realizada, ainda, a transformao no formato de data de mm/dd/aaaa para dd/mm/aaaa para viabilizar o clculo do tempo que o usurio levou para se inscrever na turma aps o incio de inscrio. Foi adicionado o smbolo ? para representar as informaes desconhecidas de alguns usurios como a data de inscrio na disciplina. O smbolo de interrogao interpretado como dado desconhecido por ambas as ferramentas de minerao de dados utilizadas neste trabalho, o WEKA e o Bayesware Discoverer. Dessa forma, foram trabalhados com 59 atributos, dentre eles destaca-se; ficou acima da mdia de pontos em questes de mltipla escolha nos exerccios e avaliaes (sim ou no); mdia de pontos em questes discursivas nos exerccios e avaliaes (valor continuo); ficou
48
acima da mdia de acessos ao SQL-livre (sim ou no); ficou acima da mdia de acessos ao material de apoio disponvel no ambiente (sim ou no); ficou acima da mdia de problemas de programao SQL resolvidos corretamente nos exerccios e avaliaes (sim ou no); ficou acima da mdia de pontos em questes de programao SQL nos exerccios e avaliaes (sim ou no); mdia do nvel de dificuldades dos problemas resolvidos (valor continuo) e ficou acima da mdia de acessos ao ambiente (sim ou no). O Apndice A apresenta a descrio completa dos 59 atributos trabalhados, sendo atributos primrios e derivados obtidos a partir dos atributos primrios durante a fase de Transformao dos Dados. Aps as transformaes descritas acima na etapa de pr-processamento, foi necessrio converter os dados resultantes da base de dados para os formatos especficos das ferramentas de minerao de dados utilizadas. No caso da ferramenta Bayesware Discoverer, os dados foram convertidos para o formato separado por tabulaes, ilustrado na Figura 5.1. No caso da ferramenta WEKA os dados foram convertidos para o formato ARFF, ilustrado na Figura 5.2.
Figura 5.1 Representao dos Dados no Formato Separado por Tabulao.
49
Figura 5.2 Representao dos Dados no Formato ARFF.
5.1.4. Minerao de Dados Esta etapa apresenta a aplicao das tcnicas de minerao de dados utilizadas neste trabalho para a extrao e a descoberta de padres propriamente dita. 5.1.4.1 Aplicao de Redes Bayesianas Para aplicao das Redes Bayesianas, aps a converso do banco de dados do LabSQL para o formato separado por tabulao, utilizou-se a ferramenta Bayesware Discoverer verso Student Edition 1.0, verso que pode ser livremente usada para fins de pesquisa e por instituies acadmicas. O Apndice C apresenta a minerao de dados passo a passo na ferramenta Bayesware Discoverer. Aps a gerao da rede bayesiana nesta ferramenta, busca-se executar inferncias na rede para descobrir informaes e padres que podem ser teis para gestores do domnio da aplicao. Foram realizadas diferentes anlises para as redes bayesianas geradas. Na Subseo 5.1.5.1 mostrada como foi realizada as anlises das redes bayesianas geradas, bem como os resultados obtidos na fase de Minerao de dados.
50
5.1.4.2 Aplicao de rvore de Deciso Para aplicao da rvore de Deciso, aps a converso do banco de dados do LabSQL para o formato ARFF, utilizou-se a ferramenta WEKA (Waikato Environment for Knowledge Analysis) (WEKA, 2008), verso 3.4, que executou a tarefa de classificao, utilizando o algoritmo J48 em validao cruzada (cross validation) para a construo da rvore de Deciso. O mtodo de validao cruzada 10-Fold-Cross-Validation foi utilizado a fim testar a acurcia do modelo no mesmo conjunto de dados utilizado para construir o modelo. A acurcia uma mtrica que avalia os modelos de classificao a partir da porcentagem de predies corretas que o modelo executou sobre o total de predies realizadas. Ela importante, pois permite avaliar um classificador para determinar o quanto ele ser eficiente para predizer dados futuros, ou seja, qual a sua capacidade de generalizao. O Apndice D apresenta a minerao de dados passo a passo na ferramenta WEKA. No total, foram geradas cerca de 20 rvores de deciso para os atributos discretos do banco de dados, sendo geradas muitas regras, cerca de 400, porm na Subseo 5.1.5 mostrada como foi realizada a anlise dos resultados obtidos na fase de Minerao de dados. 5.1.5. Anlise dos Resultados e Interpretaes Nesta seo so realizadas as anlises dos resultados e interpretaes visando identificar padres e interpret-los a fim de que os resultados do processo de descoberta de conhecimento sejam relevantes e compreensveis para os professores, os quais so responsveis por validar o conhecimento adquirido sobre o desempenho dos alunos com relao utilizao dessa tecnologia e ao processo de ensino-aprendizado. 5.1.5.1 Anlise dos Resultados e Interpretaes das Redes Bayesianas A ferramenta Bayesware Discoverer construiu as redes a partir dos atributos do banco de dados criado, exibindo as tabelas de probabilidade condicional ou incondicional de cada n (atributo). Dentre as ligaes observadas na Figura 5.3, gerada aps a execuo do software, destaca-se que a demora para inscrio (2) influncia diretamente quais usurios esto, ou no, acima da mdia de acessos ao ambiente (6), na utilizao ou no da agenda (3) e na mdia de pontos em questes de mltipla escolha nos exerccios e avaliaes (5). Por outro
51
lado, a demora para inscrio influenciada pelo curso (1). Alm disso, observou-se que os usurios que esto, ou no, acima da mdia de acessos ao ambiente (6) influenciam no total de problemas resolvidos corretamente nas avaliaes (7) e que o sexo do usurio (4) no influencia nenhum outro atributo.
Figura 5.3 Rede Bayesiana para Anlise da Demora para Inscrio na Turma.
Na Figura 5.4 possvel observar as tabelas de probabilidade dos ns da rede gerada. Em cada tabela, tem-se a distribuio probabilstica dos seus possveis valores. Aps realizar algumas inferncias, foi possvel observar que ao colocar o atributo referente demora para inscrio (1) em 100% para a menor demora (0 a 6 dias), inferiu ao atributo acima da mdia de acessos ao ambiente (4), um aumento de 0,388 (38,8% de probabilidades a priori) para 0,509 (50,9% de probabilidades a posteriori) em S (sim), ou seja, acima da media de acesso ao ambiente. Da mesma forma, inferiu ao atributo referente mdia de pontos em questes de mltipla escolha nos exerccios (3) um aumento de 0,398 (39,8% de probabilidades a priori) para 0,500 (50% de probabilidades a posteriori) em S (sim), ou seja, acima mdia de pontos em questes de mltipla escolha nos exerccios.
52
Figura 5.4 Tabelas de Probabilidade para Anlise da Demora para Inscrio dos Usurios no Ambiente LabSQL (demora_para_inscricao_turma).
Portanto, os alunos que iniciam a disciplina mais cedo no ambiente, possuem um desempenho elevado em relao quantidade de acessos e ao total de pontos na resoluo dos exerccios de mltipla escolha. Desde o incio, deve-se motivar a participao dos alunos na utilizao do ambiente para desenvolver melhor seu aprendizado, e criar outras possibilidades para aproximar os alunos que esto atrasados em relao ao restante da turma. Pode-se observar, ainda, que o atributo Usou_A_Agenda aumentou de 0,046 (4,6% de probabilidade a priori) para 0,480 (48% de probabilidade a posteriori) em S (usou a agenda). Portanto, os estudantes que iniciam mais cedo no ambiente exploraram mais as funcionalidades do sistema. Dessa forma, para auxiliar os estudantes atrasados, faz-se necessrio criar uma espcie apoio na descoberta das funcionalidades do sistema. Alm disso, a Figura 5.5 apresenta uma Rede Bayesiana para anlise do coordenador da turma. Nela, destaca-se a influncia que o coordenador da turma tem em relao quantidade de acesso dos usurios ao ambiente, o trabalho em equipe e o nvel de dificuldade dos problemas resolvidos pelos usurios. Dessa forma, observa-se que determinados coordenadores de turma promovem uma maior utilizao do ambiente em relao quantidade de acessos dos alunos do que outros coordenadores. Alm disso, a partir da Rede
53
Bayesiana gerada possvel perceber diferenas de atitudes dos coordenadores em relao utilizao dos recursos do ambiente durante o processo de aprendizado, como o nvel de dificuldade dos trabalhos oferecidos aos alunos e a opo de organizar trabalho em equipe.
Figura 5.5 Tabelas de Probabilidade e Rede Bayesiana para Anlise do Coordenador da Turma.
A Figura 5.6 apresenta a Rede Bayesiana utilizada para anlise dos usurios que esto, ou no, acima da mdia de pontos em questes de programao SQL nos exerccios e avaliaes. Nela, observa-se que o atributo Acima_Media_Total_Pontos_Sql (1) tem dependncia direta dos atributos Acima_Media_Total_de_Tentativas_SQL (2) e do atributo
Acima_Media_Total_Pontos_Alternativas (3). Nesse sentido, os usurios que esto acima, ou no, da mdia de pontos em questes de programao SQL nos exerccios e avaliaes, dependem se eles esto acima, ou no, da mdia de tentativas de programao SQL nos exerccios e avaliaes, e se eles esto acima, ou no, da mdia de pontos em questes de mltipla escolha nos exerccios e avaliaes.
54
Figura 5.6 Rede Bayesiana para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nos Exerccios e Avaliaes (atributo acima_media_de_total_pontos_sql).
Aps realizar algumas inferncias, conforme observado na Figura 5.7 foi possvel observar que ao colocar o atributo Acima_Media_Total_de_Tentativas_SQL, com 100% para o valor sim e o atributo Acima_Media_Total_Pontos_Alternativas, com 100% para o valor sim, o atributo Acima_Media_Total_Pontos_Sql, aumentou de 0,722 (72,2% de probabilidade a priori) para 0,875 (87,5% de probabilidade a posteriori) em sim. Dessa forma, se o usurio est acima da mdia de tentativas de programao SQL nos exerccios e avaliaes, e se ele est acima da mdia de pontos em questes de mltipla escolha nos exerccios e avaliaes, ento o usurio tem 15,3% de chance a mais de est acima da mdia de pontos em questes de programao Em seguida este modelo de classificao foi testado em validao cruzada (cross validation) para o atributo meta Acima_Media_Total_Pontos_Sql. O mtodo de validao cruzada 10-Fold-Cross-Validation foi utilizado a fim testar a acurcia do modelo no mesmo conjunto de dados utilizado para construir o modelo. A Figura 5.8 apresenta o resultado do teste de validao cruzada executado no Bayesware Discoverer. Nela, observa-se que a
55
acurcia foi de aproximadamente, 77,43%, ou seja, foram classificados corretamente 247 instancias, das 319.
Figura 5.7 Tabelas de Probabilidade para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nos Exerccios e Avaliaes (atributo acima_media_de_total_pontos _sql).
Figura 5.8 Resultado do Teste de Validao Cruzada Executado pelo Bayesware.
56
A Subseo 5.1.5.2 apresenta as anlises dos resultados e interpretaes da aplicao da tcnica de rvore de Deciso sobre a mesma base de dados utilizada na aplicao da Rede Bayesiana. 5.1.5.2 Anlise dos Resultados e Interpretaes da rvore de Deciso Aps a fase de Minerao de Dados, foram selecionadas sete rvores de deciso, levandose em considerao a acurcia dos modelos de classificao e a relevncia dos atributos para a anlise do desempenho dos usurios do LabSQL com relao utilizao dessa tecnologia e ao processo de ensino-aprendizado. Dentre os atributos objetivos (ou atributo meta) dos modelos de classificao selecionados, destacam-se: i. acima_media_pontos_alternativas_exercicios, visando classificar os usurios que esto, ou no, acima da mdia de pontos em questes de mltipla escolha nos exerccios; ii. acima_qtd_acessos, visando classificar os usurios que esto, ou no, acima da mdia de acessos ao ambiente; iii. acima_qtd_acessos_sql_livre, visando classificar os usurios que esto, ou no, acima da mdia de acessos ao SQL-Livre; iv. acima_media_de_tentativas_sql_avaliacao, visando classificar os usurios que esto, ou no, acima da mdia de tentativas de programao SQL nas avaliaes; v. acima_media_pontos_sql_exercicios, visando classificar os usurios que esto, ou no, acima da mdia de pontos em questes de programao SQL nos exerccios. A mdia de acurcia dos modelos de classificao selecionados foi de aproximadamente, 80,24%. A partir das rvores de deciso geradas foram extradas cerca de 80 regras, dentre as quais, foram selecionadas as mais relevantes. Um dos critrios que podem ser utilizados para medir a qualidade das regras geradas por um sistema de aprendizado a preciso. A preciso o grau de confiabilidade das regras, geralmente representada a partir da taxa de erro.
57
Para Berson e Smith (1997), o conceito de taxa de estimativa de erro pode ser obtido a partir da seguinte forma: se N exemplos so cobertos por determinado n folha e E dentre estes N so classificados de forma incorreta, ento a taxa de estimativa de erro dessa folha E/N. O valor da classe (atributo-meta), que corresponde parte ento da regra, apresentado aps o smbolo de dois-pontos (:). Por exemplo, para a regra extrada da rvore de deciso: nome_curso = sistemas_de_informacao AND nivel_dificuldade_problemasResolvidos > 1,2 : sim (20/1), tem-se dentro dos parnteses, respectivamente, que o peso das instncias classificadas no n folha acima_media_pontos_alternativas_exercicios com valor sim, ou seja, acima da mdia de pontos em questes de mltipla escolha nos exerccios, 20 e que o nmero de instncias classificadas de forma incorreta para esse n 1. A partir da frmula da estimativa de erro, a taxa de erro ser 0,05 (1/20). Dessa forma, a preciso para esta regra ser 0,95 (1 - 0,05), ou seja, aproximadamente 95% dos usurios do curso de Sistema de Informao que resolvem problemas com nvel de dificuldade em mdia de 1,2 (numa escala de 1 a 3) esto acima da mdia de pontos em questes de mltipla escolha nos exerccios. A Figura 5.9 apresenta a rvore de deciso, representada como regras de classificao, gerada para exibir quais usurios esto, ou no, acima da mdia de acessos ao ambiente LabSQL. Nela, destaca-se que em (1), aproximadamente 92,37% dos alunos que esto abaixo (no esto acima) da mdia de acessos ao SQL-livre e abaixo da mdia de problemas de programao SQL resolvidos corretamente nos exerccios, esto abaixo da mdia de acessos ao ambiente (acima_qtd_acessos_sql_livre = nao AND acima_qtd_problema_sql_exercicios = no: nao (118.0/9.0)) Alm disso, observa-se que o atributo
acima_qtd_acessos_sql_livre o mais representativo para classificao dos usurios que esto, ou no, acima da mdia de acessos ao ambiente, por ser o n raiz da rvore de deciso. A acurcia deste modelo foi de, aproximadamente, 74,92% das instancias classificadas corretamente.
58
Figura 5.9 Regras de Classificao para Anlise dos Usurios que esto, ou no, Acima da Mdia de Acessos ao Ambiente LabSQL (atributo acima_qtd_acessos).
A Figura 5.10 apresenta a rvore de deciso, representada como regras de classificao, gerada para exibir quais usurios esto, ou no, acima da mdia de acessos ao SQL-live. Nela, destaca-se que em (1), aproximadamente 88,43% dos alunos que esto abaixo da mdia de acessos ao ambiente e abaixo da mdia de problemas de programao SQL resolvidos corretamente nas avaliaes, esto abaixo da mdia de acessos ao SQL-livre (acima_qtd_acessos = nao AND acima_qtd_problema_sql_avaliacao = nao: nao (121.0/14.0)) Alm disso, observa-se que o atributo acima_qtd_acessos o mais representativo para classificao dos usurios que esto, ou no, acima da mdia de acessos ao SQL-livre, por ser o n raiz da rvore de deciso. A acurcia deste modelo foi de, aproximadamente, 71,15% das instncias classificadas corretamente.
59
Figura 5.10 Regras de Classificao para Anlise dos Usurios que esto, ou no, Acima da Mdia de Acessos ao SQL-Livre (atributo acima_qtd_acessos_sql_livre).
A Figura 5.11 apresenta a rvore de deciso gerada para exibir os usurios que esto, ou no, acima da mdia de tentativas de programao SQL nas avaliaes. Nela, destaca-se que em (1), aproximadamente, 87,06% dos usurios que esto abaixo da mdia de tentativas de programao SQL nos exerccios, esto abaixo da mdia de tentativas de programao SQL nas avaliaes ((acima_media_de_tentativas_sql_exercicios = nao: nao (201.0/26.0)). Alm disso, observa-se em (2), aproximadamente, 86,11% dos usurios que esto acima da mdia de tentativas de programao SQL nos exerccios e no trabalham em Equipe, esto acima da mdia de tentativas de programao SQL nas avaliaes
((acima_media_de_tentativas_sql_exercicios = sim AND trabalhou_em_equipe = nao: sim (108.0/15.0)) A acurcia deste modelo foi de, aproximadamente, 87,15% das instancias classificadas corretamente.
60
Figura 5.11 rvore de Deciso para Anlise dos Usurios que esto, ou no, Acima da Mdia de Tentativas de Programao SQL nas Avaliaes (atributo acima_media_de_tentativas_sql_avaliacao).
Alm dos resultados descritos anteriormente, foram feitas outras anlises de regras encontradas durante a minerao de dados utilizando-se a rvore de Deciso. Dessa forma, observa-se que 100% dos usurios que demoram menos de 30 dias para se inscrever esto acima da mdia de pontos em questes de programao SQL nos exerccios (demora_para_inscricao_turma <= 30: sim (20.0)). Portanto, os alunos mais interessados na disciplina que buscam mais cedo iniciar a utilizao da ferramenta, demonstram um desempenho maior em relao pontuao dos exerccios de programao SQL. Outro exemplo de regra encontrado foi que 100% dos usurios que esto abaixo da mdia de pontos em questes de programao SQL nos exerccios e possuem menos de 42 problemas de mltipla escolha resolvidos corretamente nas avaliaes, esto abaixo da mdia de acessos ao ambiente (acima_media_pontos_sql_exercicios = nao AND
qtd_problemas_alternativas_avaliacao <= 42: nao (91.0)). Portanto deve-se incentivar cada vez mais o acesso dos alunos no sistema. Dessa forma, a partir da anlise das regras de classificao encontradas possvel verificar padres referentes ao processo de aprendizado relacionado ao comportamento dos alunos que podem ser aproveitados pelos gestores do domnio da aplicao.
61
5.2 ANLISE COMPARATIVA ENTRE UM MODELO DE CLASSIFICAO DE RVORE DE DECISO E UM DE REDE BAYESIANA Aps a aplicao do processo de KDD, resolveu-se comparar dois modelos de classificao, um de Rede Bayesiana e outro de rvore de Deciso, com o objetivo de saber se eles diferem ou no em relao proporo de acertos nas predies das classes correspondentes aos valores do atributo Acima_media_Pontos_SQL_Avaliao, que determina se o usurios est, ou no, acima da mdia de pontos em questes de programao SQL nas avaliaes. Os Modelos de classificao comparados so: i. A Rede Bayesiana (RB)
A Figura 5.12 apresenta a rede bayesiana para anlise dos usurios que esto, ou no, acima da mdia de pontos em questes de programao SQL nas avaliaes. Nela, observa-se que o atributo meta Acima_Media_Pontos_Sql_Avalacao (1) tem dependncia direta dos atributos Acima_Media_Pontos_Sql_Exercicios (2) e Trabalhou_Em_Equipe (3).
Figura 5.12 Rede Bayesiana para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nas Avaliaes (Atributo Acima_media_Pontos_SQL_Avaliao).
62
ii.
A rvore de Deciso (AD)
A Figura 5.13 apresenta a rvore de Deciso na forma de Regras de Classificao para anlise dos usurios que esto, ou no, acima da mdia de pontos em questes de programao SQL nas avaliaes. Nela, observa-se que o atributo
acima_media_pontos_sql_exercicios, identificado por (1) e (2), o mais representativo para classificao dos usurios que esto, ou no, acima da mdia de pontos em questes de programao SQL nas avaliaes, por ser o n raiz da rvore de deciso.
Figura 5.13 rvore de Deciso na forma de Regras de Classificao para Anlise dos Usurios que esto, ou no, Acima da Mdia de Pontos em Questes de Programao SQL nas Avaliaes (Atributo Acima_media_Pontos_SQL_Avaliao).
Ambos os classificadores foram testados utilizando-se o mtodo de validao cruzada 10Fold-Cross-Validation para obteno da proporo de acertos (acurcia) dos referidos classificadores. Para realizar a referida comparao foi utilizado o Teste de Hiptese de Proporo descrito no Anexo A. Neste caso, o pesquisador observa as propores em dois grupos distintos e as compara com o objetivo de saber se os grupos diferem ou no em relao resposta de interesse, sendo que, neste caso, o nmero de observaes o mesmo nas duas amostras.
63
Dado o Teste de Hiptese: H0: p1 - p2 = 0 H1: p1 - p2 0 (O modelo de RB (p1) igual ao modelo de AD (p2)) (O modelo de RB (p1) difere do modelo de AD (p2))
A Tabela 5.1 apresenta os resultados do teste para a diferena de duas propores, ao nvel de significncia = 5%. A partir dela, pode-se verificar que o valor de p 0,904, maior que = 0,05, ou seja, no h evidncias para rejeitar a hiptese nula (H0: p1 - p2 = 0). Dessa maneira, a proporo de acertos no teste de redes bayesiana no diferente da proporo de acertos do teste de rvore de deciso.
Tabela 5.1 Resultados do Teste para a Diferena de Duas Propores, ao nvel de significncia = 0,05 ou 5%.
Modelos (RB) (AD)
Acertos 279 280
Total 319 319
% Acertos 87,46 87,77
p 0,904
RB Modelo de Rede Bayesiana; AD Modelo de rvore de Deciso.
64
6. CONCLUSO
Neste capitulo so mostradas as consideraes finais a respeito do trabalho desenvolvido, bem como, so apresentadas propostas para trabalhos futuros nessa rea.
6.1. CONSIDERAES FINAIS A avaliao e o entendimento do processo de ensino-aprendizado um tpico de pesquisa importante devido ao crescente nmero de ambientes virtuais de aprendizagem disponveis, como o LabSQL. Neste estudo, as tcnicas de Minerao de Dados mostraram-se eficientes para analisar o comportamento dos estudantes e professores em um curso oferecido a partir de um ambiente virtual de aprendizagem, como observado nos resultados obtidos. Com as Redes Bayesianas permitiram-se contabilizar relaes de dependncia entre as aes envolvidas no processo de aprendizagem e o desempenho obtido pelos alunos. E a partir rvores de deciso permitiu-se perceber padres referentes ao processo de aprendizado relacionado ao comportamento dos alunos, levando em considerao as regras que so mais relevantes, alm de serem compreensveis para a maioria das pessoas. Alm disso, as tcnicas rvores de Deciso e Redes Bayesianas demonstraram-se equivalentes em relao proporo de acertos nos testes realizados, de modo que, ambos os modelos podem ser utilizados para discriminar o perfil dos estudantes e professores que utilizam o ambiente LabSQL. Assim, a partir da combinao das tecnologias de Minerao de Dados com ambientes de EaD, possvel analisar e obter concluses sobre as aes praticadas pelos usurios em relao ao seu desempenho e aprendizado, beneficiando os envolvidos com a utilizao e evoluo de ambientes virtuais de aprendizagem. Dessa forma, dentre outros resultados, nota-se que os usurios que se inscrevem mais tarde no ambiente demonstram deficincias na utilizao dos recursos do ambiente LabSQL, uma vez que, proporcionalmente, obtiveram uma menor pontuao na resoluo das atividades do ambiente LabSQL e conseqentemente um desempenho inferior aos demais.
65
Alm disso, observa-se que determinados coordenadores de turma promovem uma maior utilizao do ambiente em relao quantidade de acessos dos alunos do que outros coordenadores. Ainda possvel perceber diferenas de atitudes dos coordenadores em relao utilizao dos recursos do ambiente durante o processo de aprendizado, como o nvel de dificuldade dos trabalhos oferecidos aos alunos e a opo de organizar trabalho em equipe.
6.2. TRABALHOS FUTUROS Como sugesto para trabalhos futuros, pode-se citar: i. A integrao das tcnicas de Minerao de Dados avaliadas neste trabalho no ambiente LabSQL, a fim de obter os resultados da aplicao dessas tcnicas de forma automtica a partir do ambiente. ii. Construir um data warehouse, um repositrio de dados, com os dados do ambiente LabSQL, a fim de ser utilizado para armazenar informaes relativas aos atributos presentes no banco de dados que expressem o comportamento dos usurios, favorecendo a aplicao das tcnicas de descoberta de conhecimento em base de dados. iii. Aplicao de outras tcnicas de Minerao de Dados, como Regras de Associao, Redes Neurais e Clusterizao, sobre a base de dados do ambiente LabSQL.
66
REFERNCIAS
RVORE DE DECISO. Disponvel em: <http://www.maxwell.lambda.ele.pucrio.br/cgi-bin/PRG_0599.EXE/3710_4.PDF?NrOcoSis=6894&CdLinPrg=pt>. Acesso em: 10 dez. 2007. ATTRIBUTE-RELATION File Format (ARFF). Disponvel <http://www.cs.waikato.ac.nz/~ml/weka/arff.html>. Acesso em: 02 nov. 2008. em:
BATISTA, G. E. A. P. A. Pr-Processamento de Dados em Aprendizado de Mquina Supervisionado. 2003. 232 f. Tese (Doutorado em Cincias de Computao e Matemtica Computacional) Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, So Carlos, 2003. Disponvel em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003-160219/>. Acesso em: 02 nov. 2008. BAYESWARE. Bayesware Discoverer: User Manual. 2000. 113 p. BAYESWARE Limited. Bayesware Discoverer, <http://www.bayesware.com>. Acesso em: 10 dez. 2008. Disponvel em:
BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques for marketing, sales, and customer support. United States: Wiley Computer Publishing, 1997. BERSON, A.; SMITH, S.J., Data Warehousing, Data Mining and OLAP. EUA. Mac-Graw-Hill. 1997. BUSSAB, W. O., MORETIN, P. A. Estatstica Bsica. 4. ed. So Paulo: Atual, 1987. CARVALHO, D. R. Data Minig atravs de Introduo de Regras e Algoritmos Genticos, 1999. f Dissertao (Mestrado em Informtica Aplicada) - Pontifcia Universidade Catlica do Paran - PUCPR, Curitiba, 1999. CARVALHO, L. A. V. Datamining: a minerao de dados no marketing, medicina, economia, engenharia e administrao. So Paulo: rica, 2001. COOLEY, R.; MOBASHER, B; SRIVASTAVA, J. Data Preparation for Mining World Wide Web Browsing Patterns. Journal of Knowledge and Information Systems, (1) 1, 1999. DIAS, M. M.; SILVA FILHO, L. A.; LINO, A. D. P.; FAVERO, E. L.; RAMOS, E. M. L. S.. Aplicao de Tcnicas de Minerao de Dados no Processo de
67
Aprendizagem na Educao a Distncia. In: SIMPSIO BRASILEIRO DE INFORMTICA NA EDUCAO (SBIE 2008), 19, 2008, Fortaleza - CE. Anais. Porto Alegre - RS: Sociedade Brasileira de Computao, 2008. p. 105-114. DIAS, M. M.; SILVA FILHO, L. A. Acompanhamento do Aprendizado na Educao a Distncia a partir da Aplicao de Tcnicas de Minerao de Dados. In: CONGRESSO NACIONAL DE MATEMTICA APLICADA E COMPUTACIONAL, 31, 2008, Belm. DILLY, R. Data Mining Student Notes, v. 2.0. Queens University of Belfast Parallel Computer Centre. 1995. Disponvel em: < http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html>. Acesso em: 19 dez. 2008. ESCOVAR, E. L. G. Algoritmo SSDM para a minerao de dados semanticamente similares. 2004. 87 f. Dissertao (Mestrado em Cincia da Computao) Centro de Cincias Exatas e de Tecnologia, Universidade Federal de So Carlos, So Carlos, 2004. FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: An overview. In: Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, MIT, Cambridge, Massachusetts, and London, England, 1996, p.1-34. FAYYAD, U. M. Multi-interval discretization of continuous valued atributes for classification learning. In: INT. JOINT CONF., 13, 1993, Alemanha. GNU - The GNU General Public License - GNU Project - Free Software Foundation (FSF). Disponvel em: <http://www.gnu.org/copyleft/gpl.html>. Acesso em: 06 nov. 2008. GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowledge discovery software tools. ACM SIGKDD, San Diego, v. 1, n. 1, p. 20-33, 1999. GOLDSCHMIDT, R. R. ; PASSOS, E. P. L. Data Mining: Um Guia Prtico Conceitos, Tcnicas, Ferramentas, Orientaes e Aplicaes. Rio de Janeiro: Editora Campus, 2005. v. 1. 250 p. KOCK JR., N. F.; MCQUEEN, R. J.; BAKER, M. Learning and process improvement in knowledge organisations: A critical analysis of four contemporary myths. The Learning Organization, 1996. p. 3140. LINO, A. D. P.; SILVA, A. S.; FAVERO, E. L.; BRITO, S. R.; HARB, M. P. A. A. Avaliao automtica de consultas SQL em ambiente virtual de ensino-
68
aprendizagem. In: CONFERNCIA IBRICA DE SISTEMAS E TECNOLOGIAS DE INFORMAO, 2, 2007, Porto. LINO, A. P. LabSQL: Laboratrio de Ensino de SQL. 2007. 74 f. Dissertao (Mestrado em Engenharia Eltrica) - Programa de Ps-Graduao em Engenharia Eltrica, Universidade Federal do Par, Belm, 2007. LOLLINI, P. Didtica e computadores: quando e como a informtica na escola. So Paulo: Loyola, 1991. LOPES, C. C; SCHIEL, U. Uma Estratgia para Aplicar Minerao de Dados no Acompanhamento do Aprendizado na EaD. Seminrio de Computao, 13, Blumenau, 2004. LUNA, J. E. O. Algoritmos EM para Aprendizagem de Redes Bayesianas a partir de Dados Incompletos. 2004. 120 f. Dissertao (Mestrado em Cincia da Computao) - Departamento de Computao e Estatstica, Universidade Federal de Mato Grosso do Sul - UFMS, Campo Grande, 2004. Disponvel em: <http://www.dct.ufms.br/~mzanusso/producao/EM_BayeNetwork.pdf>. Acesso em: 15 dez. 2008. MACHADO, L. S.; BECKER, K. O Uso da Minerao de Dados na Web Aplicado a um Ambiente de Ensino a Distncia. In: WORKSHOP DE TESES E DISSERTAES EM BANCO DE DADOS, 1. SIMPSIO BRASILEIRO DE BANCO DE DADOS, 19, 2002, Gramado. MARTINHAGO, S. Descoberta de Conhecimento sobre o Processo Seletivo da UFPR. Dissertao (Mestrado em Mtodos Numricos em Engenharia) Universidade Federal do Paran, Curitiba. 2005. MARTINS, J. G.; CAMPESTRINI, B. B. Ambiente virtual de aprendizagem favorecendo o processo ensino-aprendizagem em disciplinas na modalidade de educao a distncia no ensino superior. Universidade do Vale do Itaja, 2004. Disponvel em: <http://www.abed.org.br/congresso2004/por/htm/072-TC-C2.htm>. Acesso em: 10 dez. 2008. MIZZARO, S. Relevance: The Whole History. Journal of the American Society for Information Science, New York: John Wiley & Sons. v.48, n.9, p.810-832. 1997. MOODLE - A free, open source course management system for online learning. Disponvel em: <http://moodle.org>. Acesso em: 06 nov .2008. OEIRAS, J. Y. Y. Design de ferramentas de comunicao para colaborao em ambientes de educao a distncia. 2005. 174 f. Tese (Doutor em Cincia da
69
Computao) - Instituto de Computao, Universidade Estadual de Campinas, Campinas, 2005. OVERVIEW DATA MINING: Curso de Inteligncia Tecnolgica - IME, Rio de Janeiro, 2005. 6 p. QUILAN, J. R. Introduction of decision trees, Machine Learning, vol. 1 , pp.81106, 1986. REFAAT, M. Data Preparation for Data Mining Usisg SAS. So Francisco: Elsevier, 2007. REZENDE, S. O.; PUGLIESI, J. B.; MELANDA, E. A.; PAULA, M. F. Minerao de dados. In S. O. Rezende (Ed.), Sistemas Inteligentes Fundamentos e Aplicaes, Editora Manole, 2003. ROCHA, H. V.; SILVA, C. G.; FREIRE, F. M. P. et al. Projeto TelEduc: Pesquisa e Desenvolvimento de Tecnologia para Educao a Distncia. Trabalho vencedor da 1 colocao no Prmio ABED 2002 (categoria pesquisa). 2002. RUSSEL, S. J.; NORVIG, P. Artificial Intelligence: A Modern Approach. Upper Saddle River, New Jersey: Prentice Hall, 1995. RUSSELL, S. J.; NORVIG, P. Inteligncia Artificial, 2 Edio, Rio de Janeiro: Editora Elsevier, 2004. SOUZA, E. P. Avaliao Formativa em Educao a Distncia via Web. In: CONGRESSO INTERNACIONAL DE EDUCAO A DISTNCIA, 13, Curitiba, 2007. WANG, L.; MEINEL, C. Detecting the Changes of Web Students' Learning Interest. IEEE/WIC/ACM WI, 6, 2007, Silicon Valley. Proceedings Silicon Valley: IEEE Press, 2007, pp. 816 - 819. WEKA. . Data Mining Software in Java. Disponvel <http://www.cs.waikato.ac.nz/ml/weka>. 2008. Acesso: 10 dez. 2008. em
WIVES, L. K. Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informaes no Estruturadas Usando Tcnicas de "Clustering". Porto Alegre, 1998. 102p. Dissertao (Mestrado em Cincia da Computao) PPGC, UFRGS, 1998.
70
ZAIANE, O.; LUO, J. Towards Evaluating Learners Behaviour in a Web-Based Distance Learning Environment. In: INTERNATIONAL CONFERENCE ON ADVANCED LEARNING TECHNOLOGIES, Madison , 2001.
71
APNDICE A DESCRIO COMPLETA DOS 59 ATRIBUTOS TRABALHADOS
Classificao Nome do atributo 1 - AP 2 - AP 3 - AP 4 - AP 5 - AP 6 AP
Descrio
6.1 - AD
7 AP
7.1 AD
8 AP
Sexo do usurio (masculino ou sexo_usuario feminino) Cdigo do curso (Cincia da nome_curso Computao, Sistema de Informao ou Especializao em Banco de Dados) Cdigo do tipo de curso (graduao ou nome_tipo_curso especializao) cod_turma Cdigo da turma (11 valores) Cdigo do coordenador da turma (2 cod_usuar_coord_turma valores) Mdia de pontos em questes de media_pontos_alternativas_avaliacao mltipla escolha nas avaliaes (valor continuo) Ficou acima da mdia de pontos em acima_media_pontos_alternativas_avaliacao questes de mltipla escolha nas avaliaes (sim ou no) Mdia de pontos em questes de media_pontos_alternativas_exercicios mltipla escolha nos exerccios (valor continuo) Ficou acima da mdia de pontos em acima_media_pontos_alternativas_exercicios questes de mltipla escolha nos exerccios (sim ou no) Mdia de pontos em questes de media_total_pontos_alternativas mltipla escolha nos exerccios e avaliaes (valor continuo) acima_media_total_pontos_alternativas Ficou acima da mdia de pontos em questes de mltipla escolha nos exerccios e avaliaes (sim ou no) Quantidade de problemas de mltipla escolha resolvidos corretamente nas avaliaes (valor continuo)
8.1 AD
9 AP
qtd_problemas_alternativas_avaliacao
72
9.1 AD
10 AP
10.1 AD
Ficou acima da mdia de problemas de mltipla escolha resolvidos acima_qtd_problemas_alternativas_avaliacao corretamente nas avaliaes (sim ou no) Quantidade de problemas de mltipla qtd_problemas_alternativas_exercicios escolha resolvidos corretamente nos exerccios (valor continuo) Ficou acima da mdia de problemas de mltipla escolha resolvidos acima_qtd_problemas_alternativas_exercicios corretamente nos exerccios (sim ou no) qtd_total_problemas_alternativas Quantidade de problemas de mltipla escolha resolvidos corretamente nos exerccios e avaliaes (valor continuo)
11 AP
11.1 AD
12 AP
12.1 AD
13 AP
13.1 AD
14 AP
14.1 AD
15 AP
15.1 AD
16 AP
16.1 AD
Ficou acima da mdia de problemas de mltipla escolha resolvidos acima_qtd_total_problemas_alternativas corretamente nos exerccios e avaliaes (sim ou no) Mdia de pontos em questes media_pontos_discursivas_avaliacao discursivas nas avaliaes (valor continuo) Ficou acima da mdia de pontos em acima_media_pontos_discursivas_avaliacao questes discursivas nas avaliaes (sim ou no) Mdia de pontos em questes media_pontos_discursivas_exercicios discursivas nos exerccios (valor continuo) Ficou acima da mdia de pontos em acima_media_pontos_discursivas_exercicios questes discursivas nos exerccios (sim ou no) Mdia de pontos em questes discursivas nos exerccios e avaliaes media_total_pontos_discursivas (valor continuo) Ficou acima da mdia de pontos em acima_media_total_pontos_discursivas questes discursivas nos exerccios e avaliaes (sim ou no) Quantidade de problemas discursivos qtd_problemas_discursivas_avaliacao resolvidos corretamente nas avaliaes (valor continuo) Ficou acima da mdia de problemas acima_qtd_problemas_discursivas_avaliacao discursivos resolvidos corretamente nas avaliaes (sim ou no) Quantidade de problemas discursivos qtd_problemas_discursivas_exercicios resolvidos corretamente nos exerccios (valor continuo) Ficou acima da mdia de problemas acima_qtd_problemas_discursivas_exercicios discursos resolvidos corretamente nos exerccios (sim ou no)
73
17 AP
qtd_total_problemas_discursivas
Quantidade de problemas discursivos resolvidos corretamente nos exerccios e avaliaes (valor continuo) Ficou acima da mdia de problemas discursivas resolvidos corretamente nos exerccios e avaliaes (sim ou no) Mdia de pontos de programao SQL nas avaliaes (valor continuo) Ficou acima da mdia de pontos em questes de programao SQL nas avaliaes (sim ou no) Mdia de pontos de programao SQL nos exerccios (valor continuo) Ficou acima da mdia de pontos em questes de programao SQL nos exerccios (sim ou no) Mdia de pontos de programao SQL nos exerccios e avaliaes (valor continuo) Ficou acima da mdia de pontos em questes de programao SQL nos exerccios e avaliaes (sim ou no) Mdia de tentativas de programao SQL nas avaliaes (valor continuo) Ficou acima da mdia de tentativas de programao SQL nas avaliaes (sim ou no) Mdia de tentativas de programao SQL nos exerccios (valor continuo) Ficou acima da mdia de tentativas de programao SQL nos exerccios (sim ou no) Mdia de tentativas de programao SQL nos exerccios e avaliaes (valor continuo) Ficou acima da mdia de tentativas de programao SQL nos exerccios e avaliaes (sim ou no) Quantidade de problemas de programao SQL respondidos corretamente nas avaliaes (valor continuo) Ficou acima da mdia de problemas de programao SQL resolvidos corretamente nas avaliaes (sim ou no)
17.1 AD
acima_qtd_total_problemas_discursivas
18 AP 18.1 AD 19 AP 19.1 AD
media_pontos_sql_avaliacao acima_media_pontos_sql_avaliacao media_pontos_sql_exercicios acima_media_pontos_sql_exercicios
20 AP
media_total_pontos_sql
20.1 AD
acima_media_total_pontos_sql
21 AP 21.1 AD 22 AP 22.1 AD
media_de_tentativas_sql_avaliacao acima_media_de_tentativas_sql_avaliacao media_de_tentativas_sql_exercicios acima_media_de_tentativas_sql_exercicios
23 AP
media_total_de_tentativas_sql
23.1 AD
acima_media_total_de_tentativas_sql
24 AP
qtd_problema_sql_avaliacao
24.1 AD
acima_qtd_problema_sql_avaliacao
74
25 AP
qtd_problema_sql_exercicios
25.1 AD
acima_qtd_problema_sql_exercicios
26 AP
qtd_total_problema_sql
26.1 AD 27 AP 28 AP 29 AP 29.1 AD 30 AP 30.1 AD 31 AP 31.1 AD 32 AP 32.1 - AD 33 AP
acima_qtd_total_problema_sql trabalhou_em_equipe usou_agenda qtd_acessos acima_qtd_acessos qtd_acessos_material_de_apoio acima_qtd_acessos_material_de_apoio qtd_acessos_sql_livre acima_qtd_acessos_sql_livre qtd_acoes acima_qtd_acoes nivel_dificuldade_problemasResolvidos
Quantidade de problemas de programao SQL respondidos corretamente nos exerccios (valor continuo) Ficou acima da mdia de problemas de programao SQL resolvidos corretamente nos exerccios (sim ou no) Quantidade de problemas de programao SQL respondidos corretamente nos exerccios e avaliaes (valor continuo) Ficou acima da mdia de problemas de programao SQL resolvidos corretamente nos exerccios e avaliaes (sim ou no) Trabalhou em equipe (sim ou no) Usou agenda de anotaes do sistema (sim ou no) Quantidade de acessos (valor continuo) Ficou acima da mdia de acessos ao ambiente (sim ou no) Quantidade de acessos ao material de apoio (valor continuo) Ficou acima da mdia de acessos ao material de apoio disponvel no ambiente (sim ou no) Quantidade de acessos ao SQL-livre (valor continuo) Ficou acima da mdia de acessos ao SQL-livre (sim ou no) Quantidade de aes executadas pelo usurio no LabSQL (valor continuo) Ficou acima da mdia do total de aes executadas no ambiente (sim ou no) Mdia do nvel de dificuldades dos problemas resolvidos corretamente (valor continuo) O tempo que o usurio levou para se inscrever na turma aps o incio de inscrio (em dias)
34 AP
demora _para_inscricao_turma
AP Atributo Primrio obtido durante a fase de Seleo dos Dados; AD Atributo Derivado obtido a partir de um Atributo Primrio durante a fase de Transformao dos Dados. Nota: Para os Atributos Derivados, o valor de mdia que serve de referencia para avaliar o desempenho do aluno (acima ou abaixo) corresponde ao valor da mdia da turma do respectivo aluno.
75
APNDICE B ANLISE DESCRITIVA DOS DADOS COLETADOS NO LABSQL
B.1. GNERO DO USURIO A Tabela B.1.1 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por gnero. Nela, verifica-se que a maioria dos usurios do gnero masculino, com 80,25% dos usurios. A Figura B.1.1 apresenta graficamente este percentual.
Tabela B.1.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Gnero. Gnero Feminino Masculino Total Quantidade 63 256 319 Percentual 19,75 80,25 100,00
19,75% Feminino
80,25% Masculino
Figura B.1.1 Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Gnero.
76
B.2. CURSO A Tabela B.2.1 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por tipo de curso. Nela, verifica-se que a maioria dos usurios da graduao, com 56,43% e 43,57% so da especializao, dentre os que fazem graduao 58,89% fazem sistema de informao e 41,11% fazem cincia da computao. Observa-se tambm que, 100,00% dos que fazem especializao fazem especializao em banco de dados.
Tabela B.2.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Curso. Total Qtd 74 139 106 319 % 23,20 43,57 33,23 100,00
Curso Cincia da Computao Especializao em Bancos de Dados Sistemas de Informao Total
77
B.3. IDENTIFICAO DA TURMA A Tabela B.3.1 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por identificao da turma. Nela, verifica-se que a maior parte dos usurios da turma 7, com 11,59%, seguido da turma 5, com 11,29% dos usurios.
Tabela B.3.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. Turma 1 2 3 4 5 6 7 8 9 10 11 Total Quantidade 32 25 33 34 36 25 37 11 17 34 35 319 % 10,03 7,84 10,34 10,66 11,29 7,84 11,59 3,45 5,33 10,66 10,97 100,00
78
B.4. ACESSO AO AMBIENTE LABSQL A Tabela B.4.1 apresenta a mdia de acesso dos usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por identificao da turma. Nela, verificase que os usurios da turma 6 realizaram em mdia 74 acessos, seguido da turma 3 e 7 que realizaram em mdia 65 e 46 acessos, respectivamente.
Tabela B.4.1 Mdia de Acesso dos Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. Turma 1 2 3 4 5 6 7 8 9 10 11
Mdia
43 22 65 42 39 74 46 9 39 36 36
B.5. ACESSO AO SQL-LIVRE A Tabela B.5.1 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por acesso ao SQL-livre. Nela, observa-se que a maioria dos usurios acessou ao SQL-livre, com 96,24% dos usurios. A Figura B.5.1 apresenta graficamente estes percentuais.
Tabela B.5.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL-Livre. Acesso ao SQL-livre Sim No Total Quantidade 307 12 319 % 96,24 3,76 100,00
79
3,76% No
96,24% Sim
Figura B.5.1 Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL Livre.
A Tabela B.5.2 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por acesso ao SQL-livre e identificao da turma. Nela, verifica-se que, a maioria dos usurios que acessaram ao SQLlivre so da turma 5 e 11, ambos com 14,64% dos usurios, seguidos dos usurios da turma 10, com 13,81%. A Figura B.5.2 apresenta graficamente estes percentuais.
Tabela B.5.2 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL-Livre e Identificao da Turma. Turma 1 2 3 4 5 6 7 8 9 10 11 Total Quantidade 32 21 32 32 35 25 37 9 16 33 35 307 % 13,39 8,79 13,39 13,39 14,64 10,46 12,07 3,77 6,69 13,81 14,64 100,00
80
16,00 14,00 12,00

13,39 13,39 13,39
14,64 13,81 12,07
14,64
Percentual
10,46 8,79 6,69
10,00 8,00 6,00 4,00 2,00 0,00 1
3,77
10
11
Turma
Figura B.5.2 Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao SQL-Livre e Identificao da Turma.
A Tabela B.5.3 apresenta a quantidade e o percentual de acessos ao SQL-livre pelos usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por identificao da turma. Nela, verifica-se que o maior percentual de acessos da turma 4, com 18,46%, seguido da turma 10 com 17,45% dos acessos. A Figura B.5.3 apresenta graficamente estes percentuais.
Tabela B.5.3 Quantidade e Percentual de Acessos ao SQL-livre pelos Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. Turma 1 2 3 4 5 6 7 8 9 10 11 Total Quantidade 875 220 623 984 621 830 777 90 310 1245 557 5330 % 16,42 4,13 11,69 18,46 11,65 15,57 14,58 1,69 5,82 17,45 10,45 100,00
81
20,00 18,00 16,00

16,42
18,46 17,45 15,57 14,58
Percentual
14,00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 1 2 3 4 5 6 7 8 9 10 11

1,69 5,82 4,13 11,69 11,65 10,45
Turma
Figura B.5.3 Percentual de Acessos ao SQL-Livre pelos Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma.
B.6. ACESSO AO MATERIAL DE APOIO A Tabela B.6.1 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por acesso ao material de apoio. Nela, observa-se que a maioria dos usurios acessou ao material de apoio, com 76,18% dos usurios. A Figura B.6.1 apresenta graficamente estes percentuais.
Tabela B.6.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio. Acesso ao Material de Apoio Sim No Total Quantidade 243 76 319 % 76,18 23,82 100,00
82
23,82% No
76,18% Sim
Figura B.6.1 Quantidade e Percentual de Usurios que Utilizaram o LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio.
A Tabela B.6.2 apresenta a quantidade e o percentual de usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por acesso ao material de apoio e identificao da turma. Nela, verifica-se que, a maioria dos usurios que acessaram ao material de apoio so da turma 5 e 10, ambos com 13,99% dos usurios, seguidos dos usurios da turma 7 e 11, com 13,57% e 13,17% dos usurios. A Figura B.6.2 apresenta graficamente estes percentuais.
Tabela B.6.2 Quantidade e Percentual de Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio e Identificao da Turma. Turma 1 2 3 4 5 6 7 8 9 10 11 Total Quantidade 24 6 10 29 34 17 33 10 14 34 32 243 % 9,88 2,47 4,12 11,93 13,99 7,00 13,57 4,12 5,76 13,99 13,17 100,00
83
16,00 14,00 12,00

11,93 9,88 13,99 13,57 13,99 13,17
Percentual
10,00 8,00 6,00
7,00 5,76 4,12 4,12
4,00 2,00 0,00 1
2,47
10
11
Turma
Figura B.6.2 Percentual de Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Acesso ao Material de Apoio e Identificao da Turma.
A Tabela B.6.3 apresenta a quantidade e o percentual de acessos ao material de apoio pelos usurios que utilizaram o Ambiente LabSQL, no ano de 2007 e no 1 semestre de 2008, por identificao da turma. Nela, verifica-se que o maior percentual de acessos so turma 10, com 37,30%, seguido da turma 4 com 25,32% dos acessos. A Figura B.6.3 apresenta graficamente estes percentuais.
Tabela B.6.3 Quantidade e Percentual de Acessos ao Material de Apoio pelos Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma. Turma 1 2 3 4 5 6 7 8 9 10 11 Total Quantidade 132 7 45 279 214 48 253 30 94 411 133 1102 % 11,98 0,64 4,08 25,32 19,42 4,36 22,96 2,72 8,53 37,30 12,07 100,00
84
40,00 35,00 30,00
37,30
Percentual
25,32
25,00 20,00 15,00 10,00 5,00

0,64 4,08 4,36 11,98 19,42
22,96
12,07 8,53 2,72
0,00 1 2 3 4 5 6 7 8 9 10 11
Turma
Figura B.6.3 Percentual de Acessos ao Material de Apoio pelos Usurios que Utilizaram o Ambiente LabSQL, no Ano de 2007 e no 1 Semestre de 2008, por Identificao da Turma.
85
APNDICE C MINERAO DE DADOS: PASSO A PASSO NA FERRAMENTA BAYESWARE DISCOVERER
Nesta Seo, so mostradas as etapas realizadas neste estudo de caso na ferramenta Bayesware Discoverer para a gerao dos resultados. Inicialmente, carrega-se o arquivo labsql.txt (no formato separado por tabulao) a partir da opo Load database no menu Data, localizado na barra de menu do Bayesware Discoverer, sendo mostrada a tela como observado na Figura C.1.
Figura C.1 Tela Inicial do Bayesware Discoverer.
A Figura C.2 mostra a janela do Bayesware Discoverer com o banco de dados carregado. A partir dela, pode-se observar: 1. O cone Generate para inicializar a gerao da Rede Bayesiana. 2. A Lista de descrio dos atributos que so utilizados para a construo da Rede Bayesiana.
86
3. A Visualizao de todos os atributos do banco de dados carregado no Bayesware Discoverer que so utilizados para a construo da Rede Bayesiana.
Figura C.2 Visualizao do Banco de Dados Carregado no Bayesware Discoverer.
Antes de gerar a Rede Bayesiana, pode-se realizar, opcionalmente, a discretizao de atributos contnuos. A Figura C.3 mostra a opo que o Bayesware Discoverer disponibiliza para a discretizao automtica de atributos contnuos. Os parmetros de discretizao podem ser modificados.
87
Figura C.3 Opo para Discretizao de Atributos Contnuos.
Em seguida, pressiona-se o cone Generate para a construo da Rede Bayesiana. A Figura C.4 mostra a Rede Bayesiana gerada. Pode-se visualizar, ainda, a tabela de probabilidade de cada um dos atributos da rede bayesiana gerada.
88
Figura C.4 Rede Bayesiana Gerada no Bayesware Discoverer.
89
APNDICE D MINERAO DE DADOS: PASSO A PASSO NA FERRAMENTA WEKA
Nesta Seo, so mostradas as etapas realizadas neste estudo de caso na ferramenta WEKA para a gerao dos resultados. Inicialmente, carrega-se o arquivo labsql.ARFF a partir do modo Explorer, que a principal interface do WEKA para a minerao de dados, sendo mostrada a tela como observado na Figura D.1.
Figura D.1 Tela do Modo Explorer no WEKA.
90
A partir da Figura D.1 pode-se observar: 1. As tarefas de MD disponveis: classificao, Clusterizao e associao. 2. O nmero de instncias de cada atributo presente na base de dados. 3. A quantidade de registros (instncias) trabalhados. 4. A quantidade de atributos presentes na base de dados. 5. A listagem de todos os atributos presentes na base de dados. 6. Um histograma com informaes sobre a distribuio dos exemplos para o atributo selecionado. Aps carregar o arquivo, selecionou-se a aba Classify (classificao), tela onde realizada a escolha do algoritmo de classificao desejado. Conforme citado anteriormente, utilizou-se o algoritmo J48 que gera rvore de deciso. Pode-se ver a partir da Figura D.2 que o WEKA possui outros diversos algoritmos de classificao.
Figura D.2 Algoritmos Disponveis no WEKA.
Para a execuo deste algoritmo, alguns parmetros podem ser configurados, conforme observado na Figura D.3. Pode-se perceber que a partir desta ferramenta possvel a escolha
91
do mtodo de validao que se deseja aplicar. Neste caso, foi escolhido o Cross-validation (validao cruzada) (1), onde os dados de treinamento so misturados e reamostrados para classificao com a rvore criada, a experincia repetida 10 vezes.
Figura D.3 Execuo do Algoritmo J48 no WEKA
Pode-se selecionar ainda o atributo meta escolhido (2), neste caso, selecionou-se o atributo cod_usuar_coord_turma. Aps a execuo do algoritmo, so exibidas as regras de classificao geradas a partir dos parmetros selecionados (3).
92
ANEXO A METODOLOGIA PARA O TESTE DE HIPTESES PARA PROPORES
Definio: uma regra de deciso utilizada para aceitar ou rejeitar uma hiptese estatstica com base em elementos amostrais. Nesse teste, os dados se apresentam na forma de porcentagem (ou proporo) de elementos com uma determinada caracterstica, que ser testada em relao porcentagem alegada para a populao (BUSSAB e MORETIN, 1987). Neste trabalho, as propores so as porcentagens de predies corretas feitas pelos modelos de classificao.
Hiptese Nula -> H0: p = p0 Hiptese Alternativa -> H1: p p0
onde: p a proporo para a primeira populao e p0 a proporo para a segunda populao. Teste estatstico: A Equao A.1 ser utilizada para o clculo do teste estatstico, Z.
Z=
( P1 P2 ) d 0 P1 (1 P1 ) P2 (1 P2 ) + n1 n2
(A.1)
onde d 0 = diferena das hipteses; P1 e P2 = estimativas para as propores populacionais;
n1 e n2 = nmero de tentativas.

Descoberta de Conhecimento em Banco de Dados

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Descoberta de Conhecimento em Banco de Dados

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDADE FEDERAL DO PAR INSTITUTO DE CINCIAS EXATAS E NATURAIS FACULDADE DE COMPUTAO CURSO DE BACHARELADO EM CINCIA DA COMPUTAO

DANIEL DIAS DE CARVALHO MAXWEL MACEDO DIAS

DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM: UM ESTUDO DE CASO NO LABSQL

DANIEL DIAS DE CARVALHO MAXWEL MACEDO DIAS

DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM: UM ESTUDO DE CASO NO LABSQL

Orientador: Professor Dr. Eloi Luiz Favero

DANIEL DIAS DE CARVALHO MAXWEL MACEDO DIAS

DESCOBERTA DE CONHECIMENTO EM AMBIENTES VIRTUAIS DE APRENDIZAGEM: UM ESTUDO DE CASO NO LABSQL

Banca Examinadora Prof. Dr. Eloi Luiz Favero

Prof. Dr. Antnio Morais da Silveira

Prof. Dr. Edson Marcos Leal Soares Ramos

Maxwel Macedo Dias

1.5. Procedimentos Metodolgicos e Tcnicas ............................................................................5 1.6. Organizao do Trabalho ......................................................................................................5

EDUCAO A DISTNCIA .................................................................................. 7

DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS .................... 17

MINERAO DE DADOS ................................................................................... 23

4.2. Tarefa de Classificao .......................................................................................................25

4.3. Ferramentas de Minerao de Dados ..................................................................................37

ESTUDO DE CASO: MINERAO DO LABSQL ........................................... 45

5.1.4.1 Aplicao de Redes Bayesianas .......................................................................................... 49 5.1.4.2 Aplicao de rvore de Deciso......................................................................................... 50

Anlise dos Resultados e Interpretaes .............................................................................. 50

AG ARFF AVA BD CART CHAID DCL DDL DM DW EaD GPL

Apresentar um estudo de caso utilizando o ambiente de ensino-aprendizagem LabSQL.

vi. vii. viii.

Resposta sobre algo feito, para verificar se foi adequadamente executado.

Figura 2.2 Viso Geral da Arquitetura do LabSQL, LINO et al., (2007).

Figura 2.3 Organizao dos Mdulos no LabSQL (LINO, 2007).

Avaliao: apresentada ao aprendiz quando existe uma prova ou lista de exerccio;

3. DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS

Independncia de contexto Inteligncia Compreenso dos princpios Conhecimento

Compreenso dos padres Informao Compreenso relacionamentos Entendimento Dados dos

Figura 3.2 Etapas do KDD (FAYYAD et al., 1996).

Figura 4.1 Representao de Uma rvore de Deciso.

onde pi a proporo de dados em S que pertencem classe i.

Figura 4.2 Um Grafo Dirigido Acclico.

Figura 4.3 Rede Bayesiana para o Domnio 1 (RUSSEL, 1995).

Ladro Verdadeiro Verdadeiro Falso Falso

Terremoto Verdadeiro Falso Verdadeiro Falso

Figura 4.5 Interface da Ferramenta WEKA.

Figura 4.6 Exemplo de um Arquivo ARFF.

Figura 4.8 Viso da Network

Window (BAYESWARE, 2000).

5. ESTUDO DE CASO: MINERAO DO LABSQL

Figura 5.1 Representao dos Dados no Formato Separado por Tabulao.

Figura 5.2 Representao dos Dados no Formato ARFF.

Figura 5.8 Resultado do Teste de Validao Cruzada Executado pelo Bayesware.

A rvore de Deciso (AD)

Modelos (RB) (AD)

Acertos 279 280

Total 319 319

% Acertos 87,46 87,77

RB Modelo de Rede Bayesiana; AD Modelo de rvore de Deciso.

APNDICE A DESCRIO COMPLETA DOS 59 ATRIBUTOS TRABALHADOS

Classificao Nome do atributo 1 - AP 2 - AP 3 - AP 4 - AP 5 - AP 6 AP

media_pontos_sql_avaliacao acima_media_pontos_sql_avaliacao media_pontos_sql_exercicios acima_media_pontos_sql_exercicios

media_de_tentativas_sql_avaliacao acima_media_de_tentativas_sql_avaliacao media_de_tentativas_sql_exercicios acima_media_de_tentativas_sql_exercicios

26.1 AD 27 AP 28 AP 29 AP 29.1 AD 30 AP 30.1 AD 31 AP 31.1 AD 32 AP 32.1 - AD 33 AP

APNDICE B ANLISE DESCRITIVA DOS DADOS COLETADOS NO LABSQL

Curso Cincia da Computao Especializao em Bancos de Dados Sistemas de Informao Total

16,00 14,00 12,00

14,64 13,81 12,07

10,46 8,79 6,69

10,00 8,00 6,00 4,00 2,00 0,00 1