Romeu Cornelius Junior

CURSO DE CINCIA DA COMPUTAO
Romeu Cornelius Junior
USO DA MINERAO DE DADOS NA IDENTIFICAO DE ALUNOS

COM PERFIL DE EVASO DO ENSINO SUPERIOR
Santa Cruz do Sul

2015
USO DA MINERAO DE DADOS NA IDENTIFICAO DE ALUNOS

COM PERFIL DE EVASO DO ENSINO SUPERIOR
Trabalho de Concluso apresentado ao Curso de

Cincia da Computao da Universidade de Santa Cruz
do Sul, para obteno do ttulo de Bacharel em Cincia
da Computao.
Orientador: Prof. Dr. Jacques Nelson Corleta Schreiber
Santa Cruz do Sul

2015
Dedico este trabalho a todos que de
alguma forma me deram suporte,
apoiaram e incentivaram, acreditando que
com esforo se alcana o sucesso.
AGRADECIMENTOS
Em primeiro lugar, agradeo a minha me, Nercy, pelo apoio, incentivo e

principalmente pelos ensinamentos de vida que tm me transmitido.
Agradeo minha esposa Joseane, por compreender a ausncia exigida e
por sempre incentivar e auxiliar a cada passo que foi dado, mostrando a fora do
amor que nos une.
Agradecimento especial ao meu orientador, Prof. Dr. Jacques Nelson Corleta
Schreiber, pelos conselhos, indicando o caminho correto a ser seguido durante este
trabalho. No deixando de agradecer a todos os professores da UNISC, que
contriburam com o ensinamento necessrio para chegar at aqui.
Aos amigos e professores Eduardo Kroth, Joo Carlos Furtado, Rejane
Frozza e Daniela Saccol, os quais considero serem exemplos de mestres.
Enfim, agradeo a todos que, de uma forma ou de outra, contriburam no
decorrer do curso e realizao deste trabalho.
RESUMO
As universidades enfrentam o desafio de reduzir os ndices de evaso dos alunos

nos cursos de graduao. Este problema ocorre tanto em instituies pblicas como
privadas e seus efeitos esto relacionados com questes financeiras e com a
diminuio do nmero de alunos formados no ensino superior. Este trabalho
apresenta um estudo sobre a evaso no ensino superior e a aplicao de tcnicas
de minerao de dados na tentativa de descobrir, um perfil dos alunos com
tendncias evasivas e os padres associados a essas tendncias. Como parte da
fundamentao terica, foram verificados os principais conceitos relativos ao tema,
levantamento de trabalhos relacionados, estudo das tcnicas e algoritmos de
minerao de dados, e como metodologia para a realizao do estudo, foi escolhida
a ferramenta mineradora de dados WEKA, alm das tcnicas de minerao
conhecidas como classificao e associao, para a realizao de experimentos de
acordo com o domnio dos dados cedidos pela Universidade de Santa Cruz do Sul
UNISC. Esses dados foram cedidos em forma de arquivo texto pelo setor de
Informtica da universidade e importados para uma base de dados de apoio, em
seguida transformados em arquivos .arff, padro exigido pelo WEKA e ento
submetidos aos algoritmos de minerao. Os resultados obtidos mostram que o total
de disciplinas cursadas e o status final das disciplinas do primeiro semestre so os
fatores que mais colaboram para a evaso do curso.
Palavras chave: Evaso no ensino superior. Minerao de dados. Ferramenta

WEKA. Perfil do aluno.
ABSTRACT
Reduce students dropout rates in graduate courses is a challenge faced by

universities. This problem occurs in public and private institutions, and its effects are
related to financial issues and the declining number of graduates in higher education.
This paper presents a study on dropout in higher education and the application of
data mining techniques. The aim is to find students with evasive trends and the
patterns associated with these trends. As part of the theoretical background, were
found the main concepts related to the topic, survey related work, study of
techniques and algorithms for data mining, and as a methodology for the study, we
chose the data mining tool WEKA. In addition to the known mining techniques such
as classification and association, to conduct experiments according to the field of
data provided by the University of Santa Cruz do Sul - UNISC. These data were
given by the university's IT department in text file format and was imported into a
supporting database, then transformed into .arff files required by WEKA software and
then subjected to data mining algorithms. The results show that the final status of
disciplines in the first semester and the number of disciplines taken semester by
semester are the factors that collaborate to students dropout.
Keywords: Higher education dropout. Data mining. Tool WEKA. Studant profile.
LISTA DE FIGURAS
Figura 01 - ndice da evaso no Brasil ...................................................................... 17

Figura 02 - Evoluo da evaso na UNISC ............................................................... 18
Figura 03 - Fases da descoberta de conhecimento em bases de dados .................. 19
Figura 04 - Representao de um classificador ........................................................ 26
Figura 05 - Representao do processo de induo de um classificador ................. 27
Figura 06 - Exemplo de rvore de deciso ................................................................ 29
Figura 07 - Funcionamento do algoritmo K-Means ................................................... 34
Figura 08 - Clusters de alunos associados evaso/reteno ................................. 35
Figura 09 - Interface grfica do RAPIDMINER .......................................................... 50
Figura 10 - rvore de deciso de exemplo no RAPIDMINER ................................... 51
Figura 11 - Interface grfica do WEKA com dados carregados para anlise ............ 52
Figura 12 - rvore gerada pelo algoritmo J48 no WEKA ........................................... 53
Figura 13 - rvore gerada pelo algoritmo CART no WEKA ....................................... 54
Figura 14 - Modelo proposto por Tinto (1975) ........................................................... 56
Figura 15 - Arquivo texto com a consulta SQL e os dados da tabela Alunos ............ 63
Figura 16 - Modelo relacional da base de apoio criada ............................................. 64
Figura 17 - Consulta de alunos matriculados no site da UNISC................................ 67
Figura 18 - Faixa etria dos alunos que ingressaram no curso ................................. 67
Figura 19 - Dados sobre alunos que evadiram do curso ........................................... 68
Figura 20 - Tabela DISCIPLINAS .............................................................................. 70
Figura 21 - Disciplinas encontradas na segunda sequncia ..................................... 71
Figura 22 - Tabela HISTORICO ao final da etapa de transformao ........................ 73
Figura 23 - Perfil 1 dos alunos do experimento A...................................................... 76
Figura 24 - Resultado experimento A1 - Apriori ........................................................ 77
Figura 25 - Resultado experimento A1 FpGrowth .................................................. 78
Figura 26 - Perfil 2 dos alunos do experimento A...................................................... 78
Figura 27 - Resultado experimento A2 - Apriori ........................................................ 79
Figura 28 - Resultado experimento A2 - FpGrowth ................................................... 79
Figura 29 - Perfil dos alunos que reprovam em lgebra ........................................... 81
Figura 30 - Perfil dos alunos que reprovam em Algoritmo ........................................ 82
Figura 31 - Resultado do experimento B2 ................................................................. 82
Figura 32 - rvore gerada pelo experimento B2........................................................ 83
Figura 33 - Perfil dos alunos que reprovaram em Clculo ........................................ 84
Figura 36 - Perfil dos alunos que reprovam em Introduo Computao .............. 86
Figura 37 - Perfil dos alunos que reprovaram em Lgica .......................................... 86
Figura 40 - Perfil dos alunos que fizeram seis disciplinas no 1 semestre ................ 89
Figura 41 - Alunos que fizeram cinco disciplinas no 1 semestre.............................. 89
7
Figura 42 - Resultado do experimento C2 ................................................................. 90

Figura 43 - rvore gerada pelo experimento C2 ....................................................... 91
Figura 44 - Alunos que fizeram quatro disciplinas no 1 semestre ............................ 91
Figura 47 - Alunos que fizeram trs disciplinas no 1 semestre ................................ 93
Figura 50 - Alunos que fizeram duas disciplinas no 1 semestre .............................. 96
Figura 52 - rvores gerada pelo experimento C5 ...................................................... 97
Figura 53 - Alunos que fizeram uma disciplina no 1 semestre ................................. 98
Figura 55 - rvores gerada pelo experimento C6 ...................................................... 99
Figura 56 - Alunos que sempre fizeram cinco disciplinas ........................................ 100
Figura 57 - Resultado do experimento D1 ............................................................... 101
Figura 58 - rvore gerada pelo experimento D1 ..................................................... 101
Figura 59 - Alunos que sempre fizeram trs disciplinas .......................................... 102
Figura 62 - Alunos que fizeram trs ou mais disciplinas ......................................... 105
Figura 65 - Perfil dos alunos que fizeram menos que trs disciplinas ..................... 107
Figura 68 - Perfil dos alunos que fizeram Algoritmos e Lgica Juntos .................... 109
Figura 69 - Resultado do experimento E1 ............................................................... 110
Figura 70 - rvore gerada pelo experimento E1...................................................... 111
LISTA DE TABELAS
Tabela 1 - Tabela de resultados comparando diferentes algoritmos ......................... 58

Tabela 2 - Comparativo entre os Trabalhos Relacionados ....................................... 59
Tabela 3 - Atributos da tabela HISTORICO .............................................................. 65
LISTA DE GRFICOS
Grfico 1 - Exemplo de regresso linear ................................................................... 30

Grfico 2 - Possveis Conjuntos nos Clculos de Suporte e Confiana .................... 32
LISTA DE ABREVIATURAS
ANDIFES Associao Nacional dos Dirigentes das Instituies Federais

CSV Comma Separated Values
DM Data Mining
INEP Instituto Nacional de Estudos e Pesquisas Educacionais Ansio
Teixeira
MEC Ministrio da Educao e Cultura
REUNI Reestruturao e Expanso das Universidades Federais
WEKA Waikato Environment for Knowledge Analysis
SQL Structured Query Language
TI Tecnologia da Informao
UNISC Universidade de Santa Cruz do Sul
SUMRIO
1 INTRODUO ....................................................................................................... 13
2 NMEROS DA EVASO UNIVERSITRIA NO BRASIL ..................................... 16

2.1 A evaso no curso de Cincia da Computao da UNISC............................. 17
3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS ............................. 19

3.1 Etapas da descoberta de conhecimento em base de dados ......................... 19
3.1.1 Seleo dos dados ........................................................................................... 20
3.1.2 Pr-processamento dos dados ......................................................................... 20
3.1.3 Transformao dos dados ................................................................................ 20
3.1.4 Minerao de dados ......................................................................................... 22
3.1.5 Avaliao dos resultados.................................................................................. 22
4 MINERAO DE DADOS EDUCACIONAIS ......................................................... 24

4.1 Tarefas e tcnicas da minerao de dados ..................................................... 25
4.1.1 Tarefas preditivas ............................................................................................. 25
4.1.1.1 Classificao ................................................................................................. 25
4.1.1.2 Regresso Linear .......................................................................................... 29
4.1.2 Tarefas descritivas ........................................................................................... 31
4.1.2.1 Regras de Associao................................................................................... 31
4.1.2.2 Agrupamento Clustering ................................................................................ 33
4.1.2.3 Padres sequncias ...................................................................................... 35
4.2 A classificao e rvores de deciso .............................................................. 36
4.2.1 Principais conceitos sobre rvores de deciso ................................................. 37
4.2.1.1 Modelo de induo Top-Down ....................................................................... 38
4.2.1.2 Seleo dos atributos preditivos para os nodos das rvores ........................ 38
4.2.1.3 Mtricas para a melhor diviso da rvore ...................................................... 39
4.2.1.4 Atributos categricos ..................................................................................... 41
4.2.1.5 Atributos contnuos ........................................................................................ 42
4.2.1.6 Mtodos de poda em rvores de deciso ...................................................... 43
4.2.1.7 Super ajuste ou Overfiting ............................................................................. 43
4.3 Algoritmos de rvores de deciso ................................................................... 44
12
4.3.1 Algoritmo CART ............................................................................................... 44

4.3.2 Algoritmo ID3.................................................................................................... 45
4.3.3 Algoritmo C4.5 ou J48 ...................................................................................... 46
4.3.4 Algoritmo Apriori ............................................................................................... 46
4.3.5 Algoritmo FP-Growth ........................................................................................ 47
5 FERRAMENTAS DE MINERAO DE DADOS ................................................... 49

5.1 RAPIDMINER ...................................................................................................... 49
5.2 WEKA ................................................................................................................. 51
6 TRABALHOS RELACIONADOS ........................................................................... 55

6.1 Anlise dos trabalhos relacionados ................................................................ 59
7 METODOLOGIA E CONTEXTUALIZAAO DO PROBLEMA .............................. 61

7.1 Domnio da base de dados de apoio ............................................................... 62
7.1.1 Alguns dados estatsticos sobre o domnio criado ........................................... 67
7.2 Aplicao da minerao de dados na base de apoio ..................................... 69
7.2.1 Identificao das tarefas de minerao aplicveis ao domnio ......................... 74
7.3 Experimentos realizados .................................................................................. 75
7.3.1 Experimento A .................................................................................................. 76
7.3.2 Experimento B .................................................................................................. 80
7.3.3 Experimento C .................................................................................................. 88
7.3.4 Experimento D .................................................................................................. 99
7.3.5 Experimento E ................................................................................................ 109
7.4 Discusso dos resultados obtidos ................................................................ 111
8 CONCLUSES .................................................................................................... 116

8.1 Trabalho futuros .............................................................................................. 117
REFERENCIAS ....................................................................................................... 119

ANEXO A: Arquivos .............................................................................................. 122
ANEXO B: Quadros ............................................................................................... 125
ANEXO C: Consultas ............................................................................................ 131
ANEXO D: Matriculas dos alunos ativos ............................................................. 137
13
1 INTRODUO
O problema da evaso ocorre em todas as universidades brasileiras, tanto

em instituies pblicas como privadas e seus efeitos esto relacionados com
questes financeiras e com a diminuio do nmero de alunos formados no ensino
superior gerando prejuzos para os alunos, universidades e para o pas.
Reduzir estes ndices da evaso dos alunos de graduao um desafio
enfrentado pelas universidades. Segundo o resumo tcnico do censo da educao
superior realizado pelo MEC em 2011 no qual participaram 2.365 instituies de
ensino superior, que registravam 30.420 cursos, 6.739.689 matrculas, 2.346.695
ingressos e 1.016.713 concluintes de graduao, foram destacadas algumas
diferenas entre as categorias administrativas das instituies de ensino superior no
Brasil (INEP, 2014):
A categoria pblica apresenta 26,3% das matrculas de graduao; possui

32,3% dos cursos de graduao e 12,0% das instituies de ensino
superior.
A categoria privada concentra 73,7% das matrculas de graduao; possui
67,7% dos cursos de graduao e 88,0% das instituies de ensino
superior.
Esta anlise no contempla os nmeros da educao a distncia, somente
educao presencial em instituies de ensino superior brasileira foram
considerados nesse levantamento (INEP, 2014).
A necessidade de expanso da educao superior em nosso pas visvel,
segundo o Ministrio da Educao, pois a mdia nacional de que apenas 24% dos
jovens brasileiros, com idade entre 18 e 24 anos, tm acesso ao ensino superior. Os
dados esto disponveis no Relatrio de Acompanhamento do REUNI, elaborado
pela Associao Nacional dos Dirigentes das Instituies Federais ANDIFES
(INEP, 2014).
As instituies de ensino superior oferecem a cada ano um crescente
nmero de vagas para novos alunos ingressarem nos cursos de graduao. No
entanto, parte dos alunos que entram na universidade no concluem o curso,
embora existam polticas pblicas de incentivo ao ingresso e financiamento de
cursos superiores. Porm, o foco destas polticas de reestruturao como o REUNI,
14
so as instituies pblicas de ensino, que por sua vez representam menos de 30%
do total das matrculas de graduao.
Tendo por base que a maioria das matrculas no se concentra na rede
pblica de ensino, neste trabalho, apresentaremos um estudo utilizando dados
acadmicos de alunos de graduao do curso de cincia da computao, de uma
universidade comunitria1 brasileira UNISC.
A minerao de dados educacionais e seus recursos, possibilitam
desenvolver ou adaptar mtodos e algoritmos de minerao existentes, para que
esses possam apoiar efetivamente processos de deteco de comportamentos
ligados evaso escolar, de tal modo que se seja possvel compreender melhor os
dados em contextos educacionais, produzidos principalmente por alunos e
professores, considerando os ambientes nos quais eles interagem (RIGO, 2012).
Neste contexto, o objetivo principal deste trabalho auxiliar na busca por
razes para a evaso no ensino superior, atravs da utilizao de tcnicas de
minerao de dados e consequentemente contribuir aos gestores universitrios no
planejamento de aes efetivas para a reteno de alunos do curso de graduao
em Cincia da Computao da Universidade de Santa Cruz do Sul - UNISC.
Pode-se considerar os seguintes objetivos especficos:
Pesquisar conceitos aprofundados e tcnicas ligadas rea de pesquisa,

bem como entender como o seu funcionamento e todos os aspectos
envolvidos, principalmente na minerao de dados e seus algoritmos.
Avaliar trabalhos relacionados com o assunto visando verificar o que j
existe na rea relacionado a esta proposta de estudo, a fim de
estabelecer uma comparao ressaltando aspectos, como: universo de
dados utilizados; tcnicas de minerao de dados; resultados obtidos;
contribuies para evitar a evaso no ensino superior.
Aprender a arquitetura e funcionamento do programa para minerao de
dados, WEKA (WITTEN; FRANK; HALL, 2011).
Definir o universo de dados a serem utilizados no trabalho, gerando-se
uma base de dados.
1 Nota do autor: O carter comunitrio da UNISC faz com que ela cresa acompanhando os avanos
tecnolgicos, sem descuidar da ateno ao ser humano e ao meio ambiente, obtendo
reconhecimento e destaque nas avaliaes realizadas pelo MEC.
15
Definir os algoritmos e tecnologias a serem adotados no desenvolvimento

como a tcnica de minerao de dados, sistema gerenciador de banco de
dados entre outros.
Do ponto de vista social, este estudo se justifica pela diminuio da mo de

obra qualificada que chega ao mercado de trabalho, cada vez mais escassa uma
vez que menos de 24% dos jovens conseguem ingressar no ensino superior. Do
ponto de vista empresarial, existe um custo fixo para as universidades manter a
infraestrutura para receber os alunos, alm deste custo fixo, o custo mdio por aluno
por ano gira em torno de R$ 9 mil (LOBO 2011), ou seja, cada aluno que evade so
R$ 9 mil a menos para a universidade por ano. Do ponto de vista cientfico, conhecer
os conceitos e tcnicas ligadas rea de pesquisa, bem como entender como o
seu funcionamento so fatores importantes para o andamento de trabalhos futuros,
alm de definir o universo de dados e os algoritmos a serem utilizados nos
experimentos.
O trabalho est organizado da seguinte forma: O captulo 2 mostra os
nmeros da evaso universitria no Brasil e na UNISC, no captulo 3 so exibidos os
processos de descoberta do conhecimento em banco de dados KDD. O captulo 4
faz uma breve discusso sobre a minerao de dados educacionais e so
apresentados as principais tarefas e tcnicas de minerao de dados. No captulo 5
so exibidos dois dos principais programas mineradores de dados, amplamente
utilizados nos trabalhos relacionados que so exibidos no captulo 6. No captulo 7,
so exibidos a metodologia proposta e a contextualizao do fenmeno em estudo,
e por fim, no capitulo 8, so exibidas as concluses e sugestes para trabalhos
futuros.
16
2 NMEROS DA EVASO UNIVERSITRIA NO BRASIL
Este captulo faz uma breve descrio do problema da evaso universitria

no Brasil, alm de exibir alguns nmeros deste fenmeno no pas e tambm no
curso de cincia da computao da UNISC.
Segundo clculo do pesquisador do Instituto Lobo para o Desenvolvimento
da Educao, da Cincia e da Tecnologia, Oscar Hiplito, com base nos nmeros do
Censo do Ensino Superior divulgados pelo Ministrio da Educao em dezembro de
2010, as perdas financeiras com a evaso no ensino superior em 2009 giram em
torno de R$ 9 bilhes (LOBO, 2011).
Entre 2008 e 2009, os dados do censo mostram que um total de 896.455
alunos abandonaram a universidade, representando uma mdia de 20,9% do total
de alunos. Nas instituies pblicas, 114.173 alunos (10,5%) evadiram e nas
instituies particulares, um total de 782.282 alunos (24,5%) dos alunos
abandonaram seus cursos. Apenas 47,2% dos alunos se formaram aps quatro
anos de curso (LOBO, 2011).
Entre 2012 e 2013 o nmero de concluintes de graduao caiu 5,9%, de
acordo com dados do Instituto Lobo para o Desenvolvimento da Educao, da
Cincia e da Tecnologia. Em 2013, 991.010 alunos terminaram seus cursos contra
1.050.413 em 2012. Entre os alunos que concluram, 229.278 (23%) eram de
instituies pblicas, 761.732 (77%) eram provenientes de instituies particulares.
Os graus acadmicos que apresentaram o maior ndice de queda foram o
bacharelado (7,1% - com 42 mil alunos a menos) e a licenciatura (11,1% - com 22
mil alunos a menos). O nmero de formandos nas instituies de ensino privadas
diminuiu 6,7% (51.135 concluintes a menos que em 2012), enquanto nas instituies
pblicas a queda foi de 3,6% (8.268 universitrios a menos com diploma).
Em mdia, cada aluno custa em torno de R$ 15 mil por ano nas
universidades pblicas e R$ 9 mil por ano para as instituies privadas, de acordo
com o pesquisador Oscar Hiplito. Ele ainda explica que o clculo uma mdia e
tende a ser maior, j que existem vrios outros custos envolvidos na educao,
como alimentao e transporte entre outros (LOBO, 2011).
17
2.1 A evaso no curso de Cincia da Computao da UNISC
Entre 1993 e 2014, o curso de Cincia da Computao da UNISC teve 2.170

alunos matriculados, dos quais 348 (16,03%) so formados, 263 (12,12%) so
alunos ativos e 1.559 (71,85%) so alunos que evadiram.
Considerando o valor de R$ 9 mil por ano por aluno para as instituies
privadas, conforme mencionando anteriormente, e multiplicando esse valor por 4,5
anos (conforme o currculo do curso) temos o valor de R$ 45 mil para cada aluno
evadido. Multiplicando esse valor pelos 1.559 alunos que j abandonaram o curso,
chegamos a mais de R$ 70 milhes que deixaram de ser arrecadados pelo curso
para a instituio.
Na Figura 01 so exibidos os nmeros da evaso no Brasil entre os anos
2000 e 2009, pode-se ver que os ndices da evaso a nvel nacional so muito
menores se comparados aos nmeros da evaso do curso em estudo neste
trabalho.
Figura 01 - ndice da evaso no Brasil
Fonte: (MEC, 2009).
A Figura 02 exibe os nmeros da evoluo da evaso a cada semestre do

curso de Cincia da Computao da UNISC, onde pode-se ver que a grande maioria
dos alunos evadem j nos primeiros semestres e que at o quinto semestre quase a
metade dos alunos acabaram evadindo do curso.
18
Figura 02 - Evoluo da evaso na UNISC
Fonte: (Setor de informtica da UNISC, adaptado pelo Autor).
Pode-se ver na primeira linha da tabela exibida na Figura 02, identificada

pelo rtulo Nenhuma disciplina, o avano da evaso no curso. No existe alunos
com nenhuma disciplina no primeiro semestre pois o pr-requisito da seleo dos
alunos para o experimento era eles terem cursado pelo menos uma disciplina do
curso.
Porm, na passagem do primeiro para o segundo semestre, encontramos
380 alunos que evadiram do curso. Do segundo para o terceiro semestre, um total
de 624 alunos j haviam evadido do curso, do terceiro para o quarto semestre a
soma dos alunos que evadiram 724 e assim por diante.
A penltima linha da tabela identificada pelo rtulo Evadiram no semestre
exibe as mesmas informaes, porm no de forma acumulativa, ou seja, mostra o
nmero de alunos que evadiram em cada um dos semestres e no o somatrio do
total de alunos evadidos como exibido na primeira linha. A ltima linha da tabela
mostra o total de alunos ativos no curso, diminuindo semestre a semestre conforme
o nmero de evases vai aumentando.
19
3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
Neste captulo so discutidos os principais conceitos envolvidos no processo

de descoberta de conhecimento em bases de dados.
Segundo Castanheira (2008), KDD (Knowledge Discovery in Databases)
um processo de descoberta de conhecimento em bases de dados que tem como
objetivo principal extrair conhecimento a partir de grandes bases de dados. Para isto
envolve diversas reas de conhecimento, tais como: estatstica, matemtica, bancos
de dados, inteligncia artificial, visualizao de dados e reconhecimento de padres.
So utilizadas tcnicas, em seus diversos algoritmos, oriundos dessas reas.
Para se iniciar um processo de KDD preciso ter um claro entendimento do
domnio da aplicao e dos objetivos que se deseja alcanar. Este processo
composto por cinco etapas, conforme pode ser visto na Figura 03.
Figura 03 - Fases da descoberta de conhecimento em bases de dados
Fonte: (Castanheira, 2008).
3.1 Etapas da descoberta de conhecimento em base de dados
O processo de KDD dividido em passos. Desde a seleo da base de

dados at a descoberta do conhecimento pode ser considerado um conjunto de
atividades contguas que compartilham conhecimento a partir de bases de dados,
(CASTANHEIRA, 2008).
20
3.1.1 Seleo dos dados
Esta etapa envolve a compreenso do domnio e dos objetivos da tarefa,

criao do conjunto de dados envolvendo as variveis necessrias. Os dados so a
espinha dorsal do processo de KDD mas usualmente no esto disponveis de uma
forma pronta para data mining, um dos principais problemas em coletar dados
descobrir onde encontr-los.
De forma similar, para identificar as caractersticas de alunos com perfil de
evaso em um modelo preditivo, variveis alvo ou target (objetivo, resposta) e de
entrada (preditoras), devem ser includas (HALL et al., 2009).
Assim, para resolver problemas especficos, dados adequados devem ser
extrados de banco de dados ou dados novos coletados que forneam as exigncias
da tarefa a ser realizada.
3.1.2 Pr-processamento dos dados
Esta etapa envolve operaes como tratar a falta de dados em alguns

campos, limpeza de dados como a verificao de inconsistncias, reduo da
quantidade de campos em cada registro, o preenchimento ou a eliminao de
valores nulos, remoo de dados duplicados (CASTANHEIRA, 2008).
Inconsistncias so bastante comuns neste tipo de tarefa e ocorrem quando
um atributo assume valores diferente mas que representam a mesma coisa
(GARCIA, 2012). Por exemplo, um atributo que armazena o nome de uma instituio
de ensino, pode assumir os valores UNISC e Universidade de Santa Cruz do Sul,
que do ponto de vista computacional so diferentes, porm representam a mesma
informao.
3.1.3 Transformao dos dados
Esta fase antecede a seleo dos algoritmos de minerao de dados. Os

algoritmos possuem padres que devem ser respeitados, logo esta etapa do
processo de KDD realizada de acordo com o algoritmo de minerao que ser
utilizado na tarefa escolhida (CASTANHEIRA, 2008).
21
Esto envolvidas nesta etapa tarefas como identificao de rudos, outliers

(valores fora de uma faixa de valores aceitvel para um atributo), generalizao de
atributos, discretizao de variveis.
Dados distorcidos ou que foram improvisados tambm conhecidos como
rudo so bastante comuns. Eles acontecem principalmente quando um sistema
desenvolvido para um propsito especfico, e passa a ser utilizado para outro
(CASTANHEIRA, 2008). Por exemplo, um sistema de controle de frequncia de
alunos em eventos projetado inicialmente para armazenar apenas dados dos
participantes de um determinado evento, onde um atributo TIPOPESSOA deveria
receber o valor A para quem fosse aluno da instituio e o valor N para quem no
fosse aluno, mas queria participar do evento. Neste campo deveria aparecer apenas
dos valores A e N, porm alguns registros recebem o valor P que se refere aos
palestrantes do evento.
Generalizaes podem ser utilizadas quando os dados so muito esparsos e
no se consegue resultados satisfatrios com eles. Neste caso, dados primitivos so
substitudos por conceitos. Um exemplo de generalizao quando o nome da
cidade natal de um aluno substitudo pelo estado a qual essa cidade se refere
(HALL et al., 2009).
A normalizao outro tipo de transformao de dados. O propsito da
normalizao ajustar as escalas de valores dos atributos para um mesmo
intervalo, e assim minimizar os problemas oriundos do uso de unidades de medida
diferentes entre as variveis. Um exemplo de normalizao um intervalo de [-2 a
2]. Redes neurais e a anlise de clusters, tarefas que realizam operaes
matemticas de multiplicao sobre o conjunto de dados, se beneficiam com esta
tcnica (HALL et al., 2009).
Alguns algoritmos de classificao e agrupamento trabalham somente com
dados no formato nominal, ou seja, no conseguem lidar com os atributos medidos
na escala numrica. Desse modo, dados do tipo renda devem ser discretizados
por faixa, como: alta, mdia ou baixa (HALL et al., 2009).
22
3.1.4 Minerao de dados
Embora muitos autores considerem a minerao de dados como sinnimo

de KDD, Fayyad, Piatetsky-Shapiro e Smyth (1996), define o processo de "KDD
como sendo o processo geral de descoberta de conhecimento til a partir dos dados
e minerao de dados como uma determinada etapa neste processo, caracterizada
como a aplicao algoritmos de especficos para extrair padres a partir dos dados.
Castanheira (2008) resume em poucas palavras que a minerao de dados
caracteriza-se pela existncia de um algoritmo que diante da tarefa proposta ser
eficiente em extrair conhecimento implcito e til de um banco de dados. Pode-se
dizer que minerao de dados a fase do KDD que transforma dados puros em
informao til".
Passos adicionais no processo de KDD, tais como preparao de dados,
seleo de dados, limpeza de dados, incorporao de conhecimento prvio
adequado, e interpretao adequada dos resultados da minerao, so essenciais
para assegurar que conhecimento til ser derivado a partir dos dados. Aplicao de
mtodos de minerao de dados cega pode ser uma atividade perigosa, facilmente
levando descoberta de padres sem sentido ou invlidos (HALL et al., 2009).
Na fase de minerao dentro do processo de KDD, escolhida a tarefa
e definido o algoritmo a ser utilizado, podendo ser executado mais de uma vez j
que esta etapa um processo iterativo, para que haja a extrao de padres
(GARCIA, 2012). Uma vez escolhido o algoritmo a ser utilizado, necessrio test-lo
e adapt-lo a natureza da tarefa escolhida para a resoluo do problema.
3.1.5 Avaliao dos resultados
Esta a ltima etapa do processo de KDD, no qual os conhecimentos

encontrados so interpretados e utilizados em processos de tomada de deciso. As
medidas de desempenho (preciso, tempo, outros) tambm so exibidas nesta fase,
podendo, caso necessrio, ajustar parmetros e voltar a alguma etapa anterior para
ser executada novamente (REZENDE, 2003).
23
Os resultados da minerao de dados devem ser apresentados de forma

clara, para que as informaes possam ser interpretadas e visualizadas de diversas
formas, utilizando-se de recursos visuais, como tabelas, grficos entre outros.
24
4 MINERAO DE DADOS EDUCACIONAIS
Este captulo faz uma breve explicao da minerao de dados, suas tarefas
e mtodos aplicados no contexto educacional.
A minerao de dados educacionais um campo de investigao ainda no
consolidado, est relacionada aplicao de tcnicas da minerao de dados junto
aos mais diversos domnios de dados obtidos em diversos contextos educacionais,
em sua grande maioria provenientes de ensino a distncia (MANHES, 2011).
Esta uma rea de pesquisa nova e em expanso, que necessita de
investigaes complementares tanto na definio dos atributos a serem utilizados
quanto nas tcnicas de minerao de dados empregadas, tendo como principais
metas os trabalhos relacionados com descoberta em modelos tericos, modelos de
predio, classificao, associao, minerao de relaes e tratamento de dados
para apoiar decises (RIGO, 2012), (TINTO, 1975), (DEKKER et al., 2009).
Vrios pontos que precisam ser aprimorados na utilizao de tcnicas de
minerao em dados educacionais a fim de identificar alunos com padres de
evaso so indicados pelos autores (RIGO, 2012), (MANHES, 2011), dentre os
quais pode-se destacar:
Transformao dos dados (os dados selecionados nem sempre esto na

forma adequada para serem usados diretamente pelos algoritmos de
minerao).
Identificao dos atributos mais relevantes.
Identificao dos algoritmos de minerao mais adequados para a tarefa.
Aplicao dos algoritmos selecionados.
Uma etapa de anlise cuidadosa dos dados educacionais a serem

minerados deve ser feita, em especial nos itens descritos anteriormente, pois alm
de ser uma etapa de grande importncia dentro deste processo, busca reduzir
exigncias de hardware bem como tempo de processamento para a obteno dos
resultados (GARCIA, 2012). Tambm uma boa interpretao dos resultados da
minerao de dados deve ser feita aps o processamento destes dados, para que
se possa aproveitar os resultados obtidos de forma eficaz.
25
4.1 Tarefas e tcnicas da minerao de dados
Nesta seo so explicadas as principais tarefas e tcnicas da minerao de

dados alm de exibir os principais mtodos e algoritmos aplicados em cada tcnica.
Os objetivos a serem alcanados so o fator responsvel pela definio da
escolha das tarefas a serem utilizadas na minerao de dados (GARCIA, 2012). No
existe uma definio genrica de tarefa que seja mais ou menos eficiente em
qualquer situao, cada caso um caso.
Aps a escolha da tarefa, define-se a tcnica a ser utilizada nela. Tarefa se
diferencia de tcnica de minerao pelo fato de a tarefa especificar qual a
informao ou padro deseja-se encontrar nos dados, e a tcnica especfica dos
mtodos que sero aplicados para alcanar os objetivos desejados (WITTEN;
FRANK; HALL, 2011).
4.1.1 Tarefas preditivas
A predio um dos objetivos fundamentais da minerao de dados, utiliza

algumas variveis que encontram-se no banco de dados, com a finalidade de prever
valores desconhecidos ou futuros de outras variveis que sejam de interesse
(WITTEN; FRANK; HALL, 2011).
Nas tarefas preditivas (tambm conhecidas por modelos de descoberta) a
abordagem bottom-up, ou seja, a pesquisa feita de forma a encontrar padres
frequentes, tendncias e generalizaes, a fim de encontrar informaes que
estavam escondidas nos dados (GARCIA, 2012).
Nas prximas sees sero apresentadas formas de se realizar as tarefas
preditivas em base de dados.
4.1.1.1 Classificao
A tarefa de classificao diz respeito ao processo de encontrar um modelo

que descreve e distingue classes de dados ou conceitos. Segundo Castanheira
(2008), "A tarefa de classificao uma funo de aprendizado que mapeia dados
26
de entrada, ou conjunto de dados de entrada, em um nmero finito de classes. Nela

cada exemplo pertence a uma classe, entre um conjunto pr-definido de classes.
O objetivo de um algoritmo de classificao encontrar alguma correlao
entre os atributos e uma classe, de modo que o processo de classificao possa
us-lo para predizer a classe de um exemplo novo e desconhecido (COSTA et al.,
2013).
Um modelo de classificador representado pela Figura 04, onde a entrada
um conjunto de treinamento, formado por um conjunto de amostras de dados onde a
classe j previamente conhecida. Com base neste conjunto de dados, a etapa de
aprendizagem induz um modelo classificador que logo aps testado junto a outro
conjunto de teste, que consiste em conjuntos de amostras onde as classes no so
conhecidas e precisam ser preditas a partir do modelo.
Figura 04 - Representao de um classificador
Fonte: Costa et al. (2013).
A tarefa de classificao pode ser dividida em duas etapas: Treinamento e

classificao.
Na etapa de treinamento, tambm conhecida como aprendizado, utiliza-se
um conjunto de dados denominados amostragem associados a suas classes
(rtulos) para criar um modelo que ser utilizado na construo do classificador.
Este um tipo de aprendizado conhecido como supervisionado, uma vez que o
conjunto de dados utilizados pr-definido (BUSS, 2011).
27
Na etapa da classificao, como o prprio nome sugere, faz-se o uso do

modelo criado para o classificador. Utilizam-se agora outros conjuntos de dados,
tambm conhecidos como teste, para estimar a preciso do classificador. Esta troca
dos dados importante para evitar o overfit, ou seja, evitar que o classificador se
ajuste de tal forma que acaba sendo um classificador muito eficaz para os dados de
treinamento, porm no to eficaz para as demais amostragens de teste (BUSS,
2011).
A Figura 05 ilustra um modelo do processo de induo de um classificador e,
em seguida, a sua utilizao. Primeiro, um conjunto de treinamento, onde os rtulos
das classes dos exemplos so conhecidos, utilizado por um algoritmo de
aprendizado para construir um modelo. Aps a construo, esse classificador pode
ser aplicado para predizer os rtulos das classes dos exemplos do conjunto de teste,
ou seja, exemplos cujas classes so desconhecidas.
Figura 05 - Representao do processo de induo de um classificador
Fonte: Bramer (2013).

Obs.: Adaptado pelo autor.
Na tarefa de classificao, as tcnicas mais utilizadas nos trabalhos

relacionados foram rvores de deciso. A seguir so apresentados alguns trabalhos
que aplicam tcnicas de classificao em suas abordagens.
Em Dekker et al., (2009), so utilizadas rvores de deciso para testar a
acurcia de vrios classificadores no intuito de buscar perfis de alunos com
tendncias evasivas. Foram utilizados diversos algoritmos para classific-los, entre
eles o OneR, CART, J48.
28
Da mesma forma, Manhes et al. (2011), buscaram por padres de evaso

de alunos do ensino superior. Eles utilizam OneR, JRip, J48 em suas rvores de
deciso, para predizer quais mtricas explicam a evaso na Escola Politcnica da
Universidade Federal do Rio de Janeiro UFRJ.
Uma tcnica muito utilizada na tarefa de classificao so rvores de
deciso, modelos estatsticos que utilizam treinamento supervisionado para
classificao e predio dos dados (GARCIA, 2012). No conjunto de treinamento as
variveis preditivas so conhecidas, onde cada n interno (no-folha), pode ser
entendido como um atributo de teste, e cada n-folha (n-terminal) possui um rtulo
de classe (COSTA et al., 2013).
Segundo Buss (2011) "A rvore de deciso composta por estruturas
chamadas de raiz, ns internos, arestas e folhas. Os ns internos significam testes
sobre um determinado atributo, cada aresta representando um possvel valor para
esse atributo e cada folha apresentando um valor do atributo classe (rtulo) com que
se deseja classificar a tupla de entrada. A raiz o primeiro atributo a ser testado".
O aprendizado em rvores de deciso do tipo supervisionado, sua
construo baseada no modelo Top-down, partindo do n raiz em direo s
folhas terminais. Os algoritmos dessa categoria se utilizam da tcnica de dividir para
conquistar, dividindo os problemas em problemas de menores dimenses at
encontrar a soluo para cada um dos problemas divididos (WITTEN; FRANK;
HALL, 2011).
Classificadores com essa tcnica procuram dividir sucessivamente o
conjunto de dados, at que cada conjunto contemple apenas uma classe, tornando
desnecessrias novas divises (COSTA et al, 2013).
A rvore de deciso montada a partir de dados de treino, a princpio tem-
se apenas um n que contm todas as classes. Recursivamente, escolhe-se um
atributo que possa dividir esta classe, at que no haja mais divises e cada n
folha represente uma nica classe ou satisfao de um critrio (GARCIA, 2012). A
escolha do atributo a ser testado em cada nodo o que define o sucesso de um
algoritmo de aprendizado, que gera a rvore de deciso.
A Figura 06 exibe um exemplo de rvore de deciso que classifica alunos da
disciplina de programao entre Confusos e No Confusos de acordo com os
atributos Nmero de Compilao Com Erros e o atributo Nmero de Pares de
Compilaes com o Mesmo Erro.
29
Figura 06 - Exemplo de rvore de deciso
Fonte: (Costa et al., 2013).
O primeiro teste feito na rvore sobre a varivel NumCompErr (nmero de

compilao com erros) onde verificado se ela maior que 5, classificando o aluno
como confuso, seno ela testa a segunda varivel NumParesCompMesmErr
(quando o aluno compilou o mesmo erro mais que uma vez, ou seja, um par), para
valores maiores que 1 outro teste feito sobre a mesma varivel
NumParesCompMesmErr que ir classificar os alunos como confuso quando o valor
dessa varivel for maior que 2.
4.1.1.2 Regresso Linear
Modelos de regresso linear so muito parecidos com modelos de

classificao. Na tarefa de classificao, os atributos alvos da predio so do tipo
discreto enquanto na regresso so do tipo numrico e contnuo (WITTEN; FRANK;
HALL, 2011).
Esta tarefa tambm utiliza tcnicas de rvores de deciso, porm,
diferentemente da tarefa de classificao onde a tcnica utilizada para classificar
instncias, a regresso busca realizar uma estimativa de valor de uma determinada
varivel, ou seja, mapear um dado em um ou mais valores reais. Enquanto na tarefa
anterior, os registros so classificados em uma classe, nesta tarefa os registros so
classificados em um valor baseado em uma funo matemtica (GARCIA, 2012).
30
Em seu livro, Witten, Frank e Hall (2011) ressalta que quando o resultado ou
a classe alvo da predio numrica e todos os atributos so numricos, regresso
linear uma tcnica natural e se considerar. um mtodo baseado em estatsticas.
A ideia expressar a classe como uma combinao linear dos atributos com pesos
pr-determinados:
X = W0 + W1 A 1 + W2 A2 + ... + WAk Ak
Onde X a classe, A1, A2,...,Ak so valores de atributos e W 0, W1,..., W k so os
pesos.
Modelos lineares so fceis de se visualizar em duas dimenses, que o

equivalente a desenhar uma linha reta atravs de pontos de dados (WITTEN;
FRANK; HALL, 2011). O grfico 1 mostra um exemplo de uma linha montada sobre
o financiamento (crdito) estudantil, onde apenas a renda do aluno utilizada como
entrada. A classe financiamento mostrada no eixo vertical e a renda no eixo
horizontal, ambos so atributos numricos. A linha traada representa o melhor
ajuste da equao de predio. Os pontos X do grfico representam os alunos sem
crdito enquanto os pontos O do grfico representam os alunos com crdito
aprovado.
Grfico 1 - Exemplo de regresso linear
Fonte: (Witten; Frank; Hall, 2011)
Modelos lineares tambm podem ser aplicados em problemas de

classificao binria. Nestes casos, a linha produzida pelo modelo separa as duas
classes. Ela define onde a deciso muda de uma classe de valores para a outra, tal
31
linha muitas vezes referida como fronteira de deciso (WITTEN; FRANK; HALL,
2011).
4.1.2 Tarefas descritivas
A descrio tambm um dos objetivos fundamentais da minerao de

dados, busca por padres que descrevem os dados, de forma que possam ser
interpretveis pelos usurios, a fim de encontrar respostas que confirmem ou
neguem as hipteses (WITTEN; FRANK; HALL, 2011).
Nas tarefas descritivas (tambm conhecidas por modelos supervisionados,
modelos de verificao) a abordagem do tipo top-down, ou seja, existem hipteses
que foram previamente formuladas e so testadas para a verificao da sua
veracidade (GARCIA, 2012).
Nas prximas sees sero apresentadas formas de se realizar as tarefas
descritivas em base de dados.
4.1.2.1 Regras de Associao
Dentre as tarefas descritivas na minerao de dados mais utilizadas,

encontra-se a tarefa de anlise de associaes ou regras de associao. Esta tarefa
consiste na descoberta de regras que mostram condies nos valores dos atributos
que sugerem padres de associao fazendo um levantamento de quanto um
conjunto de atributos contribui para a presena de outro conjunto, realizando um
estudo de como os itens esto relacionados (GARCIA, 2012).
Podem ser aplicadas em estudos de preferncia, buscando por afinidade
entre os dados. Seu principal objetivo encontrar conjuntos de itens ou eventos que
ocorram junto, baseado na teoria de que a presena de um item em uma
determinada transao, implica na ocorrncia de outro (BUSS, 2010).
Uma regra de associao uma expresso de implicao X -> Y, onde X e
Y so um conjunto distinto de itens. Na formulao de regras de associao, duas
mtricas so consideradas importantes: o suporte e a confiana (WITTEN; FRANK;
HALL, 2011).
32
Suporte determina a frequncia na qual uma regra se aplica a um conjunto

de dados, j a confiana indica a frequncia na qual os itens em Y aparecem em
transaes que contenham X, indicando assim a probabilidade de associao entre
o conjunto de dados selecionados. Com isso, um suporte de 0,5 para uma regra de
associao indica que apenas 5% de todas as transaes sob anlise esto
aparecendo juntas. Da mesma forma, um nvel de 8% de confiana estabelece esse
grau de garantia dos itens estarem agrupados (WITTEN; FRANK; HALL, 2011).
A induo de regras uma tcnica comum neste tipo de tarefa, "os
algoritmos dessa tcnica consistem em regras de previso, do tipo SE..ENTO, em
que SE a condio da regra e ENTO prev o valor de algum atributo solicitado"
(GARCIA, 2012). Por exemplo, poderamos minerar regras com base nas notas dos
alunos em suas disciplinas, do tipo 80% dos alunos que tm bom desempenho na
disciplina de Lgica tem bom desempenho em estrutura de dados e programao.
Os algoritmos de regras de associao se utilizam de operador lgico AND para
gerar regras do tipo conjuntiva (COSTA et al, 2013).
No Grfico 2 exibido um modelo de diagrama demonstrando possveis
conjuntos nos clculos de suporte e confiana. Como pode-se observar, no conjunto
vermelho nenhuma parte da regra atendida, no conjunto verde (suporte) a regra
parcialmente atendida e no conjunto azul (confiana) a regra totalmente atendida.
Grfico 2 - Possveis Conjuntos nos Clculos de Suporte e Confiana
Fonte: (GARCIA, 2012).

33
O algoritmo mais utilizado nesse tipo de tcnica o Apriori. O princpio

Apriori diz que se um conjunto de itens frequente, ento todos os seus
subconjuntos tambm devem ser frequentes (WITTEN; FRANK; HALL, 2011). Esta
ideia pode ser vista no conjunto de dados exibidos no Grfico 2. Suponha que o
conjunto {c,d,e} seja um conjunto frequente, ento toda a transao que conter esse
conjunto, tambm dever conter os seus sub conjuntos {c,d}, {c,e}, {d.e}, {c}, {d}, {e}.
4.1.2.2 Agrupamento Clustering
A tarefa de agrupamento, tambm conhecida como o clustering uma

tcnica onde os algoritmos de agrupamento possuem aprendizado no
supervisionado. Com esta tcnica se espera conhecer novos atributos alvos (rtulos)
a partir de um conjunto de dados, sem ter classificao prvia (COSTA, et al., 2013).
Tem como principal objetivo dividir um conjunto de dados formando grupos
onde os dados fiquem agrupados de acordo com a semelhana entre eles,
baseando-se em modelos probabilsticos ou medidas de similaridade, determinando
quais so estes grupos, dividindo assim grupos heterogneos de dados em vrios
sub grupos homogneos. O agrupamento muitas vezes uma alternativa
apresentada pelas tcnicas de classificao, nas quais deve haver a preocupao
em rotular e coletar informaes para formar o conjunto de treinamento assim como
os conjuntos de testes (BUSS, 2010).
O algoritmo K-Means uma tcnica muito utilizada para esta tarefa, em que
o objetivo agrupar n elementos de um banco de dados em k agrupamentos. Onde
n corresponde ao nmero de itens da amostragem selecionada e k o nmero de
agrupamentos desejados. O nmero k de grupos que se deseja encontrar precisa
ser informado de antemo (COSTA et al., 2013).
Este algoritmo tem como vantagem a eficincia em tratar grandes conjuntos
de dados, porm como desvantagem tem a necessidade de informar o nmero k de
agrupamentos no incio do processamento, tornando o algoritmo um tanto limitado,
j que geralmente no se sabe em quantos grupos ficam mais bem subdivididos os
dados (GARCIA, 2012).
A determinao do nmero de clusters um processo iterativo, no qual o
modelador estima esse nmero e, aps vrias simulaes, opta pela melhor
34
alternativa. Em seguida, k pontos so escolhidos aleatoriamente para representar os

centroides dos grupos, ento para cada registro no banco de dados, encontra-se a
semente mais prxima para que este registro faa parte do grupo desta semente. A
cada iterao do algoritmo, os centroides so recalculados de acordo com os
elementos presentes no grupo e em seguida todos os elementos so realocados
para a partio cujo novo centroide se encontra mais prximo (COSTA et al., 2013).
A Figura 07 exibe o passo a passo do funcionamento do algoritmo K-Means.
Figura 07 - Funcionamento do algoritmo K-Means
Fonte: Costa et al. 2013.
Em seu trabalho Campello e Lins (2008) utilizaram tcnicas de agrupamento

em conjunto com o algoritmo K-Means na construo do modelo de anlise e
tratamento da evaso e reteno discente no curso de Engenharia de Produo da
UFPE, que permitiu aos autores reconhecer seis tipos de classes diferentes distintas
de alunos. A partir das caractersticas dessas classes foi possvel identificar novas
alternativas de ao para o problema da evaso. A Figura 08 exibe as classes
(clusters) dos alunos definidas pelo autor.
35
Figura 08 - Clusters de alunos associados evaso/reteno
Fonte: Campello e Lins (2008).
4.1.2.3 Padres sequncias
Os itens de uma cesta de compras contm informaes temporais sobre

quando um item foi comprado por um determinado cliente. Estas informaes podem
ser reunidas a fim de determinar a sequncia de transaes feitas por um cliente em
um determinado perodo de tempo.
De forma semelhante, dados baseados em eventos coletadas sobre a
sequncia das disciplinas cursadas por alunos no curso ou mesmo a sequncia de
pginas WEB visitadas no site da universidade, tambm podem ser reunidas a fim
de se determinar se uma sequncia de disciplinas cursadas contribui para a evaso
ou se alunos que pouco visitam as pginas da biblioteca da universidade tm maior
propenso a reprovar nas disciplinas.
Isto significa que uma relao comum, geralmente baseada em precedncia
temporal ou espacial, existe em eventos que ocorra em tais itens (TAN et al., 2009).
Em outras palavras, uma sequncia uma lista ordenada de elementos. A seguir
exibida uma lista de exemplo de sequncias:
36
Sequncias de pginas WEB visualizadas por um aluno no site da

universidade: ({Homepage}, {Servios online}, {Servio acadmicos},
{Mural eletrnico}, {Calendrios}).
Sequncias de disciplinas cursadas por um aluno do curso de cincia da
computao: ({Algoritmos, Estrutura de dados}, {Sistemas de bancos de
dados, Sistemas operacionais I}, {Redes de computadores, Engenharia
de software}, {Computao grfica, Clculo I}).
Uma sequncia pode ser caracterizada pelo seu tamanho e o nmero de

eventos ocorrentes, O tamanho de uma sequncia o nmero de elementos
presentes nessa sequncia (TAN et al., 2009). Na sequncia das pginas WEB do
exemplo anterior existem cinco elementos e cinco eventos. Na sequncia de
disciplinas cursadas, h quatro elementos e 8 eventos.
A descoberta de padres sequenciais se d atravs de um conjunto de
dados que contenha uma ou mais sequncia de dados. O termo sequncia de dados
se refere a uma lista ordenada de eventos associada a um nico objeto de dados. O
suporte de uma sequncia s a frao de todas as sequncias de dados que
contenham s. O usurio especifica um minsup ou valor mnimo para suporte, e se o
suporte para s for maior que esse minsup, ento ele declarado como um padro
sequencial (TAN et al., 2009).
O algoritmo mais utilizado neste tipo de tarefa o FP-Growth, que apresenta
uma distinta diferena do algoritmo Apriori pelo fato de no concordar com o
paradigma de gerar e testar. Em vez disso, ele codifica o conjunto de dados usando
uma estrutura de dados compacta chamada de rvore FP e extrai o conjunto de
itens diretamente desta estrutura. Este algoritmo apresentado de forma sucinta na
seo 4.3.5.
4.2 A classificao e rvores de deciso
Nesta subseo feita uma descrio mais aprofundada do uso de rvores

de deciso aplicadas na tarefa de classificao.
rvores de deciso geralmente apresentam aprendizado indutivo dividido em
aprendizado supervisionado e no-supervisionado (GARCIA, 2012). Conforme visto
37
nos captulos anteriores, Figura 03, uma tarefa de classificao interessante no

escopo deste trabalho pode ser a identificao da situao final do aluno no curso,
em que para cada aluno so definidos atributos categricos ordinais ou atributos
contnuos (Exemplo: idade, mdia no vestibular, mdia no curso, frequncia, nota
final nas disciplinas, entre outras) e atributos categricos no-ordinais (Exemplo:
sexo, naturalidade, estado civil, entre outros). A funo do classificador fazer um
mapeamento dos atributos para um status que representa a situao final do aluno
no curso (Exemplo: cursando, formado, evaso).
Nas tarefas de modelagem descritiva, um modelo de classificador utilizado
como uma ferramenta para diferenciar dados de diferentes classes. Um exemplo
disso utilizar um modelo de classificador para identificar quais so as principais
causas da desistncia de uma determinada disciplina. Com isso, possvel chegar a
concluses, por exemplo, de que em sua grande maioria, os alunos que desistiram
de uma determinada disciplina, apresentaram rendimento abaixo da mdia e esto
na faixa etria entre 26 e 35 anos. Quando h o interesse em anlise descritiva,
desejvel que o modelo de classificao seja de fcil interpretao, ou seja, que
fique evidente ao usurio o porqu de um determinado dado pertencer a uma
determinada classe.
Outro fator que torna essa tcnica muito utilizada que o conhecimento
adquirido pode ser representado por meio de regras. Essas regras podem ser
expressas em linguagem natural, facilitando assim o entendimento por parte dos
envolvidos (BUSS, 2011).
4.2.1 Principais conceitos sobre rvores de deciso
Nesta subseo sero vistos de forma mais aprofundada os principais

conceitos envolvidos na construo de rvores de deciso.
Aps a construo de uma rvore de deciso, pode-se utiliz-la
imediatamente e com um custo computacional muito baixo. Alm disso, a
interpretao da rvore de deciso uma das suas principais virtudes.
Uma rvore de deciso pode ser estruturada de diversas maneiras a partir
de um conjunto de atributos. De forma exaustiva, medida em que o nmero de
atributos cresce, o nmero de rvores de deciso possveis cresce
38
exponencialmente, tornando impraticvel definir a estrutura da rvore de deciso

tima para um determinado problema, devido ao elevado custo computacional
envolvido nessa busca (BRAMER, 2013).
Nesse sentido, algoritmos baseados em heursticas tm sido desenvolvidos
para a induo de rvores de deciso. Mesmo que eles no garantam uma soluo
tima, apresentam resultados satisfatrios em tempo aceitvel. Um desses
algoritmos o algoritmo de Hunt, que a base de muitos algoritmos de induo de
rvores de deciso existentes, como o CART (BREIMAN et al., 1994), ID3
(QUINLAN, 1986), C4.5 (QUINLAN, 1993).
4.2.1.1 Modelo de induo Top-Down
Baseado no algoritmo Top-Down Induction of Decision Tree que serve como

base para os principais algoritmos de induo para rvores de deciso, este modelo
gera regras de deciso em uma rvore de deciso, a qual construda por vrias
divises do conjunto de dados de acordo com os valores de seus atributos preditivos
(BRAMER, 2013).
Na prtica, este modelo baseado em um algoritmo recursivo de busca
gulosa que busca, sobre um conjunto de atributos, aqueles que melhor dividem o
conjunto dos dados de exemplo em subconjuntos. Primeiramente, todos os dados
so colocados em um nico nodo, chamado de nodo raiz. Em seguida, um atributo
preditivo escolhido para representar o teste desse nodo e, consequentemente,
dividir os dados em sub-conjuntos de dados. Esse processo se repete
recursivamente at que todos os dados j estejam classificados ou ento at que
todos os atributos preditivos j tenham sido utilizados (WITTEN; FRANK; HALL,
2011).
4.2.1.2 Seleo dos atributos preditivos para os nodos das rvores
A escolha por qual atributo preditivo ser utilizado em cada nodo da rvore
baseada no critrio de seleo. Existem diversos tipos de critrios de seleo, sendo
esta uma das diferenas entre os variados algoritmos de induo de rvores de
39
deciso. Esses critrios so baseados em termos da distribuio de classe dos

dados antes e aps a diviso (WITTEN; FRANK; HALL, 2011).
A grande maioria dos algoritmos de induo busca dividir os dados de um
nodo-pai de forma a minimizar o grau de impureza dos nodos-filhos. Os critrios
para a seleo da melhor diviso so baseados em diferentes medidas, tais como
dependncia, impureza e distncia. Quanto menor for o grau de impureza, mais
desequilibrada a distribuio das classes. Se todos os dados pertencem a uma
mesma classe em um determinado nodo, a impureza dele nula. Da mesma forma,
se existir o mesmo nmero de exemplos para cada classe possvel, o grau de
impureza mximo neste nodo (BRAMER, 2013).
Algumas das medidas mais utilizadas para a seleo da melhor diviso so
apresentadas a seguir.
4.2.1.3 Mtricas para a melhor diviso da rvore
Existem muitas mtricas que podem ser utilizadas para determinar a melhor
forma de dividir os dados. Conforme mencionado anteriormente, essas mtricas so
definidas em termos da distribuio da classe dos dados antes e aps a diviso.
Muitas vezes, o grau de impureza do nodo filho a base utilizada por essas
mtricas para selecionar a melhor diviso. Quanto menor o grau de impureza, mais
distorcida a distribuio da classe (BRAMER, 2013).
O Ganho de Informao uma das medidas baseadas em impureza, o qual
utiliza a entropia como medida da impureza. O algoritmo ID3 (QUINLAN, 1986),
utiliza essa mtrica. Para determinar quo boa uma condio de teste realizada,
necessrio comparar o grau de entropia do nodo-pai (antes da diviso) com o grau
de entropia dos nodos-filhos (aps a diviso). O atributo que gerar uma maior
diferena escolhido como condio de teste. O ganho definido pela Equao (1),
na forma:
Onde n o nmero de valores dos nodo-filhos, N o nmero total de objetos

do nodo-pai e (vj) o nmero de exemplos associados ao nodo-filho vj. O grau de
entropia definido pela Equao (2) a seguir:
40
Onde p (i / n) a frao dos registros pertencentes classe i no n, e c o

nmero de classes. O atributo-teste que maximiza o ganho de informao
selecionado pelo critrio de ganho. O grande problema ao se utilizar o ganho de
informao que ele d preferncia a atributos com muitos valores possveis
(BRAMER, 2013).
Um caso clssico desse problema aconteceria ao utilizar um atributo
insignificante (como por exemplo, o cdigo de matrcula de um aluno). Nesse
exemplo, seria criado um nodo para cada valor possvel, e o total de nodos seria
igual ao nmero de identificadores. Cada um desses nodos teria apenas um
exemplo, o qual pertence a uma nica classe, ou seja, os exemplos seriam
totalmente discriminados. Assim, o valor da entropia seria mnimo porque, em cada
n, todos os exemplos pertencem mesma classe. Essa diviso geraria um ganho
mximo, embora seja totalmente intil.
A razo de ganho, da sigla em Ingls (Gain Ratio), foi proposta por
QUINLAN (1993) para solucionar o problema do ganho de informao. Ela nada
mais do que o ganho de informao relativo (ponderado) como critrio de
avaliao. A razo de ganho definida pela Equao (3), na forma:
possvel perceber pela Equao (3), que a razo de ganho no definida

quando o denominador igual a zero. Alm disso, favorece atributos cujo
denominador, ou seja, a entropia, possui valor pequeno. Em Quinlan (1988),
sugerido que a razo de ganho seja realizada em duas etapas.
Primeiramente calculando o ganho de informao para todos os atributos.
Aps isso, considerar apenas aqueles atributos que obtiveram um ganho de
informao acima da mdia, e ento escolher aquele que apresentar a melhor razo
de ganho (BASGALUPP, 2010).
Gini outra medida bastante conhecida, a qual emprega um ndice de
disperso estatstica proposto por Corrado Gini em 1912. Este ndice muito
41
utilizado em anlises econmicas e sociais, por exemplo, para quantificar a

distribuio de renda em um certo pas.
O algoritmo CART (BREIMAN et al., 1994) utiliza essa medida. Para um
problema de c classes, o gini definido pela Equao (4), na forma:
Como no clculo do ganho de informao, basta calcular a diferena entre o

gini antes e aps a diviso. Essa diferena, Gini, representada pela Equao (5):
Onde n o nmero de valores do atributo (nmero de nodos-filhos), N o

nmero total de objetos do nodo-pai e (Nvj) o nmero de exemplos associados ao
nodo-filho vj.
4.2.1.4 Atributos categricos
O desempenho das rvores de deciso induzidas influenciado de maneira

decisiva pela forma de representao dos nodos. Existem diferentes tipos de
representao dos nodos para a diviso dos dados, dependendo do tipo de atributo.
A seguir, so apresentadas algumas das formas de representao considerando
atributos categricos no-ordinais e ordinais (BRAMER, 2013).
Um ramo por valor de atributo: Uma aresta criada para cada valor do
atributo usado como condio de teste. Embora esse tipo de partio permita extrair
do atributo todo o seu contedo informativo, possui a desvantagem de tornar a
rvore de deciso mais complexa. O algoritmo C4.5 Quinlan (1993) utiliza esse tipo
de diviso para atributos categricos no ordinais.
Atributos categricos ordinais: Conforme visto nos captulos anteriores, um
atributo ordinal quando h uma relao de ordem entre os seus possveis valores.
Por exemplo, tem-se um atributo renda que pode possuir os valores baixa, mdia
e alta. Com atributos desse tipo, possvel realizar uma partio binria do tipo
renda < mdia, em que todos os exemplos cujo atributo renda tem valor baixa
seguem por uma aresta e os outros seguem por outra aresta. O algoritmo CART
(BREIMAN et al., 1994) utiliza esse tipo de partio.
42
Valores agrupados em dois conjuntos: A diviso binria tambm pode ser

realizada de uma forma mais complexa de acordo com Breiman et al. (1994), onde
cada um dos dois subconjuntos pode ser formado por registros com mais de um
valor para o atributo utilizado como condio de teste. O elevado custo
computacional para encontrar a melhor diviso o grande desafio desse tipo de
diviso, pois o nmero de combinaes possveis (21 - 1), onde n o nmero
de valores possveis para o atributo em questo.
Valores agrupados em vrios conjuntos: O algoritmo C4.5, Quinlan (1993),
gera uma soluo de boa qualidade no intuito de permitir o agrupamento de valores
em diversos conjuntos com uma complexidade de clculo razovel. Para isso, inicia
criando uma aresta para cada valor do atributo em teste. Aps, so verificadas todas
as combinaes possveis de dois valores e, caso nenhuma dessas combinaes
produza um ganho maior que a diviso anterior, o processo interrompido e a
diviso anterior adotada. Caso contrrio, o processo repetido tendo como base a
melhor das solues anteriores. Percebe-se que no se pode garantir que a diviso
encontrada seja a melhor possvel, pois verificado se houve melhoria apenas um
passo frente.
4.2.1.5 Atributos contnuos
Alguns dos testes mais utilizados para partio de atributos contnuos so:
testes simples ou pesquisa exaustiva e os testes mltiplos. Os testes mltiplos
podem ser de segmentao global ou segmentao ao nvel do n. Fonseca (1994).
Os atributos contnuos permitem uma maior variedade de testes e,
consequentemente, implicam uma maior complexidade de clculo.
O teste simples, tambm conhecido como pesquisa exaustiva, o mais
utilizado. Um dos algoritmos que o utiliza o C4.5, e a diviso sempre binria.
Supondo um atributo contnuo Z a ser utilizado como n teste, mesmo que seu
domnio seja infinito, o nmero de exemplos num conjunto de treinamento Q finito
e, portanto, o nmero de valores diferentes para esse atributo tambm finito.
43
4.2.1.6 Mtodos de poda em rvores de deciso
Um cuidado que se deve ter com rvores de deciso o crescimento

exagerado da rvore. Caso isso ocorra, deve-se contornar a situao com a
operao denominada poda da rvore de deciso. Esta operao consiste em
substituir os nodos profundos por folhas, removendo as ligaes que fornecem um
baixo valor de ganho de informao.
Existem diversas formas de realizar poda em uma rvore de deciso, e
todas elas so classificadas como pr-poda ou ps-poda (BASGALUPP, 2010).
O mtodo pr-poda realizado durante o processo de construo da rvore,
em que o processo pode simplesmente parar de dividir o conjunto de elementos e
transformar o nodo corrente em um nodo folha da rvore.
Um critrio de poda que pode ser utilizado o ganho de informao. Caso
todas as divises possveis utilizando um atributo Z gerem ganhos menores que um
valor pr-estabelecido, ento esse nodo vira folha, representando a classe mais
frequente no conjunto de dados.
O mtodo ps-poda realizado aps a construo da rvore de deciso,
removendo ramos completos, onde tudo que est abaixo de um nodo interno
excludo e esse nodo transformado em folha, representando a classe mais
frequente no ramo.
Para cada nodo interno da rvore, o algoritmo calcula a taxa de erro caso a
sub-rvore abaixo desse n seja podada. Em seguida, calculada a taxa de erro
caso no haja a poda. Se a diferena entre essas duas taxas de erro for menor que
um valor predeterminado, a rvore podada. Caso contrrio, no ocorre a poda
(BASGALUPP, 2010).
4.2.1.7 Super ajuste ou Overfiting
No momento da construo das rvores de deciso, muitas das arestas ou

sub-rvores podem refletir rudos ou erros. Isso acarreta em um problema conhecido
como sobre ajuste, que significa um aprendizado muito especfico do conjunto de
treinamento, no permitindo ao modelo generalizar.
44
Os erros mais cometidos por um modelo de classificao so geralmente

divididos em dois tipos: erros de treinamento e erro de generalizao (BASGALUPP,
2010). Erros de treinamento so o nmero de erros de classificao equivocada
contida nos dados de treinamento, enquanto erros de generalizao so os erros
esperados pelo modelo em dados no vistos anteriormente.
Um bom modelo de classificao deve no apenas se adaptar bem aos
dados de treinamento, como tambm deve classificar com preciso os registros
nunca vistos antes por ele. Em outras palavras, um bom modelo deve ter baixa
quantidade de erros de treinamento assim como de erros de generalizao.
Isto importante porque um modelo que seja apropriado aos dados de
treinamento pode muito bem ter um erro de generalizao mais pobre do que um
modelo com alto grau de erro de treinamento (BASGALUPP, 2010). Tal situao
conhecida como overfiting do modelo.
4.3 Algoritmos de rvores de deciso
Nesta sesso, sero apresentados de forma sucinta os cinco principais

algoritmos para induo de rvores de deciso. Os algoritmos em estudo so: CART
Breiman et al. (1994), ID3 Quinlan (1986) e C4.5 Quinlan (1993), Apriori Agrawal et
al. (1996), FP-Growth TAN et al. (2009).
4.3.1 Algoritmo CART
O algoritmo CART (Classification and Regression Trees) foi proposto em

Breiman et al. (1994) e consiste em uma tcnica que induz tanto rvores de
classificao quanto rvores de regresso, dependendo se o atributo nominal
(classificao) ou contnuo (regresso).
Uma das suas principais vantagens a grande capacidade de pesquisa de
relaes entre os dados, mesmo quando elas no so evidentes, bem como a
produo de resultados sob a forma de rvores de deciso de grande simplicidade e
legibilidade (CAMPELO, 1994).
45
O algoritmo CART gera rvores binrias, as quais podem ser percorridas da

sua raiz at as folhas respondendo apenas a questes simples do tipo sim ou no
(BASGALUPP, 2010).
Os nodos que correspondem a atributos contnuos so representados por
agrupamento de valores em dois conjuntos. Utiliza a tcnica de pesquisa exaustiva
para definir os limiares a serem utilizados nos nodos para dividir os atributos
contnuos. Tambm dispe de um tratamento especial para atributos ordenados,
alm de permitir a utilizao de combinaes lineares entre atributos, ou seja,
agrupamento de valores em vrios conjuntos. Diferente das abordagens adotadas
por outros algoritmos, os quais utilizam pr-poda, o CART expande a rvore
exaustivamente, realizando ps-poda por meio da reduo do fator complexidade-
custo (BREIMAN et al., 1994).
4.3.2 Algoritmo ID3
O ID3, Quinlan (1986) o algoritmo pioneiro em induo de rvores de

deciso. um algoritmo recursivo, baseado em busca gulosa, procurando, sobre um
conjunto de atributos, aqueles que melhor dividem os dados, gerando sub-rvores.
A partir de um conjunto de dados, ele constri rvores de deciso, sendo a rvore
resultante usada para classificar amostras futuras.
O ID3 separa um conjunto de treinamento em subconjuntos, de forma que
estes contenham exemplos de uma nica classe. A diviso efetuada atravs de
um nico atributo, utilizando o ganho de informao para medir quanto informativo
um atributo (DANKEL, 1997).
O algoritmo ID3 s lida com atributos categricos no-ordinais, no sendo
possvel apresentar a ele conjuntos de dados com atributos contnuos, por exemplo.
Nesse caso, os atributos contnuos devem ser previamente discretizados. Alm
disso, o algoritmo ID3 tambm no apresenta nenhuma forma para tratar valores
desconhecidos, ou seja, todos os exemplos do conjunto de treinamento devem ter
valores conhecidos para todos os seus atributos, isso acaba tornando necessrio
gastar um bom tempo com pr-processamento dos dados para utilizar este algoritmo
(BASGALUPP, 2010).
46
O ganho de informao utilizado pelo ID3 para selecionar a melhor diviso.

No entanto, esse critrio no considera o nmero de divises (nmero de arestas), e
isso pode acarretar em rvores mais complexas. Alm disso, o ID3 tambm no
apresenta nenhum mtodo de ps-poda, o que poderia amenizar esse problema de
rvores mais complexas.
4.3.3 Algoritmo C4.5 ou J48
O algoritmo C4.5 foi criado por Quinlan (1993), sendo um dos algoritmos
mais utilizados para a construo de rvores de deciso. Representa uma
significativa evoluo do ID3 do mesmo autor.
Consegue trabalhar tanto com atributos categricos (ordinais ou no-
ordinais) como com atributos contnuos. Para tratar com atributos contnuos, o
algoritmo C4.5 define um limiar e ento divide os exemplos de forma binria:
aqueles cujo valor do atributo maior que o limiar e aqueles cujo valor do atributo
menor ou igual ao limiar (BASGALUPP, 2010).
Consegue tratar valores desconhecidos. Esse algoritmo permite que os
valores desconhecidos para um determinado atributo sejam representados como ?,
e o algoritmo trata esses valores de forma especial. Esses valores no so utilizados
nos clculos de ganho e entropia.
Utiliza a medida de razo de ganho para selecionar o atributo que melhor
divide os dados. Essa medida se mostrou superior ao ganho de informao, gerando
rvores mais precisas e menos complexas.
Apresenta um mtodo de ps-poda das rvores geradas. Ele faz uma busca
na rvore, de baixo para cima, e transforma em ns folha aqueles ramos que no
apresentam nenhum ganho significativo (BASGALUPP, 2010).
4.3.4 Algoritmo Apriori
O algoritmo Apriori (AGRAWAL et al., 1996) consolidou-se como o primeiro

algoritmo de minerao de regras de associao considerado eficiente. Esse
algoritmo combina uma estratgia de busca denominada Breadth-first search (BFS)
com uma estrutura de rvore para contagem de ocorrncia de candidatos. O
47
princpio Apriori parte do pressuposto de que se um conjunto de itens frequente,

ento todos os seus subconjuntos tambm devem ser frequentes.
Um conjunto de itens considerado frequente se o seu suporte for maior ou
igual ao limiar minsup que definido pelo usurio antes da execuo do algoritmo.
Um dos maiores problemas dessa abordagem justamente a contagem do suporte
para cada conjunto de itens, que cresce de forma exponencial (TAN et al., 2009).
Apriori foi o primeiro algoritmo de minerao de regras a usar a poda
baseada em suporte para controlar o crescimento exponencial dos conjuntos de
itens frequentes, ou seja, se um conjunto de itens possuir um suporte menor que o
minsup, ento todos os seus subconjuntos tambm sero menores, eliminando
assim todos esses conjuntos (Agrawal et al., 1996).
O processo que determina a frequncia com que ocorrem cada conjunto de
itens frequentes a contagem de suporte. Este processo apresenta uma abordagem
computacionalmente custosa, principalmente quando os nmeros de transaes e
conjuntos de itens candidatos a itens frequentes forem grandes (TAN et al., 2009).
Este algoritmo utiliza uma abordagem de nveis para gerar regras de
associao, onde cada nvel corresponde ao nmero de itens que pertence ao
resultado da regra. Inicialmente, regras de confiana alta que tenham apenas um
item no resultado da regra so extradas. Por exemplo, se o conjunto {1,2,3} -> {4} e
{1,4,3} -> {2} forem regras de confiana alta, ento a regra candidata {1,3} -> {4,2}
criada pela fuso dos resultados de ambas as regras.
4.3.5 Algoritmo FP-Growth
O algoritmo FP-growth (TAN et al., 2009) apresenta uma diferena bastante

significativa do algoritmo Apriori, por no utilizar a tcnica gerar e testar utilizada no
Apriori. O FP-growth utiliza uma rvore FP compacta para codificar o conjunto de
dados e extrai o conjunto de itens frequente diretamente desta estrutura.
Uma rvore FP uma representao compactada dos dados de entrada,
construda atravs da leitura do conjunto de dados de entrada mapeando transao
por transao em um caminho na rvore. Como diversas transaes podem conter
muitos itens em comum, em muitos casos os caminhos dessas transaes podem
ser sobrepostos, quanto mais caminhos forem sobrepostos, maior a compreenso
que se pode obter da rvore FP (TAN et al., 2009).
48
O algoritmo FP-growth explora a rvore FP de baixo para cima para gerar os

conjuntos de itens frequentes. Utiliza esta estratgia de bottom-up para encontrar
conjuntos de itens frequentes terminados em um determinado item em particular,
uma vez que cada transao mapeada para um caminho na rvore, podendo
assim examinar apenas os caminhos que contenham o nodo especificado.
O algoritmo encontra todos os grupos de itens frequentes terminados em um
sufixo definido utilizando a estratgia de dividir para conquistar, dividindo o problema
em pequenos subproblemas (TAN et al., 2009). um algoritmo interessante, por que
mostra como uma representao compacta do conjunto de dados da transao
ajuda a gerar conjuntos de itens frequentes de modo eficiente.
.
49
5 FERRAMENTAS DE MINERAO DE DADOS
Este captulo tem como objetivo apresentar algumas das principais

ferramentas utilizadas na rea de minerao de dados para realizar o processo de
descoberta de conhecimento no contexto educacional, sendo selecionado os dois
principais programas de minerao destacados pelos trabalhos relacionados.
Existem inmeras ferramentas de minerao de dados disponveis, de uso
comercial e acadmico, que fornecem as mais variadas colees de algoritmos de
minerao, algoritmos de pr-processamento, tcnicas de visualizao de dados,
entre outras funcionalidades. Entre elas podemos citar o Oracle Data Miner,
DBMiner, Clementine, IBM Intelligent Miner, WEKA, Hall et al. (2009) e
RAPIDMINER (RAPIDMINER, 2014).
Apesar de muitos trabalhos e pesquisas sobre a minerao de dados
educacionais e todos os esforos em propor e construir ferramentas de minerao
que levem em conta as particularidades da minerao no mbito educacional, duas
dessas ferramentas so as que mais se destacam neste contexto: RAPIDMINER e
WEKA. Por este motivo, essas ferramentas foram escolhidas e sero apresentadas
de forma sucinta nas subsees a seguir.
5.1 RAPIDMINER
O RAPIDMINER um sistema para a minerao de dados de cdigo aberto.

um aplicativo distribudo de forma independente para anlise de dados, minerao
de texto e de dados, alm disso, permite a integrao com outros produtos
desenvolvidos pelo mesmo projeto.
O fato de possuir cdigo aberto e, por isso, ser disponibilizada
gratuitamente, uma das caractersticas interessantes dessa ferramenta, alm de
funcionar na maioria das principais plataformas e sistemas operacionais.
Disponibiliza o acesso as suas funcionalidades por meio de uma interface grfica
intuitiva, linhas de comando e API Java, possibilitando a construo de aplicaes
que a utilizem por meio de um mecanismo simples.
Alm disso, o RAPIDMINER possui a biblioteca de algoritmos de
aprendizagem do WEKA totalmente integrada e possibilita o acesso a diferentes
50
fontes de dados, como: Excel, Acess, Oracle, Microsoft SQL Server, MySQL,
Postgres, Arquivos de texto, entre outros.
Na Figura 09 exibida uma de suas telas, onde a base de dados carregada
pode ser visualizada.
Figura 09 - Interface grfica do RAPIDMINER
Fonte: Manual do usurio do RAPIDMINER.
Na Figura 10 apresentada outra de suas telas onde pode ser vista uma
rvore de deciso em uma representao grfica.
51
Figura 10 - rvore de deciso de exemplo no RAPIDMINER
Fonte: Manual de usurio do RAPIDMINER.
Alm das caractersticas apresentadas, so destacadas outras

caractersticas por desenvolvedores (RAPIDMINER, 2014) como diferenciais da
ferramenta. Com mais de 500 operadores de integrao e transformao dos dados,
minerao, avaliao, visualizao; e conceito visualizao multicamadas de dados
garante a manipulao de dados mais eficiente, entre outras.
O RAPIDMINER oferece uma vasta documentao incluindo tutorias em
vdeos, um manual da ferramenta alm de guia de instalao. O manual muito
bem elaborado e aborda, alm de um passo-a-passo de como utilizar a ferramenta,
uma introduo aos conceitos fundamentais e necessrios sobre minerao de
dados.
5.2 WEKA
Muito popular no meio acadmico, o WEKA (Waikato Environment for

Knowledge Analysis) um software livre escrito em Java e desenvolvido pela
Universidade de Waikato, Nova Zelndia, formado por uma coleo de algoritmos de
diversas tcnicas de minerao de dados e ferramentas de pr-processamento
(HALL et al., 2009).
52
O WEKA tambm oferece suporte a todo processo de minerao de dados,

que inclui suporte preparao dos dados de entrada, avaliao estatstica da
aprendizagem, visualizao dos dados de entrada e os resultados. Todas as
funcionalidades do programa podem ser acessadas atravs de uma interface
simples e intuitiva.
Nesta interface, os algoritmos de aprendizagem e as diversas ferramentas
para transformao podem ser aplicados diretamente nas bases de dados sem que
seja necessrio escrever nenhum cdigo. O WEKA incorpora os principais mtodos
para as mais diversas reas de aplicao da minerao de dados, estre elas a
classificao, regresso, regras de associao, agrupamento e seleo de atributos
(HALL et al. 2009). O formato padro estabelecido para o WEKA o ARFF, que
um formato de entrada especfico da ferramenta e tem a forma de uma tabela
relacional simples. O ARFF pode ser construdo a partir de uma base de dados ou
carregado de um arquivo.
A Figura 11 exibida a interface grfica do WEKA onde a base de dados
carregada pode ser visualizada e melhor analisada.
Figura 11 - Interface grfica do WEKA com dados carregados para anlise
Fonte: Hall et al. 2009. Adaptado pelo autor.

53
Na Figura 12 apresentada uma representao grfica de uma rvore

de deciso de exemplo gerada pelo algoritmo C4.5 ou J4.8 como ele chamado no
WEKA.
Figura 12 - rvore gerada pelo algoritmo J48 no WEKA
Fonte: WEKA. Adaptado pelo autor.
A Figura 13 exibe outra forma de representao grfica de uma rvore de

deciso gerada no WEKA, desta vez gera pelo algoritmo CART.
54
Figura 13 - rvore gerada pelo algoritmo CART no WEKA
Fonte: Hall et al. 2009. Adaptado pelo autor.
O WEKA tambm oferece sua API Java, que permite a construo de

aplicaes que utilizem todas as funcionalidades disponibilizadas pela ferramenta.
Esta API tambm oferece suporte a construo do arquivo ARFF que o formato
especfico aceito pelos algoritmos implementados pela ferramenta.
Alm disso, fornece uma vasta documentao on-line, mantm uma
comunidade de entusiastas que mantm o projeto atualizado e em constante
evoluo, disponibiliza todo o material produzido pelo projeto, como o livro Data
Mining Practical Machine Learning Tools and Techniques (HALL et al., 2009).
55
6 TRABALHOS RELACIONADOS
Neste captulo, sero discutidos os trabalhos relacionados ao assunto da

evaso no ensino superior, foco principal deste trabalho.
O desempenho acadmico um tema amplamente pesquisado, sendo
estudado por diversos pesquisadores h algum tempo. Tinto, 1975, definiu um
modelo terico para explicar as causas da evaso discente, considerando o
processo de desgaste do aluno como uma interao scio-psicolgica entre as
caractersticas do aluno universitrio e a sua experincia no instituto de ensino.
Essa interao entre o passado do aluno e do ambiente acadmico leva a
um grau de integrao do aluno para este novo ambiente, sugerindo dessa forma,
que o aluno deixa a universidade por problemas causados pela falta de integrao
com o ambiente acadmico e social da instituio (RIGO; CAZELLA; CAMBRUZZI,
2012).
Tinto (1987) aperfeioou seu modelo e posteriormente outros estudos
concluem que essa integrao influenciada, direta ou indiretamente, por
caractersticas demogrficas do discente, tais como: nvel scio-econmico da
famlia, expectativa dos pais a respeito do futuro do filho, habilidades acadmicas do
aprendiz, conhecimentos adquiridos atravs da educao formal e/ou informal
(ANDRIOLA et. al., 2006). Ambos os modelos envolvem a condio social do aluno,
atributos como idade, gnero, experincias escolares, habilidades passoais,
juntamente com suas expectativas de desenvolvimento pessoal e de carreira,
associadas com a motivao para o desempenho acadmico e o seu
reconhecimento.
Estas caractersticas so consideradas dentro de um espao temporal, de
modo que a importncia e influncia de cada uma delas muda de acordo com o
tempo no ambiente universitrio (RIGO; CAZELLA; CAMBRUZZI, 2012).
A Figura 14 mostra resumidamente este modelo, destacando tanto a
influncia de aspectos pessoais e sociais existentes antes do ingresso no curso
universitrio, como aspectos relacionados com o contato acadmico, metodologia de
aprendizagem e integrao institucional.
56
Figura 14 - Modelo proposto por Tinto (1975)
Fonte: (ANDRIOLA et al, 2006).
Mtodos estatsticos tambm foram amplamente utilizados para a melhor

compreenso do problema da evaso. Johnston (1997) realizou uma anlise de
registros dos alunos de uma universidade Escocesa, mostrando que mais de um
quarto dos alunos que ingressava nos cursos de graduao no estava progredindo
ou estava se retirando dos mesmos. A pesquisa sugere que os problemas no
acadmicos so mais suscetveis de contribuir para o fracasso de um aluno do que
problemas acadmicos e que a gama de problemas no acadmicos muito mais
complexa e ampla. Alm disso, a percepo pessoal do grau de influncia exercido
por esses problemas nem sempre foi acompanhada pela incidncia registrada na
pesquisa.
Deve ser destacada a necessidade de avaliao cuidadosa de modelos
como os descritos acima, devido grande dinamicidade observada em relao a
estes fatores e seus efeitos (RIGO; CAZELLA; CAMBRUZZI, 2012). Fatores tais
como aspectos sociais podem ser superados a partir de nveis motivacionais ou
expectativas de carreira, bem como aspectos metodolgicos e aes pedaggicas
podem ser associados com fatores motivacionais (ADACHI, 2009).
Em sua grande maioria, os trabalhos relacionados utilizao de tcnicas
de minerao de dados sobre dados educacionais est restrita a identificar
57
resultados em pequenos contextos, relativos a apenas algumas disciplinas e na

maior parte dos casos esto ligados a cursos no presenciais.
Regras de associao foram utilizadas por Minaei-Bidgoli et al. (2006), para
identificar padres de informaes em bases de dados geradas a partir de sistemas
educacionais online, utilizando como base a disciplina de Fsica onde os autores
demostraram que um conjunto de regras permite identificar quais os atributos que
caracterizam padro de desempenho dos grupos de alunos, neste caso, oferecida
em ambiente online.
Um trabalho interessante foi realizado por Dekker et al. (2009), onde os
autores consideram trs conjuntos de dados: um conjunto com os dados de pr-
universitrios contendo apenas 495 casos (242 instncias classificadas como sem
sucesso, 253 casos classificados como sucesso), cada um descrito com 13
atributos. Um conjunto de dados das notas de alunos de curso universitrio
contendo apenas 516 casos (253 instncias classificadas como sem sucesso, 263
casos classificados como bem-sucedido), cada um descrito com 74 atributos (para
cada uma das 37 disciplinas disponveis, dois atributos dizendo quantas tentativas
foram feitas, e qual foi a maior nota). Por fim, outro conjunto de dados com os outros
dois conjuntos anteriores juntos. Conforme visto, o conjunto com os dados dos
alunos universitrios possuem apenas dois atributos (tentativa e nota mais alta),
enquanto o conjunto com os dados pr-universitrios possuam 13 atributos.
Com o auxlio da ferramenta de minerao de dados WEKA, os autores
testaram e compararam alguns algoritmos de minerao de dados nos conjuntos
citados, dentre os quais pode-se destacar:
rvores de deciso CART (SimpleCart) e C4.5 (J48)

Redes Bayesiana (BayesNet)
Um modelo logstico (SimpleLogistic)
Regras de associao (JRip, OneR)
Os resultados obtidos mostram que rvores de deciso ou classificadores

bastante simples, podem gerar um resultado satisfatrio com precises entre 75 e
80% conforme podemos observar na Tabela 1.
58
Tabela 1 - Tabela de resultados comparando diferentes algoritmos
Fonte: (DEKKER et al., 2009).
A tabela 1 mostra a pontuao da acurcia dos algoritmos de minerao

para obter uma melhor viso sobre o desempenho de classificadores. Pode-se
constatar que o algoritmo OneR tem uma taxa de Falso negativo mais elevada do
que todos os outros algoritmos. Esta uma descoberta interessante, porque de
acordo com os autores melhor classificar como propenso a evaso erroneamente
um aluno que deve realmente ser classificado como no propenso evaso, do que
dar um parecer negativo erroneamente a um aluno que deve ser classificado como
positivo.
Um trabalho semelhante foi realizado por Manhes et al. (2011) onde os
autores analisaram dados de alunos da Escola Politcnica da Universidade Federal
do Rio de Janeiro UFRJ no perodo de 1994 a 2005. A base de dados foi
composta por informaes de 543 alunos que concluram o curso de Engenharia e
mais 344 registros de alunos que no concluram. Com o auxlio da ferramenta de
minerao de dados WEKA, foram avaliadas tcnicas atravs de trs experimentos,
onde foram aplicados dez algoritmos de classificao sobre a base de dados. Os
experimentos retornaram dados com acurcia mdia variando entre 75 a 80%. Os
desempenhos obtidos pelos algoritmos de minerao de dados dos mais simples
aos mais sofisticados foram semelhantes. Tambm indicam que a previso de
alunos com risco de evaso pode ser feita a partir de um nmero reduzido de
atributos, por exemplo, verificou-se que o atributo mais importante o coeficiente de
rendimento do primeiro semestre letivo, o segundo a nota na disciplina de Clculo
Diferencial e Integral I.
Conforme Manhes et. al. (2011) este assunto necessita de muita pesquisa
e discusso. Minerao de dados utilizada na busca de padres de informao em
base de dados educacionais a fim de identificar possveis evases e suas principais
59
causas, um campo de investigao ainda no consolidado que necessita de

investigaes complementares tanto na definio dos atributos a serem utilizados
quanto nas tcnicas de minerao de dados empregadas.
Existem pontos que precisam ser pesquisados para aprimorar a utilizao da
minerao de dados como a transformao dos dados, a identificao dos atributos
mais relevantes, qual a melhor tcnica e quais os algoritmos so os mais propcios
para serem usados em um determinado problema, entre outros (MANHES et al.,
2011).
6.1 Anlise dos trabalhos relacionados
A Tabela 2 apresenta uma comparao entre os trabalhos relacionados e

este trabalho, quais as tcnicas utilizadas nos experimentos, exibindo um conjunto
de critrios definidos tais como: Objetivo do trabalho, quais os dados que foram
disponibilizados alm da tarefa, tcnica e algoritmo de Minerao de dados
utilizados.
Tabela 2 - Comparativo entre os Trabalhos Relacionados
Dados Tarefa
Trabalho Objetivo Tcnica Algoritmo
Utilizados Utilizada
Tinto, 1975 Explicar as causas Pessoais, sociais Associao Modelo terico -
da evaso discente e acadmicos
Johnston, Descobrir por que Coletadas por Classificao Estatstica -

1997 mais de dos acadmicos,
alunos evadem como lderes de
curso
Minaei- Identificar padres Pessoais e Associao Regras de A Priori
Bidgoli et em bases de dados acadmicos, associao
al. 2006 de sistemas tendo a disciplina
educacionais online de fsica como
base
Dekker et Prever a evaso do Dados pr- Classificao, rvores de SimpleCart, J48,

al., 2009 curso de universitrios e Associao Deciso, BayesNet,
Engenharia Eltrica dados Regras de SimpleLogistic,
aps o primeiro acadmicos. associao, JRip, OneR
semestre Redes
Bayesianas
Manhes Identificar Dados da grade Classificao, rvores de OneR, JRip, J48,
et al., 2011 precocemente curricular do Associao Deciso, RandomForest,
alunos em risco de curso de Regras de SimpleLogistic,
evaso nos cursos Engenharia associao, NaiveBayes, A Priori
de graduao Redes
Bayesianas
Fonte: Do Autor.
60
A partir dos estudos feitos nos trabalhos relacionados apresentados neste

captulo, pode-se destacar que a tarefa, em sua grande maioria, foi a de
classificao de objetos alvos e predominou o uso da tcnica de rvores de deciso
em conjunto com o algoritmo J48, j no que se diz respeito ao uso de regras de
associao, o algoritmo Apriori foi o que teve maior destaque.
Para a realizao deste estudo, foram escolhidas as tcnicas de
classificao e associao para serem utilizadas nos experimentos.
Na tarefa de classificao ser utilizado o algoritmo J48, assim como em
Manhes e Dekker, o resultado da preciso deste algoritmo nos testes realizados
durante a faze de familiarizao do autor com a ferramenta de minerao se
mostraram satisfatrios, ou seja, apresentaram uma boa acurcia.
Na tarefa de associao sero testados dois algoritmos diferentes, Apriori e
FPGrowth. A escolha pelo algoritmo Apriori se d em funo da sua utilizao nos
trabalhos relacionados, j o FPGrowth ser utilizado para testar o comportamento
destes dois algoritmos quando aplicados no mesmo conjunto de dados.
A escolha pela ferramenta de minerao de dados WEKA, Hall et al. (2009)
se deu em funo de ser amplamente utilizado nos trabalhos relacionados, pela
facilidade de uso, tambm por ela ser uma ferramenta livre de cdigo aberto sem
custos para utilizao e de fcil integrao com outras linguagens de programao
como Java por exemplo, visando trabalhos futuros, alm do grande volume de
material escrito e exemplos sobre o mesmo.
61
7 METODOLOGIA E CONTEXTUALIZAAO DO PROBLEMA
Neste captulo, so apresentados a metodologia utilizada no

desenvolvimento do trabalho e a contextualizao do fenmeno em estudo na
Universidade de Santa Cruz do Sul - UNISC.
A pesquisa e reviso bibliogrfica foi o ponto inicial deste trabalho, com base
nela foram definidas as tecnologias e tcnicas a serem adotadas para o
desenvolvimento do estudo. Com relao aos objetivos, este trabalho se originou de
uma pesquisa exploratria e explicativa. A pesquisa exploratria proporciona maior
familiaridade com o tema, j a pesquisa explicativa, tem por objetivo identificar os
fatores que determinam ou que contribuem para a ocorrncia do fenmeno estudado
(GIL, 2002).
O Curso de Cincia da Computao da UNISC possui um currculo com 55
disciplinas divididas em 9 semestres, totalizando uma carga horria de 3.210 horas,
que permite ampla formao cientfica, cujo embasamento terico-prtico
oportuniza, aos alunos, acompanharem novas e dinmicas tendncias em funo da
rpida evoluo tecnolgica neste campo. O perfil dos ingressantes no curso so
principalmente alunos provenientes do ensino mdio, atravs da realizao de
vestibular (Setor de informtica da UNISC).
Como fonte de dados para este trabalho, foram utilizados dados acadmicos
relativos aos alunos matriculados no curso de cincia da computao da UNISC,
preservando os dados pessoais dos alunos por no serem considerados importantes
na descoberta por padres da evaso.
Foram disponibilizados dados em forma de arquivo texto das tabelas: i)
ALUNOS (matrcula, data de nascimento, sexo, estado civil, classificao e mdia no
vestibular, ano de ingresso); ii) ALUNOS_CURSOS (matrcula, cdigo do curso, tipo
de movimentao do aluno, se ingresso ou desistncia, data colao de grau); iii)
DISCIPLINAS_CURSADAS (matrcula, ano que foi cursada a disciplina, cdigo da
disciplina, carga horria, frequncia e notas obtidas); iv) ITENS_CONCLUIDOS
(matrcula, cdigo curso, cdigo do currculo, tipo de concluso da disciplina,
crditos obtidos); v) OCORRENCIAS_ALUNOS (matrcula, cdigo do curso, tipo -
ingresso ou evaso - e sub tipo da ocorrncia, data que o aluno evadiu ou ingressou
no curso, ano e mdia do vestibular); vi) DISCIPLINAS (cdigo da disciplina, nome
da disciplina).
62
O primeiro passo do trabalho foi um estudo detalhado nos dados

acadmicos cedidos pelo setor de informtica da UNISC, feito em duas etapas: Em
um primeiro momento analisando diretamente os dados, aps a importao dos
mesmos em uma base de dados de apoio gerada no Firebird2, com o objetivo de
encontrar os atributos para melhor organizar os dados, de forma que
contemplassem as informaes histricas referentes aos alunos em seus perodos
na universidade. Em um segundo momento, tratando os dados diretamente na
ferramenta WEKA, onde foram submetidos aos algoritmos de minerao de dados
selecionados.
Conforme visto nos trabalhos relacionados, a tarefa de classificao uma
das tarefas mais utilizadas na busca por padres da evaso nas universidades
(DEKKER et al., 2009; MANHES, 2011). Por isto, a classificao ser considerada
como tarefa base deste trabalho, juntamente com a tcnica de rvores de deciso e
o algoritmo C4.5 (J48) tambm amplamente utilizados neste contexto (BUSS, 2011;
MANHES, 2011).
O mtodo de classificao foi escolhido por melhor responder a questo alvo
deste trabalho, ou seja, com o mtodo de classificao pode-se prever que
determinados alunos, com um determinado perfil, tendem a evadir do curso. Neste
caso, o atributo STATUS denominado como atributo alvo da classificao e, sobre
este, regras de classificao em relao aos outros atributos sero geradas.
7.1 Domnio da base de dados de apoio
A base de dados utilizada neste trabalho foi diretamente coletada do sistema

acadmico da universidade e disponibilizada em forma de arquivo texto. Ela contm
informaes sobre os alunos de graduao que ingressaram no curso de Cincia da
Computao, em um dos trs currculos (cdigos 186, 207 e 2509), alm de
informaes sobre as disciplinas cursadas por eles.
Aps a fase de seleo dos dados, o primeiro passo foi a importao dos
arquivos texto para o banco de dados, a Figura 15 mostra o incio de um dos
arquivos texto recebidos, com a consulta SQL que originou os dados da tabela
ALUNOS. Os demais arquivos texto e consultas podem ser vistos no Anexo A.
2Sistema gerenciador de banco de dados de cdigo aberto baseado na plataforma do InterBase da

Borland.
63
Figura 15 - Arquivo texto com a consulta SQL e os dados da tabela Alunos
Fonte: Setor de informtica da UNISC.
O Anexo B exibe as tabelas que foram recebidas na ntegra, com todos os

atributos que foram disponibilizados nos arquivos texto para o estudo, uma breve
explicao do significado de cada atributo e o domnio de valores aplicado a ele,
caso exista. A tabela ALUNOS continha 70 atributos, a tabela ALUNOS_CURSOS
continha 30 atributos, OCORRENCIAS_ALUNO com 31 atributos,
DISCIPLINAS_CURSADAS com 17 e a tabela ITENS_CONCLUIDOS com 6
atributos.
Aps a importao os dados, seguindo as etapas do processo de KDD, o
passo seguinte foi a limpeza da base criada, excluso dos atributos no
considerados importantes para a minerao, como nmero de RG, CPF, nome do
pai, nome da me, enfim, atributos que no so capazes de criar uma boa
generalizao na base de dados. Tambm foi realizada a remoo dos registros
duplicados, como pode-se ver no anexo A, todas as tabelas disponibilizadas pelo
setor de informtica da UNISC sofreram fuso com outras tabelas, gerando registros
duplicados em todas as tabelas importadas.
64
O modelo relacional da base de dados de apoio criada com os atributos que

foram selecionados para o estudo pode ser visto na Figura 16.
Figura 16 - Modelo relacional da base de apoio criada
Fonte: Do Autor.
Com base no modelo relacional exibido na Figura 16, criou-se uma nova
tabela HISTORICO com o objetivo de organizar os dados de forma que cada registro
contenha o histrico de um aluno, armazenando o maior nmero de informaes
possvel referente ao perfil do aluno no decorrer do curso, como por exemplo a idade
que ele tinha quando ingressou, se ingressou via vestibular ou transferncia
interna/externa, se trocou ou no de currculo, quantas vezes trancou a matrcula,
quantas disciplinas cursou em cada semestre, a ordem em que as disciplinas foram
cursadas ordenadas por ano e semestre em que foram cursadas (para disciplinas
cursadas no mesmo ano/semestre o critrio de ordenao escolhido foi a ordenao
numrica pelo cdigo da disciplina).
Os atributos da tabela HISTORICO so descritos na Tabela 3, que
apresenta o nome e uma breve descrio dos atributos criados.
65
Tabela 3 - Atributos da tabela HISTORICO
(continua)
Nome do atributo Descrio do atributo
matr_aluno (pk) Matrcula do Aluno
dt_nascimento Data de nascimento
Sexo Sexo (M masculino, F Feminino)
estado_civil Estado Civil
codigo_curriculo_curso Cdigo do currculo em que o aluno est matriculado
tipo_movimentacao Tipo de movimento do aluno 1 Ingresso 2 - Evaso
subtipo_movimentacao 1-Vestibular, 2-Transferncia Interna, 3-Transferncia Externa, 4-
Reingresso,5-Diplomado, 6-Aluno Especial,7-Concluso, 8-
Trancamento,9-Cancelamento,10-Desistncia, 11-Suspenso,12-
Desligamento,13-Falecimento,14-Cancelamento de Matrcula,15-
Cancelamento de Rematrcula, 16-Ingresso em Curso Sequencial, 17-
Permuta, 18-Trancamento para Vnculo,19-Reopo de Habilitao
meio_acesso Idem anterior, porm esse armazena o registro da entrada do aluno, j o
anterior armazena a situao atual do aluno
idade_ingresso Com base na data de nascimento e a data da ocorrncia da matricula, foi
calculado a idade do aluno quando ingressou no curso
trocou_curriculo Se o aluno trocou ou no de currculo no curso (S- sim, N - no)
qtde_trancamentos Quantidade de trancamentos realizados
tempo_permanencia Tempo em semestres que o aluno permaneceu ou permanece no curso,
desde o primeiro registro de entrada
media_vestib A mdia atingida no vestibular
class_vestib A classificao no vestibular (classificao no curso, no geral)
total_disciplinas_cursadas O nmero total de disciplinas cursadas pelo aluno
disc_01_cod Cdigo da primeira disciplina cursada
disc_01_ano Ano que a primeira disciplina foi cursada
disc_01_sem Semestre em que a primeira disciplina foi cursada
disc_01_status Status do aluno na disciplina (1-Aprovado, 2-Reprovado,3-Desistente)
disc_01_notafinal Mdia final da disciplina
disc_02_cod Cdigo da segunda disciplina cursada
disc_02_ano Ano que a segunda disciplina foi cursada
disc_02_sem Semestre em que a segunda disciplina foi cursada
disc_03_cod Cdigo da disciplina cursada
disc_03_ano Ano que a disciplina foi cursada
disc_03_sem Semestre em que a disciplina foi cursada
disc ... 05 at 54 Estes campos so repetidos, da disciplina 1 at 55
tot_disc_sem_01 Total de disciplinas cursadas no primeiro semestre
tot_disc_sem_02 Total de disciplinas cursadas no segundo semestre
tot_disc_sem_03 Total de disciplinas cursadas no terceiro semestre
tot_disc_sem_04 Total de disciplinas cursadas no quarto semestre
tot_disc_sem_05 Total de disciplinas cursadas no quinto semestre
tot_disc_sem_06 Total de disciplinas cursadas no sexto semestre
tot_disc_sem_07 Total de disciplinas cursadas no stimo semestre
66
Tabela 3 - Atributos da tabela HISTORICO
(concluso)
Nome do atributo Descrio do atributo
tot_disc_sem_08 Total de disciplinas cursadas no oitavo semestre

tot_disc_sem_09 Total de disciplinas cursadas no nono semestre
tot_disc_sem_10 Total de disciplinas cursadas no dcimo semestre
Fonte: Autor.
Aps criada a tabela, selecionaram-se 1860 alunos para compor a nova

base de dados. O critrio de seleo utilizado foi o aluno ter cursado pelo menos
uma disciplina em um dos trs currculos em estudo (186,206,2509), ou seja, alunos
que no cursaram disciplina alguma em pelo menos um destes currculos no foram
selecionados.
No Anexo C podem ser visto os comandos SQL utilizados para a seleo
dos registros e tambm os comandos para a seleo das disciplinas. Com os alunos
j selecionados e importados na base HISTORICO, foram analisadas
individualmente as 1860 matrculas selecionadas, com o intuito de preencher alguns
campos que no foram preenchidos atravs de consultas SQL e programao, como
por exemplo o tempo de permanncia do aluno no curso em semestres, se ele
trocou ou no de currculo, quantidade de trancamentos realizados.
Esta foi uma tarefa rdua e cansativa, mas devido grande quantidade de
registros duplicados por causa da forma como os dados foram cedidos, optou-se por
faz-la de forma manual.
Utilizou-se o sistema acadmico da UNISC para outra anlise feita em cada
matrcula, para conferir se os dados importados condiziam com a situao atual do
aluno importado na base HISTORICO. A Figura 17 mostra a consulta realizada com
a matrcula do autor.
67
Figura 17 - Consulta de alunos matriculados no site da UNISC
Fonte: Sistema acadmico da UNISC, adaptado pelo Autor.
7.1.1 Alguns dados estatsticos sobre o domnio criado
Com a tabela HISTORICO devidamente carregada e balanceada,

selecionaram-se alguns atributos como faixa etria, nmero do currculo, o meio de
acesso, trocas de currculo, quantidade de trancamentos, o tempo de permanncia e
a situao atual do aluno no curso, a fim de gerar alguns dados estatsticos para se
ter um melhor entendimento sobre os dados importados.
Na Figura 18 possvel visualizar que a grande maioria dos alunos que
ingressou no curso, o fazem com menos de 20 anos, outra parcela significativa est
na faixa etria entre 20 e 25 anos.
Figura 18 - Faixa etria dos alunos que ingressaram no curso
Fonte: WEKA. Adaptado pelo Autor.

68
Na Figura 19, so exibidos alguns dados estatsticos dos alunos que

evadiram do curso, como a faixa etria, o currculo em que cada aluno estava
matriculado e o total de disciplinas cursadas por eles at o quinto semestre.
Podemos ver tambm o nmero de alunos que evadem semestre a semestre,
exibindo a evoluo da evaso a partir do segundo semestre, pelo nmero de
disciplinas cursadas, ou seja, pelo nmero do contador com valor 0 para o total de
disciplinas cursadas.
Figura 19 - Dados sobre alunos que evadiram do curso
Pode-se observar o aumento incremental do campo nmero 1 com Label 0

nas tabelas da Figura 19, onde indicado o nmero de alunos que no cursaram
69
nenhuma disciplina no semestre em questo, nota-se que uma parcela muito grande
dos alunos que evadem do curso, o fazem at o quinto semestre conforme pode ser
visto na Figura 2.
7.2 Aplicao da minerao de dados na base de apoio
Nesta seo, so apresentadas as tarefas de minerao identificadas para

serem aplicadas no domnio de dados criado, a preparao desses dados para
serem utilizados nas tarefas escolhidas, os experimentos que foram realizados, bem
como uma breve discusso sobre os resultados obtidos nos experimentos.
Com os dados selecionados e pr-processados, a prxima etapa no
processo de KDD a transformao dos dados, principalmente os atributos que
apresentam uma sequncia de valores muito abrangente, o que dificulta o
processamento e entendimento dos resultados, e tambm para que os mesmos
estejam nos padres dos algoritmos de minerao de dados aos quais eles sero
submetidos (WITTEN; FRANK; HALL, 2011).
Nesta etapa, atributos como idade, quantidade de trancamentos de
matrcula, tempo de permanncia, entre outros, passam por um processo de
discretizao, ou seja, foram transformados em outros valores que correspondem a
mesma informao.
Por exemplo, o atributo idade foi transformado em faixa etria, a quantidade
de trancamentos de matrcula transformada em <2 ou >2, o total de disciplinas
cursadas transforma-se em < 5 e >= 5, entre outras.
Essas transformaes se devem ao fato da escolha pela tarefa de
classificao e a tcnica de rvores de deciso, pois os algoritmos dessa classe
trabalham melhor com atributos nominais (WITTEN; FRANK; HALL, 2011). Todas as
consultas SQL e as transformaes que foram feitas podem ser visualizadas no
Anexo C.
Em conjunto com essas transformaes, novos atributos foram criados na
base de dados de apoio, nas tabelas DISCIPLINAS e HISTORICO, para ajudar a
responder as perguntas que sero feitas no decorrer dos experimentos. A primeira
parte dessas transformaes, ocorreram na tabela DISCIPLINAS.
Foram criados dois novos atributos, TIPO e SEMESTRE. Todas as
disciplinas cadastradas na base de dados, foram divididas em trs grupos: i) COMP
70
(disciplinas consideradas bsicas na computao como algoritmos, lgica,

programao, redes entre outras.); ii) MATH (disciplinas de matemtica como
clculo, geometria, matemtica discreta entre outras.); iii) HUMAN (demais
disciplinas, como ingls instrumental, lngua portuguesa, filosofia, sociologia entre
outras.), essas informaes foram atribudas ao atributo TIPO.
O Atributo SEMESTRE foi utilizado para definir em qual semestre a
disciplina deveria ser ministrada, e foi preenchida da seguinte forma: As disciplinas
do primeiro semestre receberam o valor SEQ1, ou seja, essas disciplinas deveriam
aparecer na primeira sequncia de disciplinas cursadas pelo aluno. As disciplinas do
segundo semestre receberam o valor SEQ2, as disciplinas do terceiro semestre
receberam o valor SEQ3 e assim por diante. O objetivo desse atributo saber se o
aluno fez disciplinas fora da ordem curricular.
A Figura 20 mostra o incio da tabela DISCIPLINAS com os novos atributos
criados para as disciplinas do primeiro e segundo semestre ordenadas de forma
alfabtica. Pode-se notar que algumas disciplinas sofreram alteraes de cdigo e
nome ao longo do curso, isso deve-se em funo dos trs currculos utilizados no
estudo (186,207,2509). Essas disciplinas foram unificadas, ou seja, no importa se o
aluno cursou a disciplina cdigo 2.120 ou 7.976, nos dois casos ele ter cursado a
disciplina de algoritmos, ou se o aluno cursou a disciplina 8.511 ou 2.130 em um
determinado semestre, para o estudo ele ter cursado a disciplina de clculo.
Figura 20 - Tabela DISCIPLINAS
Fonte: Do Autor.
71
Com a tabela de disciplinas atualizada, a prxima etapa foi a transformao

da tabela HISTORICO, onde foram criados novos atributos a fim de identificar a
sequncia de disciplinas cursadas por cada aluno em cada semestre. Para isso, o
primeiro passo foi identificar quais as disciplinas cursadas pelos alunos, ordenadas
por ano/semestre em que foram cursadas, e em seguida separar essas disciplinas
em sequncias, onde cada uma corresponde a um determinado semestre do aluno
no curso.
Aps a seleo das disciplinas, as mesmas foram armazenadas em
planilhas para se ter noo exata de quais disciplinas aparecem em cada semestre.
A Figura 21 exibe a planilha com todas as disciplinas que foram encontradas na
segunda sequncia de disciplinas (segundo semestre) de todos os alunos.
Figura 21 - Disciplinas encontradas na segunda sequncia
Fonte: Do Autor.
Foram coletadas informaes referentes aos cinco primeiros semestres de

cada aluno no curso. Com base nas disciplinas encontradas em cada sequncia,
foram criados atributos para identificar as disciplinas que foram cursadas em cada
semestre do aluno no curso, e se ele passou ou reprovou nas disciplinas.
72
A seguir so listados alguns exemplos dos atributos criados para as

disciplinas encontradas no segundo semestre dos alunos no curso, conforme visto
na Figura 21.
a) Sem2_Algebra (indica se o aluno fez lgebra ou no)

b) Sem2_Algebra_St (indica se o aluno passou ou no)
c) Sem2_Algoritmo (indica se o aluno fez algoritmo ou no)
d) Sem2_Algoritmo_St (indica se o aluno passou ou no)
e) Sem2_Math (indica se o aluno fez disciplinas do tipo math)
f) Sem2_Comp (indica se o aluno fez disciplinas do tipo comp)
g) Sem2_Algo_Alge (indica se o aluno fez algoritmo e lgebra juntos)
Foram criados atributos deste tipo para todas as disciplinas encontradas em

cada um dos cinco primeiros semestres. Estes atributos foram preenchidos com S
no caso do aluno ter cursado a disciplina ou N no caso de no ter cursado a
disciplina no semestre em questo.
Em alguns casos estes atributos receberam o valor ? quando o aluno no
cursou a disciplina, ou seja, no receberam o valor N. Trata-se de disciplinas que
apareceram fora da sequncia curricular, como por exemplo, quando um aluno fez a
disciplina de Clculo no primeiro semestre. Conforme observa-se na Figura 20, essa
uma disciplina do segundo semestre e no do primeiro, deveria aparecer na
segunda ou terceira sequncia de disciplinas em diante, caso o aluno tenha feito
menos que cinco disciplinas na primeira sequncia, mas no deveria estar na
primeira sequncia de disciplinas cursadas.
O WEKA oferece um tratamento especial nesses casos onde so encontrados
os atributos com valor ?, no considerando esses valores no clculo de ganho de
informao (HALL et al., 2009), por isso no foi utilizado o valor N, pois pela ordem
curricular, essa disciplina no deveria ter sido cursada no semestre em questo,
assim, os alunos que no cursaram essa disciplina no devem receber o valor N
como se tivessem que fazer a disciplina e no tivessem feito.
Com base nestes novos atributos criados, foi possvel saber quais disciplinas
o aluno fez em um determinado semestre, qual o status das disciplinas em questo
e se foram cursadas na ordem curricular.
73
A Figura 22 mostra a tabela HISTORICO ao final da etapa de transformao,

so exibidos alguns dos atributos criados, ao total a base ficou composta de 180
atributos e 1591 registros, contendo informao dos alunos que se formaram ou
evadiram do curso, por ainda no sabermos se iro evadir ou se formar no curso.
As informaes sobre os alunos ativos do curso foram removidas da base, o
ANEXO D contm uma lista com as matrculas removidas da base de dados, que
podem ser utilizadas para validar o modelo de classificao criado em trabalhos
futuros, a fim de confirmar se o conhecimento gerado a partir deste estudo se aplica
tambm naquele grupo de alunos, se conseguiremos prever se cada aluno do curso
possui o perfil de evaso ou no.
Figura 22 - Tabela HISTORICO ao final da etapa de transformao
Fonte: Do Autor.
importante salientar, que nem todos os atributos descritos no modelo de

dados da tabela HISTORICO mencionados anteriormente, iro aparecer no arquivo
que ser utilizado no WEKA, mas todos os atributos sero necessrios para a
gerao das consultas que sero exportadas e que daro origem ao arquivo (.arff), o
qual ser utilizado no WEKA.
74
7.2.1 Identificao das tarefas de minerao aplicveis ao domnio
Para a identificao das tarefas aplicveis ao domnio HISTORICO, alm de

sua anlise e entendimento, foi feito um estudo nos trabalhos relacionados. As
principais tarefas definidas para o estudo so descritas a seguir:
a) Associao pela ordem das disciplinas cursadas: na tentativa de traar o

perfil dos alunos que cursam determinadas disciplinas em sequncia e
acabam por abandonar o curso, utilizando-se dos atributos criados para
cada uma das disciplinas cursadas, alm do ano e semestre em que
cada uma delas foram ministradas bem como o status (aprovado,
reprovado, desistente);
b) Classificao por tempo de permanncia: para descobrir quanto o tempo
de permanncia do aluno no curso contribui ou no para a evaso,
utilizando quantidade de trancamentos, troca ou no de currculo, faixa
etria entre outros;
c) Classificao pelo nmero de disciplinas cursadas a cada semestre:
para descobrir se os alunos que cursam mais ou menos disciplinas por
semestre apresentam maior propenso evaso, utilizando o total de
disciplinas cursadas, total de disciplina cursada em cada semestre,
currculo, entre outros;
d) Classificao pelo tipo de disciplinas cursadas a cada semestre: para
descobrir se alunos que sempre fazem disciplinas do tipo COMP
(disciplinas base da computao) so menos propensos a evadir do que
alunos que fazem somente disciplinas do tipo MATH ou HUMAN, e os
que simplesmente seguem o currculo, ou seja, fazem os trs tipos de
disciplinas misturados (COMP, MATH, HUMAN).
Tendo por base as tarefas identificadas, tambm foram criadas algumas

perguntas para serem respondidas atravs deste estudo, no intuito de tentar
identificar o perfil do aluno que evade do curso. As perguntas criadas so descritas a
seguir:
75
a) Existe uma sequncia de disciplinas feitas que provocam a evaso

at o terceiro semestre?
b) Quem sempre faz cinco disciplinas nos cinco primeiros semestres
evade ou no? E quem sempre faz trs ou menos disciplinas?
c) Quem reprova em disciplinas consideradas chave do curso, como
lgica e algoritmos desiste?
d) Fazer algoritmos e lgica no mesmo semestre ajuda na permanncia
do aluno no curso?
e) Reprovar em disciplinas de matemtica nos primeiros semestres faz
com que o aluno desista do curso?
f) A quantidade de disciplinas do primeiro semestre influencia na
permanncia ou desistncia do aluno?
7.3 Experimentos realizados
Com o intuito de responder as perguntas acima mencionadas, e tambm

aplicar as tarefas de minerao identificadas para o domnio de dados criado, foram
realizados cinco tipos de experimentos, listados a seguir:
A. Associao pela ordem das disciplinas cursadas nos trs primeiros

semestres de cada aluno no curso.
B. Classificao dos alunos que reprovam nas primeiras disciplinas da
grade curricular do curso.
C. Classificao dos alunos pela quantidade de disciplinas cursadas no
primeiro semestre de cada aluno no curso.
D. Classificao dos alunos pela quantidade de disciplinas cursadas nos
cinco primeiros semestres do aluno no curso.
E. Classificao dos alunos que cursaram Algoritmo e Lgica juntos, no
mesmo semestre.
76
7.3.1 Experimento A
Para a realizao do experimento A, foram analisadas as trs primeiras

sequncias de disciplinas cursadas de cada aluno dividindo a base de dados em
dois perfis de alunos.
Um perfil com os alunos que sempre fizeram cinco ou mais disciplinas nos
trs primeiros semestres e outro perfil dos alunos que sempre fizeram menos que
cinco disciplinas nos trs primeiros semestres. Cada perfil da base de dados ser
submetido a dois algoritmos de associao temporal, Apriori e FpGrowth. Em ambos
os casos, utilizando as configuraes padro do WEKA.
A Figura 23 mostra o perfil dos alunos que sempre fizeram cinco ou mais
disciplinas nos trs primeiros semestres. Foram encontrados 164 alunos que
satisfaziam esse critrio, dos quais 110 so formados e 54 evadiram do curso. Aps
vrios testes, selecionaram-se 22 atributos correspondentes s disciplinas cursadas
nesse perodo para o experimento.
Figura 23 - Perfil 1 dos alunos do experimento A

77
A figura 24 mostra o resultado do experimento A1, a associao destes 22

atributos feita pelo algoritmo Apriori. Foram listadas as 20 principais regras geradas
pelo algoritmo, todas elas com grau de confiana superior a 98%, mas nenhuma
delas associada diretamente a evaso. As regras geradas foram do tipo:
SEQ1_LOG=S SEQ1_INTROD=S 163 -> SEQ1_algo=S 162 conf:(0.99), ou seja,
quem fez lgica e introduo na primeira sequncia de disciplinas cursadas, tambm
fez algoritmos, o 163 significa que essa sequncia apareceu cento e sessenta e trs
vezes e se confirmou em 162 vezes, ou seja, esta regra tem um grau de confiana
de 99%.
Figura 24 - Resultado experimento A1 - Apriori
Na Figura 25 exibido o resultado obtido do experimento A1, obtido pelo

algoritmo FpGrowth. Foram geradas 20 regras com grau de confiana de 100%,
desta vez o algoritmo de minerao associou pelo menos trs regras com a evaso,
a principal regra que dos 54 casos de evaso deste grupo de alunos analisados,
todos fizeram algoritmos no primeiro semestre, dos 48 alunos que fizeram algoritmos
no primeiro semestre e clculo no terceiro semestre, 48 evadiram.
78
Figura 25 - Resultado experimento A1 FpGrowth
A Figura 26 mostra o perfil dos alunos que sempre fizeram menos de cinco
disciplinas nos trs primeiros semestres. Foram encontrados 1032 alunos que
satisfaziam esse critrio, dos quais 119 so formados e 913 evadiram do curso.
Novamente selecionaram-se 23 atributos correspondentes s disciplinas cursadas
pelos alunos neste perodo para anlise.
Figura 26 - Perfil 2 dos alunos do experimento A

79
A figura 27 mostra o resultado do experimento A2, associao dos 23

atributos feita pelo algoritmo Apriori e na Figura 28 exibido o resultado obtido do
experimento A2, obtido pelo algoritmo FpGrowth.
Figura 27 - Resultado experimento A2 - Apriori
A principal regra gerada pelo Apriori foi que quem no fez geometria no
primeiro semestre e no fez programao no segundo semestre e evadiu do curso
(aconteceu em 460 casos), tambm no fez estrutura de dados no segundo
semestre (se confirmou em 447 casos).
Figura 28 - Resultado experimento A2 - FpGrowth

80
A principal regra gerada pelo FpGrowth foi que quem fez lgica no primeiro
semestre e fez programao no segundo semestre e evadiu do curso (aconteceu em
112 casos), tambm fez algoritmos no primeiro semestre (se confirmou em 111
casos).
Pelos resultados do experimento A, podemos observar que no perfil dos 164
alunos que sempre fizeram as cinco disciplinas nos trs semestres analisados, a
sequncia de disciplinas que mais se confirmou a de quem faz algoritmos, lgica e
introduo no primeiro semestre, fez clculo no segundo semestre. Todos os 54
alunos que evadiram deste grupo fizeram algoritmos no primeiro semestre, sendo
que 48 deles fizeram clculo apenas no terceiro semestre. J no perfil dos 1032
alunos que fizeram menos que cinco disciplinas nos trs semestres, a regra mais
significativa foi a de que 447 destes alunos que no fizeram geometria no primeiro
semestre, tambm no fizeram estrutura de dados e programao estruturada no
segundo semestre, e acabaram abandonando do curso.
7.3.2 Experimento B
Para a realizao do experimento B, classificao dos alunos que reprovam

nas primeiras disciplinas da grade curricular, foram selecionados os alunos que em
algum momento do curso reprovaram nas seguintes disciplinas:
1. lgebra linear (190 ocorrncias)

2. Algoritmos (426 ocorrncias)
3. Clculo (302 ocorrncias)
4. Introduo a computao (170 ocorrncias)
5. Lgica (401 ocorrncias)
Neste experimento, foram criados cinco arquivos, um para cada uma das
disciplinas, selecionando todos os alunos que satisfaziam esses critrios, ou seja,
que reprovaram em alguma das disciplinas. A ideia submeter cada um dos
arquivos ao algoritmo de classificao J48 em validao cruzada, utilizando as
configuraes padro do WEKA, para tentar descobrir se existe um padro entre os
alunos que reprovam nestas disciplinas.
81
A Figura 29 mostra o perfil dos alunos que reprovaram em lgebra. Foram

selecionados 190 alunos que atenderam a esse quesito e 154 atributos da tabela
HISTORICO, contendo todas as informaes reunidas sobre a vida acadmica dos
alunos para o comeo do experimento.
Figura 29 - Perfil dos alunos que reprovam em lgebra
Neste caso, dos 190 alunos que reprovaram na disciplina, apenas um aluno
se formou, os outros 189 alunos desistiram do curso, logo, o arquivo nem precisou
ser submetido a testes no WEKA para procurar um padro para a evaso, devido a
quantidade de alunos que evadiram, as rvores geradas pelos algoritmos
classificaram todos os alunos como evaso.
A Figura 30 mostra o perfil dos alunos que reprovaram em algoritmos. Foram
selecionados 426 alunos que atenderam a esse quesito, destes 14 so alunos
formados e 412 alunos que evadiram, e os mesmos 154 atributos da tabela
HISTORICO selecionados no experimento anterior.
82
Figura 30 - Perfil dos alunos que reprovam em Algoritmo
Na Figura 31 exibido o resultado do experimento de classificao dos

alunos que reprovaram em Algoritmos. O classificador apresentou uma preciso de
mais de 96%, a matriz de confuso mostra que o modelo foi capaz de classificar
com sucesso quase todos os casos de evaso dos alunos, dos 412 alunos que
evadiram, 409 foram classificados de forma correta, porm o modelo se mostrou
ineficaz para classificar os alunos que se formaram, dos 14 casos apenas um foi
classificado corretamente.
Figura 31 - Resultado do experimento B2

83
A Figura 32 mostra a rvore de deciso gerada pelo algoritmo J48 para o

experimento B2, onde pode-se ver que alunos que fazem duas ou menos disciplinas
no quarto semestre TOT_S4 (ou quarta sequncia de disciplinas) tm possibilidades
de evadir, e os alunos que fazem mais que duas disciplinas no quarto semestre, mas
que no fizeram a disciplina de programao no terceiro semestre SEQ3_PROG,
tambm tm chances de abandonar o curso.
J os alunos que fizeram programao no terceiro semestre e fizeram
disciplinas do tipo HUMAN no quarto semestre SEQ4_INDF, acabaram evadindo. Os
alunos que no fizeram este tipo de disciplina no quarto semestre e no cursaram
estrutura de dados e programao juntas no quarto semestre se formaram.
Figura 32 - rvore gerada pelo experimento B2
A Figura 33 mostra o perfil dos alunos que reprovaram em Clculo. Foram

formados e 274 alunos que evadiram, e os mesmos atributos dos experimentos
anteriores foram selecionados.
84
Figura 33 - Perfil dos alunos que reprovaram em Clculo

alunos que reprovaram em Clculo, novamente o classificador apresentou um alto
percentual de preciso, acima de 94% de acertos.

85

experimento com os alunos que reprovaram em Clculo, onde pode-se ver que o
tempo de permanncia e o total de disciplinas cursadas no terceiro semestre
TOT_S3 do aluno no curso tem forte influncia no abandono ou no do curso pelos
alunos que reprovam em Clculo.
A Figura 36 mostra o perfil dos alunos que reprovaram em Introduo a

Computao. Foram selecionados 170 alunos que atenderam a esse quesito, destes
apenas dois alunos so formados e 168 alunos evadiram do curso.
86
Figura 36 - Perfil dos alunos que reprovam em Introduo Computao
Novamente a maioria dos alunos que reprovaram, 168 dos 170 alunos
selecionados desistiram do curso, logo, o arquivo nem precisou ser submetido a
testes no WEKA para procurar um padro, uma vez que os classificadores nem
geram uma rvore de deciso nesses casos, classificam todos alunos como evaso.
A Figura 37 mostra o perfil dos alunos que reprovaram em Lgica. Foram
formados e 390 alunos que evadiram, e os mesmos atributos dos experimentos
anteriores foram selecionados.
Figura 37 - Perfil dos alunos que reprovaram em Lgica

87

alunos que reprovaram em Lgica, como o nmero de formados tambm muito
pequeno para esse grupo de alunos, o classificador apresenta um altssimo
percentual de acertos, acima de 97%.

experimento com os alunos que reprovaram em Lgica, onde pode-se ver que o total
de disciplinas cursadas no quinto semestre destes alunos no curso tem forte
influncia no abandono ou no do curso, onde o aluno que faz duas ou menos
disciplinas no quinto semestre tem maior probabilidade de evadir.
88
Os resultados do experimento B deixam claro que reprovar nas primeiras

disciplinas do curso pode ser catastrfico para a permanncia do aluno no curso, no
melhor dos casos, apenas 9% dos alunos que reprovaram em clculo seguiram no
curso, nas demais disciplinas o percentual dos alunos que seguem no curso no
chega a 3%.
7.3.3 Experimento C
Para a realizao do experimento C, os dados da tabela HISTORICO foram

separados pela quantidade de disciplinas que cada aluno cursou no primeiro
semestre, sendo encontrado alunos que cursaram de uma at seis disciplinas.
Neste experimento, foram ento criados seis arquivos, um para cada
quantidade de disciplinas encontrada. Os dados novamente foram submetidos ao
algoritmo de classificao J48 em validao cruzada, utilizando as configuraes
padro do WEKA, para tentar descobrir se existe um padro entre a quantidade de
disciplinas cursada na primeira sequncia de disciplinas do curso.
A Figura 40 mostra o perfil dos alunos que fizeram seis disciplinas no
primeiro semestre, foram selecionados 24 alunos que atenderam a esse quesito,
onde todos os 24 alunos evadiram.
89
Figura 40 - Perfil dos alunos que fizeram seis disciplinas no 1 semestre
A Figura 41 mostra o perfil dos alunos que fizeram cinco disciplinas no

primeiro semestre, foram selecionados 374 alunos que atenderam a esse quesito,
destes 160 so alunos que se formaram e 214 alunos que evadiram.
Figura 41 - Alunos que fizeram cinco disciplinas no 1 semestre

90

alunos que fizeram cinco disciplinas no primeiro semestre. A preciso de acertos do
classificador neste caso foi de mais de 79%. A matriz de confuso mostra que dos
214 alunos que evadiram, 168 foram classificados de forma correta.
Figura 42 - Resultado do experimento C2
A Figura 43 mostra a rvore de deciso gerada pelo algoritmo de

classificao J48 para o experimento com os alunos que fizeram cinco disciplinas no
primeiro semestre, onde pode-se ver que o total de disciplinas cursadas no terceiro
semestre destes alunos no curso tem forte influncia no abandono ou no do curso,
outro fator que contribui para a evaso nesses casos o aluno no fazer disciplina
de programao no terceiro semestre.
91
Figura 43 - rvore gerada pelo experimento C2
A Figura 44 mostra o perfil dos alunos que fizeram quatro disciplinas no

primeiro semestre. Foram selecionados 188 alunos que atenderam a esse quesito,
Figura 44 - Alunos que fizeram quatro disciplinas no 1 semestre

92

alunos que fizeram quatro disciplinas no primeiro semestre. A preciso do
classificador desta vez foi de mais de 84% de acertos, classificando apenas 18 dos
134 alunos que evadiram de forma incorreta.

classificao J48 para o experimento com os alunos que fizeram quatro disciplinas
no primeiro semestre, onde pode-se ver que o total de disciplinas cursadas no quinto
e no segundo semestre destes alunos no curso tem forte influncia no abandono ou
no do curso por parte desses alunos.
93
A Figura 47 mostra o perfil dos alunos que fizeram trs disciplinas no

Figura 47 - Alunos que fizeram trs disciplinas no 1 semestre

94

alunos que fizeram trs disciplinas no primeiro semestre. Com preciso de mais de
83%, o classificador foi capaz de acertar 539 dos 564 casos de evaso dos alunos.

classificao J48 para o experimento com os alunos que fizeram trs disciplinas no
primeiro semestre, onde pode-se ver que os alunos que no cursaram as disciplinas
de Organizao de computadores no quarto semestre tm grande probabilidade de
abandonar o curso, seguido dos alunos que reprovaram em Algoritmos no primeiro
semestre.
95
A Figura 50 mostra o perfil dos alunos que fizeram duas disciplinas no

destes 21 so alunos que se formaram e 186 alunos evadiram.
96
Figura 50 - Alunos que fizeram duas disciplinas no 1 semestre

alunos que fizeram duas disciplinas no primeiro semestre. Com mais de 88% de
acertos, o classificador acertou 183 dos 186 casos de evaso deste grupo de
alunos.

97
A Figura 52 mostra duas rvores de deciso geradas pelo algoritmo de

classificao J48 para o experimento com os alunos que fizeram duas disciplinas no
primeiro semestre, durante os experimentos, vrios atributos so testados, alguns
so removidos, depois adicionados e outros removidos, at que se ache os atributos
que faam algum sentido entre si.
Neste experimento, pode-se ver que foi removido o atributo TOT_S5 (total
de disciplinas cursadas no semestre 5) da segunda rvore, tornando assim o atributo
TOT_S4 (total de disciplinas cursadas no semestre 4) como o atributo com maior
ganho de informao. Esses testes so feitos de forma exaustiva durante todos os
experimentos, at que se encontre alguma informao til que possa estar oculta
nos dados analisados.
Figura 52 - rvores gerada pelo experimento C5

98
A Figura 53 mostra o perfil dos alunos que fizeram uma disciplina no

Figura 53 - Alunos que fizeram uma disciplina no 1 semestre

alunos que fizeram uma disciplina no primeiro semestre. O classificador apresentou
preciso de mais de 90% acertando a maioria dos casos de evaso.

99

classificao J48 para o experimento com os alunos que fizeram uma disciplina no
primeiro semestre, onde pode-se ver que a maioria dos alunos que cursaram uma
disciplina no primeiro semestre e menos que trs no segundo semestre evadiram do
curso.
Figura 55 - rvores gerada pelo experimento C6
Podemos ver pelos resultados obtidos neste experimento que todos os

alunos que fizeram mais que cinco disciplinas no primeiro semestre evadiram.
Tambm fica visvel que a grande maioria dos alunos que fazem menos que trs
disciplinas no primeiro semestre acabam evadindo do curso, menos de 9% destes
se formam.
7.3.4 Experimento D
Para a realizao do experimento D, os dados da tabela HISTORICO foram

separados pela quantidade de disciplinas que cada aluno cursou em cada um dos
primeiros cinco semestres.
Neste experimento foram criados quatro arquivos, um para os alunos que
sempre cursaram as cinco disciplinas nos cinco semestres, um para os que sempre
cursaram trs disciplinas, um para os alunos que sempre cursaram trs ou mais
disciplinas, mas que no esto no primeiro grupo que sempre cursou as cinco
100
disciplinas e por fim, um arquivo para os alunos que sempre cursaram menos que
trs disciplinas nos cinco primeiros semestres do curso.
Os dados novamente foram submetidos ao algoritmo de classificao J48
em validao cruzada, utilizando as configuraes padro do WEKA, para tentar
descobrir se existe um padro entre a quantidade de disciplinas cursada nos cinco
primeiros semestres do aluno no curso e a evaso destes alunos.
A Figura 56 mostra o perfil dos alunos que sempre fizeram cinco disciplinas
nos cinco primeiros semestres do curso, foram selecionados 82 alunos que
atenderam a esse quesito, destes 69 se formaram e 13 alunos evadiram, um dos
poucos casos onde os nmeros da evaso so menores do que nmero de
formandos.
Figura 56 - Alunos que sempre fizeram cinco disciplinas

alunos que sempre fizeram cinco disciplinas nos cinco primeiros semestres. A
preciso do classificador foi de mais de 85%, acertando 67 dos 69 alunos que se
formaram, e classificando de forma correta trs dos 13 alunos que evadiram.
101
Figura 57 - Resultado do experimento D1

classificao J48 para o experimento com os alunos que sempre fizeram cinco
disciplinas nos primeiros semestres, onde pode-se ver que quem faz lgebra no
terceiro semestre e no faz disciplinas do tipo HUMAN SEQ5_INDF no quinto
semestre, tem grande probabilidade de se formar.
Figura 58 - rvore gerada pelo experimento D1

102
A Figura 59 mostra o perfil dos alunos que sempre fizeram trs disciplinas
nos cinco primeiros semestres do curso, foram selecionados 51 alunos que
atenderam a esse quesito, onde 22 alunos se formaram e 29 alunos evadiram.
Figura 59 - Alunos que sempre fizeram trs disciplinas

alunos que sempre fizeram trs disciplinas nos cinco primeiros semestres. Neste
experimento a preciso do classificador caiu consideravelmente, apresentando
preciso de menos de 50% de acertos, ou seja, errou a metade dos alunos que
classificou. Dos 29 alunos que evadiram, apenas 16 foram classificados de forma
correta.
103

classificao J48 para o experimento com os alunos que sempre fizeram trs
disciplinas nos primeiros semestres, onde pode-se ver que o tipo de disciplina,
MATH, COMP, HUMAN tem bastante influncia sobre a evaso ou sucesso do aluno
no curso.
104
A Figura 62 mostra o perfil dos alunos que sempre fizeram trs ou mais
disciplinas nos cinco primeiros semestres do curso, mas que no esto no perfil dos
que sempre fizeram as cinco disciplinas. Foram selecionados 132 alunos que
atenderam a esse quesito, onde 58 alunos se formaram e 74 alunos evadiram.
105
Figura 62 - Alunos que fizeram trs ou mais disciplinas

alunos que sempre fizeram trs ou mais disciplinas nos cinco primeiros semestres
do curso, mas que no esto no perfil dos que sempre fizeram as cinco disciplinas.
Novamente a preciso do classificador ficou abaixo de 50%.
106
A Figura 64 mostra a rvore de deciso gerada pelo experimento D3, o

atributo fez disciplina de computao no semestre 5 o atributo com maior ganho de
informao.

107
A Figura 65 mostra o perfil dos alunos que sempre fizeram menos que trs
disciplinas nos cinco primeiros semestres do curso. Foram selecionados 157 alunos
que atenderam a esse quesito, onde 5 alunos se formaram e 152 alunos evadiram.
Figura 65 - Perfil dos alunos que fizeram menos que trs disciplinas

alunos que sempre fizeram menos que trs disciplinas nos cinco primeiros
semestres. A preciso do classificador desta vez ficou acima dos 94% de acertos,
acertando 149 dos 154 alunos que evadiram, mas no acertou nenhum dos 5 alunos
que se formaram.
108
A Figura 67 mostra a rvore de deciso gerada pelo experimento D4 com os

alunos que sempre fizeram menos que trs disciplinas nos cinco primeiros
semestres, mostra que os poucos alunos que se formam, o fazem depois do 14
perodo, desde que entrou no curso.

109
Os resultados deste experimento, mostram que alunos que seguem um

padro do nmero de disciplinas cursadas, e se esse nmero de disciplinas maior
ou igual a trs, so menos propensos a evadir. Por exemplo, dos 82 alunos que
sempre fizeram 5 disciplinas nos cinco primeiros semestres, 69 so formados e
apenas 13 evadiram. Outro caso o dos alunos que sempre fizeram trs disciplinas
nos cinco semestres, foram encontrados 51 alunos que se encaixavam nesse perfil,
dos quais 22 so formados. Os alunos que sempre fizeram menos que trs
disciplinas nos cinco primeiros semestre apresentam um outro padro, a evaso,
uma vez que dos 157 alunos fizeram menos que trs disciplinas, apenas cinco
concluram o curso.
7.3.5 Experimento E
A Figura 68 mostra o perfil dos alunos que fizeram Algoritmos e Lgica no

mesmo semestre. Foram selecionados 993 alunos que atenderam a esse quesito,
onde 268 alunos se formaram e 725 alunos evadiram.
Figura 68 - Perfil dos alunos que fizeram Algoritmos e Lgica Juntos

110

alunos que fizeram Algoritmos e Lgica no mesmo semestre. A preciso do
classificador ficou acima dos 82%, dos 725 alunos que evadiram, 667 foram
classificados de forma correta.
Figura 69 - Resultado do experimento E1
A Figura 70 mostra a rvore de deciso gerada pelo experimento E1, onde

pode-se ver que quem faz lgica e algoritmos no mesmo semestre, e reprova em
lgica tem grande probabilidade de evadir, assim como os que fazem essas
disciplinas juntas e no reprova em lgica, mas no faz a disciplina de organizao
de banco de dados no quarto semestre, tambm tem grande chance de evadir do
curso.
111
Figura 70 - rvore gerada pelo experimento E1
O resultado do experimento E mostra que cursar lgica e algoritmos no

mesmo semestre no exatamente a soluo para a evaso do curso, menos de
30% dos alunos que cursam essas disciplinas no mesmo semestre chega ao final do
curso.
7.4 Discusso dos resultados obtidos
Como foi citado na Introduo deste trabalho, e tambm em Domnio da

base de dados de apoio (seo 7.1), no foram utilizados os dados pessoais dos
alunos da base, nem tampouco dados de ordem socioeconmica. Assim, o trabalho
ficou limitado vida curricular do aluno.
Comparando-se os resultados dos experimentos realizados, verifica-se que
as precises dos classificadores criados na maior parte dos experimentos ficam em
torno de 84 a 97%, comparando-se com os trabalhos relacionados (DEKKER et al.,
2009), (MANHES, 2011; WITTEN; FRANK; HALL, 2011), essa pode ser
considerada uma boa acurcia, exceto os experimentos D2 e D3 onde a preciso
112
ficou abaixo de 50%, devido a remoo dos atributos total de disciplinas cursadas e
total de disciplinas de cada semestre.
Outra anlise que deve-se levar em conta em relao aos valores das
taxas de acerto e erro em que um algoritmo pode diferir do outro na classificao.
Um classificador que possui uma grande taxa de erro para falso positivo no
adequado para a soluo do problema da evaso, pois ele pode classificar um aluno
com risco de evaso como sendo sem risco. J o erro do algoritmo de classificar um
aluno no grupo de risco de evaso sem ele de fato evadir, falso negativo, pode ser
considerado um erro menos grave (MANHES 2011; DEKKER et al., 2009). Neste
contexto, a maioria dos experimentos se mostraram eficientes em classificar os
alunos no grupo propenso evaso, foco principal deste trabalho.
Com relao s regras construdas atravs da associao das disciplinas
cursadas nos trs primeiros semestres do curso, a principal delas se deu no grupo
de alunos que fizeram menos de cinco disciplinas atravs do algoritmo Apriori, onde
quem no fez geometria no primeiro semestre, no fez programao no segundo
semestre e evadiu do curso (460 ocorrncias), tambm no fez estrutura de dados
no segundo semestre (447 ocorrncias).
O objetivo do experimento B era investigar se alunos que reprovam nas
primeiras disciplinas do curso possuem maior tendncia a evadir do curso e se
existe algum padro entre eles. Os resultados mostraram que alunos que reprovam
nas primeiras disciplinas, dificilmente continuam no curso. Dos 190 alunos que
reprovaram em lgebra, apenas um se formou. Dos 170 alunos que reprovaram em
Introduo computao, dois se formaram. Dos 302 alunos que reprovaram em
Clculo, menos de 10% chegaram ao final do curso. Na disciplina de Algoritmos, 426
alunos reprovaram e apenas 14 se formaram, o mesmo acontece com a disciplina
de Lgica para programao, onde penas 11 dos 401 alunos que reprovaram
conseguiram se formar.
Os experimentos C e D utilizaram a quantidade de disciplinas cursadas por
cada aluno como base. No primeiro experimento os dados foram separados e
investigados pelo total de disciplinas cursadas somente no primeiro semestre, e no
segundo experimento foram utilizados os totais de disciplinas do primeiro ao quinto
semestre do aluno no curso.
O experimento C mostrou que fazer mais que cinco disciplinas no primeiro
semestre uma pssima ideia, todos alunos que fizeram isso evadiram. Tambm
113
mostra que a grande maioria dos alunos que fazem menos que trs disciplinas no
primeiro semestre acabam evadindo do curso.
Com o experimento D, pode-se perceber que alunos que seguem um padro
do nmero de disciplinas cursadas, ou seja, semestre aps semestre fazem a
mesma quantidade de disciplinas, so menos propensos a evadir, por exemplo, dos
82 alunos que sempre fizeram cinco disciplinas nos cinco primeiros semestres, 69
so formados e apenas 13 evadiram (um dos poucos casos onde o nmero de
evaso menor do que o nmero de formados). Outro caso o dos alunos que
sempre fizeram trs disciplinas nos cinco semestres, foram encontrados 51 alunos
que se encaixavam nesse perfil, dos quais 22 so formados. J para os alunos que
sempre fizeram menos que trs disciplinas nos cinco primeiros semestres, o padro
estabelecido a evaso, uma vez que dos 157 casos em que alunos fizeram menos
que trs disciplinas, apenas cinco se formaram.
O objetivo do experimento E era responder se os alunos que cursam
algoritmos e lgica no mesmo semestre tm maiores chances de se formarem,
porm os dados mostram que isso no exatamente o que acontece na realidade.
Dos 993 alunos que atenderam a esse quesito, ou seja, que cursaram algoritmos e
lgica no mesmo semestre, apenas 268 deles se formaram, menos de 30% do total
de alunos que fazem essas duas disciplinas juntas obtm sucesso.
Os resultados mostram que ao fazerem essas disciplinas juntas, os alunos
que reprovam em Lgica acabam por evadir na grande maioria dos casos, conforme
pode ser visto na Figura 70, e quando so aprovados em Lgica mas reprovam na
disciplina de organizao de banco de dados no quarto semestre, ou no cursam
disciplinas do tipo MATH no semestre seguinte, tambm acabam evadindo.
Portanto, a resposta para as seguintes perguntas foram:
a) Existe uma sequncia de disciplinas feitas que provocam a evaso

at o terceiro semestre? No ficou claro nos resultados obtidos pelos
experimentos se existe uma sequncia de disciplina cursadas at o
terceiro semestre que faa os alunos evadirem, os algoritmos
penderam mais para as disciplinas que no foram cursadas pelos
alunos que evadiram neste perodo do que para as disciplinas
cursadas por eles.
114
b) Quem sempre faz cinco disciplinas nos cinco primeiros semestres

evade ou no? E quem sempre faz trs ou menos disciplinas? Devido
ao alto ndice da evaso no curso, mesmo entre os alunos que
sempre cursam as cinco disciplinas nos cinco primeiros semestres
ocorre evaso. Porm nota-se que os alunos que seguem um padro
no nmero de disciplinas cursadas por perodo, e quando esse
nmero de disciplinas maior ou igual a trs, tem muito mais chances
de obter sucesso. Dos alunos que sempre fizeram as cinco
disciplinas, 84% se formaram, 56% dos que sempre fizeram trs
disciplinas tambm chegaram ao final do curso. J os alunos que
sempre fizeram menos que trs disciplinas nos cinco primeiros
semestres do curso andam na contramo, pois pouco mais de 3%
desse grupo obtm sucesso no curso.
c) Quem reprova em disciplinas consideradas chave do curso, como

lgica e algoritmos desiste? Nem todos os alunos que reprovam em
lgica ou algoritmos desiste do curso, porm os experimentos
mostraram que quando essas disciplinas so cursadas juntas,
reprovar em lgica pesa muito mais do que reprovar em algoritmos na
deciso de seguir ou abandonar o curso.
d) Fazer algoritmos e lgica no mesmo semestre ajuda na permanncia

do aluno no curso? Infelizmente cursar lgica e algoritmos no mesmo
semestre no a soluo para o problema da evaso do curso, como
podemos ver, apenas 30% dos alunos que fazem essas disciplinas no
mesmo semestre chegam ao final do curso.
e) Reprovar em disciplinas de matemtica nos primeiros semestres faz

com que o aluno desista do curso? Sim, reprovar em disciplinas do
primeiro semestre, tanto de matemtica como nas demais se mostrou
altamente perigoso para a permanncia do aluno no curso, a grande
maioria dos alunos que reprovam nessas disciplinas evadiram.
115
f) A quantidade de disciplinas do primeiro semestre influencia na

permanncia ou desistncia do aluno? A quantidade de disciplinas
cursadas no primeiro semestre se mostrou muito influente na deciso
dos alunos em abandonar ou no o curso. No caso dos alunos que
cursaram 6 disciplinas no primeiro perodo do curso, houve 100% de
abandono. No caso dos alunos que cursaram cinco disciplinas, cerca
de 42% deles obtiveram sucesso, dos alunos que cursaram quatro
disciplinas, cerca de 28% se formaram. No grupo dos alunos que
cursaram trs disciplinas, pouco mais de 15% conseguiu se formar,
dos alunos que fizeram duas disciplinas apenas 10% e por fim,
apenas 8% dos alunos que fizeram uma disciplina no primeiro
semestre conseguiu chegar ao final do curso. Nota-se claramente que
o percentual de sucesso do aluno no curso est diretamente ligado ao
nmero de disciplinas cursadas no primeiro semestre, quanto maior o
nmero de disciplinas, maior o percentual dos alunos que se
formaram, exceto nos casos onde esse nmero ultrapassa cinco
disciplinas.
Com base nas respostas encontradas nos experimentos realizados, foram

identificados alguns perfis de alunos evasores do curso de Cincia da Computao
da UNISC:
1. O aluno que sempre faz menos de trs disciplinas.

2. O aluno que faz mais que cinco disciplinas no primeiro semestre.
3. O aluno que reprova nas primeiras disciplinas do curso.
4. O aluno que no segue um padro na quantidade de disciplinas
cursadas a cada semestre, como por exemplo, alunos que fazem em
um semestre cinco disciplinas, no semestre seguinte trs disciplinas,
no seguinte duas disciplinas.
116
8 CONCLUSES
A partir dos estudos realizados, foi possvel identificar a importncia da

pesquisa de medidas que possam contribuir no combate evaso universitria,
devido grande variedade de fatores que influenciam este problema e o impacto
que pode causar na sociedade. Tambm foi possvel notar a importncia das etapas
do KDD e da minerao de dados neste contexto, pois permitem a realizao de
estudos detalhados do padro de alunos com perfil de evaso, alm de permitir a
avaliao de medidas preventivas para tal problema.
A aplicao das tcnicas de Minerao de Dados com o objetivo de
descobrir novos conhecimentos auxilia no processo de explorao de uma base de
dados, permitindo gerar informaes teis para os gestores e assim auxiliar as
tomadas de decises. Desta forma, este trabalho apresentou uma proposta de
estudo de padres da evaso universitria, utilizando uma abordagem com
minerao de dados, tendo como pblico alvo os alunos do curso de Cincia da
Computao da UNISC.
Analisou-se um domnio de dados disponibilizados pela universidade
contendo informaes sobre os alunos e as disciplinas por eles cursadas, alm das
movimentaes feitas pelos alunos na universidade, como matrcula, trancamentos,
trocas de currculos ou concluso do curso.
Neste domnio de dados, foram identificadas algumas tarefas de data mining
que poderiam ser aplicadas, a grande maioria delas utilizando-se das tcnicas de
Associao e Classificao, em conjunto com os algoritmos Apriori, FpGrowth e J48,
utilizando a ferramenta de minerao de dados WEKA para a resoluo das tarefas.
Algumas decises e situaes prejudicaram o andamento do trabalho,
causaram muito retrabalho e perda de tempo. Outras serviram apenas para
constatar a relao entre as necessidades da teoria e as dificuldades da prtica,
como por exemplo, a etapa de importao dos arquivos texto para um banco de
dados, que foi muito onerosa e tomou mais tempo do que o esperado. Recomenda-
se que o pesquisador faa uma anlise prvia do universo de dados a ser
trabalhado, antes da elaborao de um cronograma ou planejamento de trabalho.
O entendimento de algumas informaes sobre os atributos tambm foi
prejudicado porque as tabelas originais passaram por processo de fuso com outras
tabelas, gerando muitos dados duplicados. O ideal seria manter contato constante
117
com o administrador da base de dados fornecida, visando conhecer melhor a base

de dados a ser trabalhada, uma vez que a escolha equivocada de um atributo ou
mesmo de uma linha de pensamento, ocasionaram a elaborao equivocada de
vises e de novas bases de dados, causando muito retrabalho.
Para encontrar um modelo de tarefa que fornea resultados interessantes,
devemos executar repetidas vezes os algoritmos de minerao de dados
combinando diversos atributos da tabela at que se obtenha resultados satisfatrios,
requerendo muita pacincia do minerador de dados.
Entretanto, tambm importante mencionar que o conhecimento extrado
neste trabalho reflete a realidade do curso de cincia da computao da UNISC,
onde o total de disciplinas cursadas e o status final das disciplinas do primeiro
semestre so os fatores que mais colaboram para a evaso do curso, com os quais
pode-se traar um perfil para os alunos que evadem, como o perfil dos alunos que
sempre fazem menos de trs disciplinas, o perfil dos alunos que fazem mais que
cinco disciplinas no primeiro semestre, os alunos que reprovam nas primeiras
disciplinas do curso ou mesmo o perfil dos alunos que no seguem um padro na
quantidade de disciplinas cursadas a cada semestre.
8.1 Trabalho futuros
Com base no estudo abordado neste trabalho, estabelecem-se algumas

recomendaes para pesquisas nesta mesma rea. Alguns assuntos merecem
aprofundamento em pesquisas ou trabalhos futuros. Destes, os principais so:
a) Utilizao das matrculas dos alunos que se encontram no ANEXO D,

que no foram utilizados neste estudo, por se tratar de matrculas de
alunos que estavam ativos no curso durante a realizao deste
trabalho, para previso/validao do conhecimento que foi gerado
neste estudo;
b) Utilizao de outras tcnicas para Minerao de Dados no utilizadas
neste trabalho, como por exemplo, Clusterizao e Redes Neurais;
c) Criao de uma base para a armazenagem dos dados nos moldes
que os algoritmos de minerao exigem, possibilitando a gerao dos
arquivos no formato apropriado para a Minerao de Dados e a
118
visualizao dos resultados, acoplado ao ambiente de gesto da

universidade;
d) Incorporar ao modelo um questionrio socioeconmico, na tentativa
de Identificar precocemente os alunos com perfil propenso evaso,
possibilitando que a instituio de ensino utilize dados em tempo real
e no apenas dados estatsticos na anlise deste problema. Em
vrios casos do experimento, alunos que evadiram no primeiro
semestre apresentavam desempenho acadmico excelente, sem
reprovar em nenhuma das disciplinas cursadas, mas mesmo assim
acabaram no se matriculando para o segundo semestre. Acredita-se
que nesses casos, a evaso esteja mais diretamente vinculada a
fatores de ordem socioeconmica do que da vida acadmica do
aluno.
e) Criao de uma ferramenta de fcil utilizao por parte dos
coordenadores do curso, para que os prprios possam fazer a
minerao dos dados gerados pelos alunos no decorrer do curso,
permitindo uma gesto adequada do mesmo.
119
REFERENCIAS
ADACHI, Ana Amlia Chaves Teixeira. Evaso e evadidos nos cursos de

graduao da Universidade Federal de Minas Gerais. [Dissertao de Mestrado].
Faculdade de Educao, UFMG, 2009.
ANDRIOLA, W. B.; ANDRIOLA, C. G.; MOURA, C. P. Opinies de docentes e de

coordenadores acerca do fenmeno da evaso discente dos cursos de
graduao da Universidade Federal do Cear (UFC). Rio de Janeiro-RJ: Ensaio:
Avaliao e Polticas Pblicas em Educao, 2006.
AGRAWAL, R.; MANNILA, H.; SRIKANT, R.; TOIVONEN, H.; VERKAMO, A. I. Fast
Discovery of Association Rules. Advances in knowledge discovery and data
mining, v. 12, n. 1, p. 307-328, 1996.
BASGALUPP, Mrcio Porto. LEGAL-Tree: um algoritmo gentico multi-objetivo para

induo de rvores de deciso. [Tese de Doutorado]. So Paulo: Universidade de
So Paulo, 2010.
BRAMER, Max. Principles of data mining. [s.l]: Springer, 2013.
BREIMAN, l; FRIEDMAN, J; STONE, C. J.; OLSHEN, R. A. "CART: Classification

and regression trees." Wadsworth: Belmont, CA 156 (1994).
BUSS, Djonatan. Utilizao de tcnicas de inteligncia de negcios para

descoberta em bases de dados acadmicas. Monografia (Concluso de Curso).
Bacharelado em Cincias da Computao. Universidade Federal de Pelotas UFPE,
2011.
CAMPELLO, A. V. C.; LINS, L. N. Metodologia de anlise e tratamento da evaso e

reteno em cursos de graduao instituies federais de ensino superior. Anais.
XXVIII Encontro Nacional de Engenharia de Produo, Rio de Janeiro, 2008.
CASTANHEIRA, Luciana Gomes. Aplicao de Tcnicas de Minerao de Dados

em Problemas de Classificao de Padres. Belo Horizonte: UFMG, 2008.
COSTA, E.; BAKER, R. S. J. D.; AMORIN, L.; MAGALHES, J.; MARINHO T.

Minerao de Dados Educacionais: Conceitos, Tcnicas, Ferramentas e
Aplicaes. Jornada de Atualizao em Informtica na Educao, v. 1, n. 1, p. 1-29,
2013.
DANKEL, D. The ID3 Algorithm. Disponvel em: http://www.cise.ufl.edu/

~ddd/cap6635/Fall-97/Short-papers/2.htm, 1997.
DEKKER, G. W.; PECHENIZKIY, M.; VLEESHOUWERS, J. M. Predicting Students

Drop Out: A Case Study. Cordoba-Espanha: Proceedings of the International
Conference on Educational Data Mining, v. 9, p. 41-50, 2009.
120
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data

mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37,
1996.
GARCIA, Alan Cssio. Minerao de dados aplicada a sistemas de

recomendao. [Trabalho de Concluso de Curso]. Santa Cruz do Sul:
Universidade de Santa Cruz do Sul, 2012.
GIL, Antnio Carlos. Como classificar as pesquisas. ______. Como elaborar projetos
de pesquisa, v. 4, p. 41-56, 2002.
HALL, M. A.; WITTEN, I. H.; FRANK, E. The WEKA Data Mining Software: An
Update. SIGKDD Explorations, 2009.
INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira.

Censo da Educao Superior. Braslia: INEP, 2014. Disponvel em:
<http://portal.inep.gov.br/basica-levantamentos-acessar> Acesso em: 12 mar. de
2014.
JOHNSTON, Vronique. Why do first year students fail to progress to their

second year? An academic staff perspective. Department of Mathematics, Napier
University. British Educational Research Association Annual Conference, Nova
Iorque, 1997.
LOBO, Maria Beatriz de Carvalho Melo. Esclarecimentos metodolgicos sobre os

clculos de evaso. Instituto Lobo para o Desenvolvimento da Educao, da Cincia
e da Tecnologia. Mogi das Cruzes, SP: 2011. Disponvel em:
<http://www.institutolobo.org.br/imagens/pdf/artigos/art_087.pdf> Acesso em: 12
mar. de 2014.
MANHES, L. M. B.; CRUZ, S. M. S.; COSTA, R. J. M.; ZAVALETA, J.; ZIMBRO,

G. Previso de Estudantes com Risco de Evaso Utilizando Tcnicas de
Minerao de Dados. Instituto de Cincias Exatas Universidade Federal Rural do
Rio de Janeiro (UFRRJ), 2011.
MEC - Ministrio da Educao e Cultura. INEP. Resumo Tcnico do Censo da

Educao Superior 2009, 2009. Disponvel em <http://portal.inep.gov.br/web/censo-
da-educacao-superior/resumos-tecnicos>. Acesso em: 10 de nov. de 2014.
MINAEI-BIDGOLI, Bhrouz. Association analysis for a web-based educational

system. Data Mining in E-Learning. WitPress. Southampton, Boston, 2006.
QUINLAN, J. Ross. Induction of decision trees. Machine learning, v. 1, n. 1, p. 81-

106, 1986.
QUINLAN, J. Ross. C4.5: programs for machine learning. Vol. 1. Morgan kaufmann,
1993.
RAPIDMINER. Manual RAPID-I. 2014. Disponvel em

<http://rapidi.com/content/view/181/190/lang,en/>. Acesso em: 10 de nov. de 2014.
121
RIGO, S. J.; CAZELLA, S. C.; CAMBRUZZI, W. Minerando Dados Educacionais com

foco na evaso escolar: oportunidades, desafios e necessidades. In: Anais do
Workshop de Desafios da Computao Aplicada Educao. 2012.
REZENDE, Solange Oliveira. Sistemas inteligentes: fundamentos e aplicaes.

Barueri-SP: Editora Manole Ltda, 2003.
TAN, P.; STEINBACH, M.; KUMAR, V.; FERNANDES, A. Introduo ao

datamining: minerao de dados. Rio de Janeiro: Editora Cincia Moderna, 2009.
TINTO, V. Dropout from higher education: a theoretical synthesis of recent

research. Washington, Review of Educational Research, 1975.
TINTO, V. Leaving college: rethinking the causes of student attrition. Chicago:

University of Chicago Press, 1987.
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical machine learning
tools and techniques. 3. ed.. Morgan Kaufmann, 2011.
122
ANEXO A: Arquivos
Alunos: Dados pessoais dos alunos, como nmero de matrcula, nome e outros.
Alunos_cursos: Tabela de vnculo dos alunos com o curso.

123
Discipinas_cursadas: Tabela das disciplinas cursadas pelos alunos.
Itens_concluidos: Itens concludos pelos alunos durante o curso.

124
Arquivo: Ocorrencias_alunos: Tabela com todas as ocorrncias dos alunos no

curso, desde a matrcula, trancamentos, cancelamentos ou formatura.
Fonte: Setor de informtica da UNISC

125
ANEXO B: Quadros
ALUNOS
Coluna Tipo Dado Null PK Descrio Domnio/Nota
matr_aluno Integer No Sim Matrcula do Aluno
Matrcula do aluno no sistema
matr_antiga_aluno char(8) No No antigo
nome_aluno varchar(50) No No Nome do aluno
dt_nascimento date No No Data de nascimento
cod_cidade_naturalidade integer No No Cdigo do local de nascimento
Nacionalidade char(20) No No Nacionalidade
nome_pai varchar(50) No No Nome do pai
nome_mae varchar(50) No No Nome da me
Sexo char(1) No No Sexo M, F
estado_civil integer No No Estado Civil
Cdigo do logradouro do
cod_logradouro_cobranca integer1 No No endereo de cobrana
endereco_cobranca varchar(50) No No Endereo para cobrana
bairro_cobranca varchar(20) No No Bairro do endereo de cobrana
Cdigo da cidade do endereo
cod_cidade_cobranca integer No No de cobrana
CEP referente ao endereo de
cep_cobranca char(8) No No cobrana
Fone para o contato em caso de
fone_cobranca char(20) No No cobrana
outro_endereco varchar(50) No No Outro endereo do aluno
Bairro correspondente ao outro
outro_bairro varchar(20) No No endereo
Cdigo da cidade do outro
outro_cod_cidade integer No No endereo
outro_cep char(8) No No CEP referente ao outro endereo
outro_fone char(20) No No Fone para contato
Cdigo da profisso ou atividade
cod_profissao integer No No que o aluno exerce
endereco_profissao varchar(50) No No Endereo profissional
Bairro referente ao endereo
bairro_profissao varchar(20) No No profissional
Cdigo da cidade do endereo
cod_cidade_profissao integer No No profissional
CEP referente ao endereo
cep_profissao char(8) No No profissional
fone_profissao char(20) No No Fone profissional para contato
cic_numero char(11) No No Nmero do CPF
cic_valido integer1 No No
ci_numero char(15) No No Nmero da carteira de identidade
rgo expedidor da carteira de
ci_orgao char(3) Sim No identidade
UF onde foi expedida a carteira
ci_uf char(2) Sim No de identidade
Nmero da carteira de identidade
ce_numero char(10) Sim No para estrangeiros|
126
rgo Expedidor da carteira de

ce_orgao char(3) Sim No identidade para estrangeiros
Pas do rgo expedidor da
ce_pais char(10) Sim No carteira
Nmero de registro da carteira
sm_numero char(12) Sim No de servio militar
Natureza ou espcie de
sm_tipo_doc varchar(30) Sim No documento
Srie da carteira de servio
sm_serie char(1) Sim No militar
Ministrio referente ao
sm_ministerio varchar(20) Sim No cumprimento do Servio Militar
Ano da expedio da Carteira do
sm_ano_expedicao integer Sim No Servio Militar
Situao do aluno quanto a
sm_quitacao char(1) Sim No quitao do servio militar S, N
te_numero char(15) Sim No Nmero do ttulo eleitoral
te_zona integer Sim No Zona referente ao Ttulo Eleitoral
Seo referente ao Ttulo
te_secao integer Sim No Eleitoral
Cdigo da cidade referente ao
te_local integer No No Ttulo Eleitoral
te_dt_votacao date Sim No Data referente ltima votao
Condio do aluno quanto aos
aluno_especial char(1) No No cursos S, N
Indicador para a autorizao da
autorizacao_matr char(1) No No matrcula S,N
Cdigo da justificativa de
cod_justif_matricula integer No No autorizao de matrcula
status_aluno char(1) No No Situao do aluno na instituio A, I
Data de expedio da carteira de
sm_dt_expedicao date Sim No servio militar
ALUNOS_CURSOS
Cdigo do curso do
cod_curso Integer No Sim aluno
cod_curriculo Smallint No No Cdigo do currculo
Tipo de movimento
tipo_ocorrencia integer1 No No do aluno 1-Ingresso, 2-Evaso
1-Vestibular, 2-Transferncia
Interna, 3-Transferncia
Externa, 4-Reingresso,5-
Diplomado, 6-Aluno
Especial,7-Concluso, 8-
Trancamento,9-
Cancelamento,10-
Desistncia, 11-
Suspenso,12-
Desligamento,13-
Subtipo de Falecimento,14-
ocorrncia para o Cancelamento de
subtipo_ocorrencia integer1 No No aluno Matrcula,15-Cancelamento
127
de Rematrcula, 16-Ingresso
em Curso Sequencial, 17-
Permuta, 18-Trancamento
para Vnculo,19-Reopo de
Habilitao
Cdigo da
justificativa de
cod_justif_evasao Integer No No evaso
Ano em que o aluno
ingressou ou evadiu
ano_ocorrencia Smallint No No do curso
Perodo em que o
aluno ingressou ou
periodo_ocorrencia integer1 No No evadiu do curso
Data em que o
aluno ingressou ou
dt_ocorrencia Date No No evadiu do curso
Ano limite referente
possibilidade de
ano_fim_ocorrencia Smallint Sim No retorno do aluno
Perodo limite
referente
possibilidade de
periodo_fim_ocorrencia integer1 Sim No retorno do aluno
Data limite referente
possibilidade de
dt_fim_ocorrencia Date Sim No retorno do aluno
Ano previsto para a
ano_prev_conclusao Smallint No No concluso do curso
Perodo previsto
para a concluso do
periodo_prev_conclusao integer1 No No curso
Data referente
dt_colacao_grau Date No No colao de grau
Data de expedio
dt_expedicao_diploma Date No No do doploma
Indicador de
autorizao de
matrcula pelo
autorizacao_matr char(1) No No responsvel S-Sim, N-No
Indicador para a
autorizao da
matrcula nos itens
curriculares que tem
Vide-Coordenao
autorizacao_requisitos char(1) No No como requisito
Previso de o aluno
ser um provvel
prev_formando char(1) No No formando
1-DOC, 2-Dbito em folha, 3-
Indica a forma de Pagamento de monitoria, 4-
cobrana default Dbito em conta, 5-No
forma_cobranca integer1 No No para o aluno emisso DOC
128
Indica o pagamento
pagto_entrada char(1) No No referente entrada S-Sim, N-No
Cdigo da
justificativa de
dispensa do
pagamento de
cod_justif_pagto Integer No No entrada
Nmero sequencial
atual de
identificao da
sequencia_atual Integer No No ocorrncia
Data de realizao
do Exame Nacional
dt_provao Date No No de Curso pelo aluno
cod_status_provao integer4 Sim No
OCORRENCIAS_ALUNOS
Matrcula do
matr_aluno Integer No Sim Aluno
Nmero
sequencial de
identificao da
Sequencia Integer No Sim ocorrncia
cod_curso Integer Sim No Cdigo do curso
Tipo de
tipo_ocorrencia Integer No No ocorrncia 1-Ingresso, 2-Evaso
1-Vestibular, 2-Transferncia Interna, 3-Transferncia
Externa, 4-Reingresso,5-Diplomado, 6-Aluno Especial,7-
Concluso, 8-Trancamento,9-Cancelamento,10-
Desistncia, 11-Suspenso,12-Desligamento,13-
Falecimento,14-Cancelamento de Matrcula,15-
Cancelamento de Rematrcula, 16-Ingresso em Curso
Subtipo de Sequencial, 17-Permuta, 18-Trancamento para
subtipo_ocorrencia Integer No No ocorrncia Vnculo,19-Reopo de Habilitao
Cdigo da
justificativa de
cod_justif_evasao Integer No No evaso
Ano em que o
aluno ingressou
ou evadiu do
ano_ocorrencia SmallInt No No curso
Perodo em que
o aluno
ingressou ou
periodo_ocorrencia Integer No No evadiu do curso
Data em que o
aluno ingressou
ou evadiu do
dt_ocorrencia date No No curso
Ano limite
referente
possibilidade de
ano_fim_ocorrencia smallint Sim No retorno do aluno
Perodo limite
referente
possibilidade de
periodo_fim_ocorrencia Integer Sim No retorno do aluno
Ano em que o
aluno prestou
ano_vest smallint Sim No vestibular
Perodo em que
o aluno prestou
periodo_vest Integer Sim No vestibular
Mdia geral
media_geral float Sim No obtida pelo aluno
129
no vestibular
Classificao
obtida no curso
pelo aluno no
classif_curso smallint Sim No vestibular
Classificao
geral obtida pelo
aluno no
classif_geral smallint Sim No vestibular
Cdigo da
instituio de
ensino do
cod_instituicao_2g Integer Sim No segundo grau
Ano da evaso
do curso de
ano_evasao_2g smallint Sim No segundo grau
Cdigo da
instituio de
ensino superior
cod_instituicao_3g Integer Sim No de origem
Ano de evaso
do aluno em
relaco ao curso
ano_evasao_3g smallint Sim No de origem
Perodo de
evaso do aluno
em relao ao
periodo_evasao_3g Integer Sim No curso de origem
Cdigo do curso
de segundo grau
concludo pelo
cod_curso_2g Integer Sim No aluno
Cdigo do curso
superior
concludo pelo
cod_curso_3g Integer Sim No aluno
Mdia
hasrmnica
obtida pelo aluno
media_harmonica float Sim No no vestibular
Mdia ponderada
obtida pelo aluno
media_ponderada float Sim No no vestibular
Semestre de
periodo_ideal_ingresso Integer Sim No ingresso
Ano base para
clculo do
ano_base_ingresso smallint Sim No semestre atual
Perodo base
para clculo do
periodo_base_ingresso Integer Sim No semestre atual
DISCIPLINAS_CURSADAS

Ano em que foi cursada a
ano_matr smallint No Sim disciplina
Perodo em que foi cursada a
periodo_matr integer1 No Sim disciplina
cod_disciplina integer No Sim Cdigo da disciplina cursada
Cdigo do curso da turma na
qual o aluno cursou a
cod_curso_turma integer No No disciplina
Cdigo referente turma
lgica na qual o aluno cursou
cod_turma_logica integer No No a disciplina
130
nota1 float4 No No Primeira nota parcial

nota2 float4 No No Segunda nota parcial
Nota final resultante de uma
nota_final float4 No No mdia entre as notas parciais
nota_exame float4 No No Nota do exame final
media_final float4 No No Mdia final da disciplina
Carga horria lecionada para
carga_horaria decimal(13,4) No No a disciplina (aulas dadas)
1-Aprovado, 2-
Situao do aluno em relao Reprovado,3-
status_disciplina integer1 No No disciplina Desistente
Proporo da presena x hora
aula para o controle de
proporcao_presenca char(10) No No frequncia
faltas_aluno smallint No No Nmero de faltas do aluno
freq_aluno float4 No No Frequncia do aluno s aulas
ITENS_CONCLUIDOS
cod_curso integer No Sim Cdigo do curso
cod_curriculo smallint No Sim Cdigo do currculo
seq_item integer1 No Sim Nmero sequencial referente ao item do currculo
1-Cursado, 2-Aproveitado,3-
tipo_conclusao integer1 No No Tipo de concluso da disciplina Dispensado
Crditos decimal(13,4) No No Nmero de crditos concludos
Fonte: Departamento de TI da UNISC

131
ANEXO C: Consultas
Consulta 01: Disciplinas cursadas

SELECT distinct a.matr_aluno, A.cod_disciplin, A.ano_ma, A.period, A.status,
A.media_final
FROM r_disciplinas_cursadas A
where A.cod_curso_tur IN (186,207,2509)
ORDER BY a.matr_aluno, A.ano_ma, A.period, A.cod_disciplin
Consulta 02: Total disciplinas cursadas por ano/semestre por aluno

select count (*), d.ano_ma, d.period
from DISCIPLINAS_CURSADAS d
where d.matr_aluno = :MATR
group by d.ano_ma, d.period
order by d.ano_ma, d.period
Consulta 03: Ocorrncia alunos

select a.matr_aluno,a.cod_curso, a.tipo_o, a.subtip
from R_OCORRENCIAS_ALUNOS a , historico H
where a.matr_aluno = :MATR AND A.matr_aluno = H.matricula
AND A.cod_curso IN (186,207,2509)
order by a.sequencia
Consulta 4: Experimento 1
select h.sexo,
case when h.estado_civil = 1 then 'Solteiro' else 'Demais' end as estado_civil,
CASE
WHEN (h.idade_ingresso < 20) THEN '<19'
WHEN (h.idade_ingresso > 19 AND h.idade_ingresso < 26) THEN '20-25'
WHEN (h.idade_ingresso > 35 ) THEN '>36'
else '?'
END AS faixa_etaria,
h.codigo_curriculo_curso as curriculo,
132
CASE
WHEN (h.meio_acesso = 1) THEN 'Vestibular'
WHEN (h.meio_acesso = 2) THEN 'Transf_Interna'
WHEN (h.meio_acesso = 3) THEN 'Transf_Externa'
WHEN (h.meio_acesso = 5) THEN 'Diplomado'
WHEN (h.meio_acesso = 26) THEN 'Outro'
else '?'
END AS meio_acesso,
coalesce (h.trocou_curriculo,'?') as trocou_curriculo,
case
when h.qtde_trancamentos = 0 then 'Nenhuma'
when h.qtde_trancamentos = 1 then 'Uma'
when h.qtde_trancamentos >= 2 then 'Mais_que_uma'
else '?'
end as qtde_trancamentos,
h.total_disciplinas_cursadas,
case
when h.tot_disc_sem_01 in (1,2) then '1->2'
when h.tot_disc_sem_01 > 6 then '7->'
else '0'
end as tot_disc_sem_01,
case
else '0'
case
133

else '0'
case
else '0'
case
else '0'
case
when h.status_movimentacao = 1 then
case
when h.subtipo_movimentacao in (1,2,3,4,5) then 'Cursando'
end
case
when h.subtipo_movimentacao in (2,3,8,9,10,13,14,15,18) then 'Evaso'
When h.subtipo_movimentacao = 7 then 'Formado'
end
end as Situacao
from historico h
select h.sexo,
CASE
134

else '?'
CASE
WHEN (h.meio_acesso = 1) THEN 'Vestibular'
WHEN (h.meio_acesso = 2) THEN 'Transf_Interna'
WHEN (h.meio_acesso = 3) THEN 'Transf_Externa'
WHEN (h.meio_acesso = 5) THEN 'Diplomado'
WHEN (h.meio_acesso = 26) THEN 'Cdigo 26'
else '?'
END AS meio_acesso,
case
when h.qtde_trancamentos > 1 then 'Mais_que_uma'
else '?'
end as qtde_trancamentos ,
case
when h.tempo_permanencia = 1 then '1'
when h.tempo_permanencia in (2,3) then '2->3'
when h.tempo_permanencia in (4,5) then '4->5'
when h.tempo_permanencia > 5 then '6->'
end as Semestres,
case
case
end
135
case
end
end as Situacao
from historico h
select h.sexo,
CASE
else '?'
case
when h.qtde_trancamentos > 1 then 'Mais_que_uma'
else '?'
end as qtde_trancamentos ,
case
when h.media_vestib <= 2 then 'Muito_baixa'
when h.media_vestib > 2 and h.media_vestib <= 3 then 'Baixa'
when h.media_vestib > 3 and h.media_vestib <= 5 then 'Media'
when h.media_vestib > 5 then 'Boa'
else '?'
end as media_vestibular ,
case
when h.class_vestib <= 10 then 'Top_10'
when h.class_vestib > 10 then 'Demais'
136
else '?'
end as class_vestibular ,
case
case
end
case
end
end as Situacao
from historico h
137
ANEXO D: Matriculas dos alunos ativos
M-21619 M-51771 M-60046 M-72566 M-80027 M-89867 M-96619

M-24085 M-51778 M-60047 M-72567 M-80874 M-89870 M-96621
M-29019 M-51784 M-60049 M-72571 M-81623 M-89875 M-96622
M-30424 M-51786 M-60072 M-72573 M-81624 M-89878 M-96624
M-30939 M-51791 M-60073 M-72575 M-81632 M-89879 M-96631
M-31020 M-51793 M-60074 M-72578 M-81639 M-89886 M-96637
M-31293 M-51803 M-60075 M-72581 M-81645 M-89887 M-97331
M-31523 M-51808 M-60076 M-72583 M-81651 M-89889 M-97332
M-31604 M-52732 M-60079 M-72589 M-81657 M-89892 M-97334
M-31703 M-53120 M-60081 M-72595 M-82473 M-89895 M-97941
M-31761 M-53372 M-61078 M-72598 M-82474 M-89899 M-98190
M-31853 M-53513 M-61777 M-72600 M-82791 M-90269 M-98673
M-32303 M-53600 M-61930 M-72602 M-83838 M-91215
M-32331 M-55755 M-62003 M-72619 M-83840 M-91216
M-32334 M-55819 M-62014 M-72628 M-83849 M-92314
M-33504 M-55821 M-62322 M-72887 M-83850 M-92892
M-33573 M-55828 M-62798 M-73941 M-83853 M-92968
M-34474 M-55835 M-62822 M-74221 M-83856 M-93340
M-35687 M-55837 M-62824 M-74300 M-83862 M-93465
M-36579 M-55838 M-62827 M-76310 M-83864 M-93466
M-36587 M-55840 M-64121 M-77574 M-83869 M-93473
M-36593 M-55842 M-65605 M-77575 M-85648 M-93476
M-38253 M-55846 M-65615 M-77581 M-85771 M-93479
M-39436 M-55847 M-65616 M-77583 M-85786 M-93483
M-39438 M-55857 M-65619 M-77585 M-85895 M-93484
M-39733 M-55859 M-65621 M-77588 M-87312 M-93487
M-40150 M-55860 M-65626 M-77589 M-87315 M-93488
M-40931 M-55867 M-65633 M-77591 M-87318 M-93492
M-40939 M-56210 M-65634 M-77602 M-87327 M-93493
M-41532 M-56298 M-65636 M-77603 M-87336 M-93497
M-41617 M-56692 M-65642 M-77610 M-87347 M-93517
M-42103 M-56708 M-66782 M-77611 M-87360 M-94019
M-42585 M-57329 M-67072 M-77613 M-87362 M-94945
M-43050 M-57662 M-67454 M-77619 M-87363 M-95929
M-43953 M-57789 M-68663 M-77654 M-87709 M-96600
M-45375 M-58184 M-68689 M-77662 M-88275 M-96603
M-46450 M-58198 M-69689 M-77724 M-88281 M-96605
M-48008 M-59070 M-69692 M-77783 M-88613 M-96606
M-48074 M-59658 M-69693 M-78273 M-89857 M-96610
M-50871 M-59859 M-70326 M-78606 M-89859 M-96612
M-51765 M-60041 M-70795 M-79196 M-89862 M-96613
M-51767 M-60041 M-71169 M-79544 M-89863 M-96616
M-51770 M-60042 M-72565 M-79577 M-89866 M-96618

Romeu Cornelius Junior - TCC - Final

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Romeu Cornelius Junior - TCC - Final

Încărcat de

Drepturi de autor:

Formate disponibile

CURSO DE CINCIA DA COMPUTAO

USO DA MINERAO DE DADOS NA IDENTIFICAO DE ALUNOS

Santa Cruz do Sul

USO DA MINERAO DE DADOS NA IDENTIFICAO DE ALUNOS

Trabalho de Concluso apresentado ao Curso de

Orientador: Prof. Dr. Jacques Nelson Corleta Schreiber

Santa Cruz do Sul

Em primeiro lugar, agradeo a minha me, Nercy, pelo apoio, incentivo e

As universidades enfrentam o desafio de reduzir os ndices de evaso dos alunos

Palavras chave: Evaso no ensino superior. Minerao de dados. Ferramenta

Reduce students dropout rates in graduate courses is a challenge faced by

Figura 01 - ndice da evaso no Brasil ...................................................................... 17

Figura 42 - Resultado do experimento C2 ................................................................. 90

Tabela 1 - Tabela de resultados comparando diferentes algoritmos ......................... 58

Grfico 1 - Exemplo de regresso linear ................................................................... 30

ANDIFES Associao Nacional dos Dirigentes das Instituies Federais

2 NMEROS DA EVASO UNIVERSITRIA NO BRASIL ..................................... 16

3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS ............................. 19

4 MINERAO DE DADOS EDUCACIONAIS ......................................................... 24

4.3.1 Algoritmo CART ............................................................................................... 44

5 FERRAMENTAS DE MINERAO DE DADOS ................................................... 49

6 TRABALHOS RELACIONADOS ........................................................................... 55

7 METODOLOGIA E CONTEXTUALIZAAO DO PROBLEMA .............................. 61

8 CONCLUSES .................................................................................................... 116

REFERENCIAS ....................................................................................................... 119

O problema da evaso ocorre em todas as universidades brasileiras, tanto

A categoria pblica apresenta 26,3% das matrculas de graduao; possui

Pesquisar conceitos aprofundados e tcnicas ligadas rea de pesquisa,

Definir os algoritmos e tecnologias a serem adotados no desenvolvimento

Do ponto de vista social, este estudo se justifica pela diminuio da mo de

2 NMEROS DA EVASO UNIVERSITRIA NO BRASIL

Este captulo faz uma breve descrio do problema da evaso universitria

2.1 A evaso no curso de Cincia da Computao da UNISC

Entre 1993 e 2014, o curso de Cincia da Computao da UNISC teve 2.170

Figura 01 - ndice da evaso no Brasil

Fonte: (MEC, 2009).

A Figura 02 exibe os nmeros da evoluo da evaso a cada semestre do

Figura 02 - Evoluo da evaso na UNISC

Fonte: (Setor de informtica da UNISC, adaptado pelo Autor).

Pode-se ver na primeira linha da tabela exibida na Figura 02, identificada

3 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS

Neste captulo so discutidos os principais conceitos envolvidos no processo

Figura 03 - Fases da descoberta de conhecimento em bases de dados

Fonte: (Castanheira, 2008).

3.1 Etapas da descoberta de conhecimento em base de dados

O processo de KDD dividido em passos. Desde a seleo da base de

3.1.1 Seleo dos dados

Esta etapa envolve a compreenso do domnio e dos objetivos da tarefa,

3.1.2 Pr-processamento dos dados

Esta etapa envolve operaes como tratar a falta de dados em alguns

3.1.3 Transformao dos dados

Esta fase antecede a seleo dos algoritmos de minerao de dados. Os

Esto envolvidas nesta etapa tarefas como identificao de rudos, outliers

3.1.4 Minerao de dados

Embora muitos autores considerem a minerao de dados como sinnimo

3.1.5 Avaliao dos resultados

Esta a ltima etapa do processo de KDD, no qual os conhecimentos

Os resultados da minerao de dados devem ser apresentados de forma

4 MINERAO DE DADOS EDUCACIONAIS

Transformao dos dados (os dados selecionados nem sempre esto na

Uma etapa de anlise cuidadosa dos dados educacionais a serem

4.1 Tarefas e tcnicas da minerao de dados

Nesta seo so explicadas as principais tarefas e tcnicas da minerao de