Sunteți pe pagina 1din 45

PONTIFCIA UNIVERSIDADE CATLICA DE MINAS GERAIS

Bacharelado em Sistemas de Informao


Dayana Thalita Santos Viana
PROCESSO DE KDD APLICADO AOS MICRODADOS DO CENSO DA EDUCAO
SUPERIOR DO INEP
Belo Horizonte
2012
Dayana Thalita Santos Viana
PROCESSO DE KDD APLICADO AOS MICRODADOS DO CENSO DA EDUCAO
SUPERIOR DO INEP
Monograa apresentada ao Curso de Sistemas
de Informao da Pontifcia Universidade Ca-
tlica de Minas Gerais, como requisito parcial
para obteno do ttulo de Bacharel Sistemas de
Informao.
Orientador: Hugo Bastos de Paula
Belo Horizonte
2012
Dayana Thalita Santos Viana
PROCESSO DE KDD APLICADO AOS MICRODADOS DO CENSO DA EDUCAO
SUPERIOR DO INEP
Monograa apresentada ao Curso de Sistemas
de Informao da Pontifcia Universidade Ca-
tlica de Minas Gerais, como requisito parcial
para obteno do ttulo de Bacharel Sistemas de
Informao.
Professor 1 (Orientador) PUC Minas
Professor 2 PUC Minas
Professor 3 Universidade
Belo Horizonte, 26 de Novembro de 2012.
A toda minha famlia e principalmente ao meu pai,
por ter me dado todo carinho e a melhor educao possvel,
e por ser um grande exemplo de boa pessoa.
AGRADECIMENTOS
Ao Prof. Hugo Bastos, pela orientao neste trabalho de concluso de curso.
Aos demais professores, que compartilharam seus conhecimentos e experincias.
Aos colegas do curso de Sistemas de Informao da PUC Minas.
E a minha famlia pelo apoio e compreenso durante todo esse perodo.
Suba o primeiro degrau com f.
No necessrio que voc veja toda a escada.
Apenas d o primeiro passo.
Martin Luther King
RESUMO
O Knowledge Discovery in Databases (KDD) um processo composto de vrias etapas
para compreenso de padres nos dados. Dada a divulgao pblica dos dados do Censo da
Educao Superior realizada anualmente pelo Instituto Nacional de Estudos e Pesquisas Edu-
cacionais Ansio Teixeira (Inep) temos uma base de dados para desenvolver o processo. Foi
utilizada Minerao de Dados, com o auxlio de ferramentas como o SQL Server e Excel para
descoberta de conhecimento nessa base de dados. Visto que um dos maiores desaos que o
ensino superior enfrenta hoje prever as decises dos alunos, a utilizao desse processo e
ferramentas pode ajudar a tomada de decises da Universidade PUC Minas. Os resultados
trouxeram informaes e previses sobre ingressos e evases; anlises sobre a quantidade de
candidatos vaga; a importncia do curso de Sistemas de Informao dentro e fora da PUC Mi-
nas; inuenciadores da taxa de ocupao, principais cursos que aparecem juntos com grande
ocupao e recomendaes.
Palavras-chave: Processo KDD. SQL Server. Excel. ETL. Minerao de Dados.
Censo da Educao Superior.
LISTA DE FIGURAS
FIGURA 1 Processo KDD (Traduo por Dayana Viana) . . . . . . . . . . . . . . . . . . . . . . . . . 6
FIGURA 2 Minerao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
FIGURA 3 rvores de Deciso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
FIGURA 4 Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
FIGURA 5 Vizinho mais prximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
FIGURA 6 Redes Neurais e Regresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
FIGURA 7 Arquitetura de um Data Warehouse (Traduo por Dayana Viana) . . . . 11
FIGURA 8 Composio do Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
FIGURA 9 Estruturas do SQL Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
FIGURA 10 Modelo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
FIGURA 11 Modelo de Dados modicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
FIGURA 12 Ferramenta de Anlise de Tabela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
FIGURA 13 Evoluo do Nmero de Instituies por Rede Administrativa - MG
(2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
FIGURA 14 Evoluo de Ingressantes por Rede Administrativa - MG (2001-2008) 23
FIGURA 15 Evoluo de Ingressantes na PUC Minas (2001-2008) . . . . . . . . . . . . . . . 23
FIGURA 16 Evoluo de Ingressantes por Rede Administrativa nos Cursos de Siste-
mas de Informao - MG (2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
FIGURA 17 Evoluo de Ingressantes na PUC Minas no Curso de Sistemas de Infor-
mao (2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
FIGURA 18 Participao dos 10 maiores Cursos em relao ao total de Ingressantes
- MG (2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
FIGURA 19 Participao dos 10 maiores Cursos em relao ao total de Ingressantes
na PUC Minas (2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
FIGURA 20 Previso para Ingressantes e Evaso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
FIGURA 21 Previso para Ingressantes e Evaso no Curso de Sistemas de Informa-
o da PUC Minas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
FIGURA 22 Deteco de Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
FIGURA23 Evoluo Candidatos/Vaga nos Cursos de Sistemas de Informao (2001-
2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
FIGURA24 Evoluo Candidatos/Vaga no Curso de Sistemas de Informao da PUC
Minas(2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
FIGURA25 Inuenciadores-chave e seu impacto sobre os valores de Tx_Ocupacao. 29
FIGURA 26 Associao entre itens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
FIGURA 27 Recomendaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
LISTA DE TABELAS
TABELA 1 Evoluo do Nmero de Ingressos por Categoria Administrativa. . . . . . . . 1
LISTA DE ABREVIATURAS E SIGLAS
BI Business Inteligence
DCBD Descoberta de Conhecimento em Banco de Dados
DW Data Warehouse
ETL Extract Transform Load
GTI Gerncia de Tecnologia de Informao
IES Instituies de Ensino Superior
Inep Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira
KDD Knowledge Discovery in Databases
OLAP On-Line Analytical Processing
PUC Minas Pontifcia Universidade Catlica de Minas Gerais
SGBD Sistema Gerenciador de Banco de Dados
S2B Students to Business
SUMRIO
1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 MINERAO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 DATA WAREHOUSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5 SQL SERVER. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6 MICRODADOS DO CENSO DA EDUCAO SUPERIOR. . . . . . . . . . . . . . . . . . . . . 16
7 DESENVOLVIMENTO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.1 Processo KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.1.1 Seleo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.1.2 Pr-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.1.3 Transformao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7.1.4 Minerao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
7.1.5 Interpretao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8 CONCLUSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1
1 INTRODUO
A questo do acesso ao ensino superior brasileiro vm sendo discutida como uma ques-
to poltica brasileira. A partir dos anos 90 vm se expandindo a quantidade de estudantes que
concluemo ensino mdio. Esse crescimento deve-se rede privada e as polticas implementadas
no setor pblico pelo estado de Minas Gerais visando maior ecincia no ensino fundamental.
Acrescido a isso, aes de mbito universitrio, como criao de novos cursos, aumento de va-
gas e facilidades nas inscries ou realizao das provas de vestibular estimulam a procura pela
educao superior (MENDES, 1997). Como consequncia, percebe-se um aumento na quanti-
dade de ingressantes no ensino superior, conforme podemos ver na Tabela 1.
Tabela 1: Evoluo do Nmero de Ingressos por Categoria Administrativa Brasil
(2001-2010)
Fonte: (INEP, 2012).
Um dos maiores desaos que o ensino superior enfrenta hoje prever as decises dos
alunos. Instituies gostariam de saber, por exemplo, quais alunos iro se inscrever em cursos
particulares, ou se existem alunos mais propensos realizar transferncias do que outros. Alm
disso, a questo da gesto de inscrio continua a motivar as instituies de ensino superior
procurar melhores solues (LUAN, 2002).
Am de oferecer informaes detalhadas e tendncias do setor, o Inep realiza regu-
larmente a coleta dos dados sobre a educao superior. Dentre os dados coletados podemos
encontrar informaes sobre as instituies de ensino superior, seus cursos, vagas ofertadas,
nmero de inscries, matrculas, ingressantes e concluintes. Esses dados so coletados atravs
2
de questionrios respondidos pelas Instituies de Ensino Superior (IES). Ento, so publicados
apenas como informaes estatsticas mostrando, como exemplo, percentuais de crescimento do
nmero de matrculas (INEP, 2011).
Somente a coleta de dados no ajuda nas decises das instituies. Para que exista me-
lhoria no processo necessrio analisar os dados coletados e estabelecer indicadores, para ento
descobrir padres que estavam escondidos entre os dados. Dada a quantidade e frequncia
de dados coletados necessrio despender um alto custo para se realizar toda anlise em tempo
hbil, sendo necessria a busca por ferramentas que automatizem esse processo. Am de solu-
cionar este problema, oportuno utilizar-se a metodologia de Descoberta de Conhecimento em
Banco de Dados (DCBD) ou do termo mais conhecido em ingls KDD. Com a utilizao de tc-
nicas como a minerao de dados, possvel explicitar o conhecimento antes oculto em grandes
quantidades de informaes. Atravs dessas tcnicas podemos realizar anlises dos dados, per-
mitindo a previso de tendncias e comportamentos. Assim gerentes estratgicos podem tomar
suas decises baseadas nesses fatos descobertos e no mais em premissas (CARDOSO, 2008).
O KDD possui vrias etapas como: seleo de dados, limpeza e preparao dos dados,
identicao de dados relevantes, data mining, avaliao de padres e apresentao de resulta-
dos. A minerao de dados apenas uma etapa do processo de descoberta, que por sua vez
dividido em tarefas como: anlise de regras de associao, classicao e predio, anlise de
padres sequenciais, anlise de agrupamentos e anlise de excees. Essas tarefas consistem
respectivamente em encontrar itens que determinem a presena de outros, denir classes para
objetos que ainda no foram analisados, encontrar comportamentos que ocorrem em sequncia,
identicar grupos com caracterstica iguais e determinar itens que fogem do comportamento
padro da maioria (CARDOSO, 2008).
A demanda por cursos e a evaso estudantil so problemas que atingem instituies de
ensino superior em geral (MENDES, 1997; FILHO, 2007). Apesar da abundncia de dados for-
necida pelo Inep, no possvel conhecer imediatamente as razes que geram esses problemas,
para assim aplicar uma soluo satisfatria de gesto. Tal quantidade de informaes precisam
passar por umprocesso de descoberta de conhecimento para trazerem tona relaes atualmente
desconhecidas.
Diversas universidades j realizaram minerao de dados em seus dados educacionais.
Mendes (1997) elaborou um artigo analisando a demanda de vagas nos vestibulares da UFMG
nos anos 90. Nesse estudo ele observou aspectos socioeconmicos dos candidatos, rea de co-
nhecimento mais aquecida no mercado e aes de mbito universitrio. Apesar de analisar os
dados relativos s quantidade de alunos inscritos no vestibular, Mendes no analisa informa-
3
es ps vestibular, como a quantidade de alunos efetivamente matriculados e valores relativos
alunos que conseguem concluir os cursos. J Beatriz (2007) avana no ponto criticado ante-
riormente e publica seu trabalho sobre evaso brasileira no ensino superior. Ela correlaciona
evaso e demanda, candidatos por vaga, em diversas reas de conhecimento, regies do pas e
categorias administrativas (pbico/privado). Apesar da relevncia das informaes, no in-
cludo no estudo uma proposta ou mesmo uma soluo para o problema apresentado. Ramos
(1996) teve como objeto de estudo a evaso dos cursos de graduao em IES pblicas. Classi-
cou as evases em nvel de curso, instituio e evaso a nvel de sistema superior. Ele indica as
possveis causas das evases classicado-as em trs ordens: as que se relacionam ao estudante,
ao curso e instituio ou a fatores scio-culturais e econmicos externos. Apesar de ofere-
cer disgnsticos rigorosos no apresenta relatrios dimensionando as causa. Christine (2009),
semelhante a proposta anterior, analisa os dados referente aos alunos de uma turma e conclui
apresentando os motivos das evases e as solues cabveis.
Ao observar as solues existentes para anlise de dados educacionais percebemos que
no existe um mtodo automatizado para isso. So organizadas tabelas e grcos como tcnicas
de descoberta de dados. Atualmente possvel a aplicao de ferramentas automticas para ex-
trao de informaes relevantes, como por exemplo, a extrao de dados da plataforma Lattes
realizada por Cardoso (2008), que utilizou tcnicas de data mining. Juntamente necessidade
de automatizao da descoberta de dados na rea escolar percebemos que a PUC Minas ainda
no possui um sistema para anlise de demandas e evases. V-se a um timo cenrio para su-
plantar as solues existentes acrescentando o uso de uma metodologia automatizada visando
um aumento ecaz de produtividade.
1.1 Objetivo
O objetivo desse trabalho aplicar as diversas etapas do processo de KDD em um banco
com dados recebido pelo Inep. Como foco desse banco teremos os alunos de sistema de infor-
mao da Pontifcia Universidade Catlica de Minas Gerais (PUC Minas). Assim ser possvel
extrair conhecimento referente ao processo decisrio da universidade quanto a esse curso. Ser
possvel at mesmo estabelecer um modelo de gesto instituio mencionada.
Esse trabalho auxiliar no processo de descoberta do conhecimento, que pode servir de
apoio tomada de deciso, possibilitando aperfeioamento do sistema de ensino superior da
instituio. Frequentemente ms decises so tomadas pela indisponibilidade do conhecimento
para se escolher a melhor deciso (CARDOSO, 2008). Obter uma reexo sobre demanda e eva-
4
so nos ltimos anos torna-se extremamente importante, permitindo a avaliao e possivelmente
reformulao dos processos de seleo. Como tambm poder ser possvel dar mais suporte aos
alunos, am de que eles no abandonem o curso. Os estudantes sero qualicados garantindo
bons resultados com a maior quantidade de diplomados. Portanto, as capacidades do data mi-
ning aplicadas ao dados do ensino superior economizaro recursos, maximizaro a ecincia e
aumentaro a produtividade sem aumentar os custos da instituio (LUAN, 2002).
5
2 KDD
Diversas notaes para encontrar padres teis nos dados j foram usadas. Entre elas,
o termo data mining foi o mais comum. A expresso Knowledge discovery in database (KDD)
apenas comeou a ser usada em um workshop em 1989 para enfatizar que o conhecimento
(knowledge) era o produto nal da procura. KDD representa todo processo de descoberta de
conhecimento. Inclui como os dados sero armazenados, acessados, como os algoritmos sero
aplicados, como os resultados sero interpretados e visualizados. Porm a nfase maior se d ao
entendimento dos padres que podem ser interpretados como conhecimento til. J data mining
a aplicao de algoritmos aos dados para obteno de regras. a modelagem de algoritmos
para uma grande quantidade de dados inconsistentes (FAYYAD, 1996).
KDD um processo no trivial de identicao vlida, tima, til e de fcil compreen-
so dos padres nos dados. O termo processo implica que o KDD possui diversos passos como
a preparao dos dados, busca de padres, avaliao do conhecimento e renamento em mlti-
plas iteraes em que podem conter revises a cada dois passos. No trivial signica que so
necessrias pesquisas em cima dos dados e no somente computao com valores predenidos.
til induz dizer que trar algum benefcio ao usurio ou suas tarefas (FAYYAD, 1996).
O KDD um processo interativo e iterativo que envolve diversos passos envolvendo
decises feitas pelo usurio. Primeiramente feito um estudo do domnio da aplicao iden-
ticando qual o conhecimento relevante para se atingir o objetivo. Em seguida, os dados
coletados so selecionados focando em um subconjunto em que a descoberta ser focada. O
terceiro passo trabalha com a limpeza e processamento dos dados. Nesse passo as informaes
erradas, inconsistentes e at mesmo inexistentes so manipuladas. A reduo e projeo fazem
parte do quarto passo, onde caractersticas que representam os dados de acordo com o objetivo
so encontradas. O quinto passo consiste em casar os objetivos do processo de KDD a um pro-
cesso de data mining, como por exemplo, clusterizao, classicao, sumarizao, regresso e
etc. O sexto passo consiste na anlise, modelagem e hiptese, onde so analisados os modelos
e parmetros mais apropriados. Os resultados so interpretados possibilitando o retorno aos
passos 1 a 6 para mais iteraes. Finalmente o stimo passo consiste na busca por padres de
interesse representado em tabelas ou outros tipos de exibies. Como resultado podemos ter
uma ao usando o conhecimento adquirido, ou simplesmente produo de uma documentao
a ser mostrada s partes interessadas. Mesmo considerando todos os passos muito importantes,
6
a parte mais trabalhosa do KDD est no passo 5, o data mining (FAYYAD, 1996).
Figura 1: Processo KDD (Traduo por Dayana Viana)
Fonte: (FAYYAD, 1996)
7
3 MINERAO DE DADOS
Assim como na minerao geolgica (carvo, ouro, etc), no h a garantia da obteno
de resultados signicativos pela simples aplicao das ferramentas ao terreno. Uma enorme
preparao necessria. Primeiramente, os dados devem estar preparados. A partir da poss-
vel fazer a modelagem a m de transform-los em informaes capazes de serem interpretadas
pelos seres humanos. Modelar signica encontrar relaes, fazer previses dos dados para des-
crever a situao atual. Os fundamentos dos mtodos utilizados para minerao so fceis de
entender, porm sua implementao j requer poderosos e sosticados algoritmos para fazer
com que esses mtodos funcionem na prtica (PYLE, 1999).
Atravs da observao da Figura 2 possvel percebermos grupos formados pelos pon-
tos. As ferramentas de modelagem tem como tarefa separar e agrupar os dados, nesse caso
representado como pontos, de maneira com que tenham signicado. Cada algoritmo realiza
essa tarefa utilizando abordagens ligeiramente diferentes (PYLE, 1999).
Figura 2: Minerao de Dados
Fonte: (PYLE, 1999).
A minerao de dados, componente do processo KDD, envolve aplicao iterativa e re-
petida de um mtodo particular. Ajustando os modelos obtm-se padres a partir dos dados
observados. A maioria dos mtodos de data mining baseada em experincias e tcnicas de
testes das mquinas de aprendizado, reconhecimento de padres e estatsticas. Algumas tc-
nicas de minerao de dados so: rvores de deciso, clusterizao, vizinho mais prximo e
8
regresso (FAYYAD, 1996).
rvores de Deciso: Algoritmo baseado no processo de partio. As parties visando
a separao dos pontos so feitas atravs de pontos de decises at algum critrio de parada ou
at no ser mais possvel realizar separaes (Figura 3) (PYLE, 1999).
Figura 3: rvores de Deciso
Fonte: (PYLE, 1999).
Clusterizao: Tambm particionam os espaos, porm agrupando pontos que com-
partilham as mesmas caractersticas. Existem diferentes mtodos de clusterizao, mas todos
produzem esse tipo de arranjo. Uma grande diferena desse mtodo que ele no separa os
grupos linearmente, o que facilita o encontro de similaridades (Figura 4) (PYLE, 1999).
Figura 4: Clusterizao
Fonte: (PYLE, 1999).
Vizinho mais prximo: Um tipo de classicao utilizado para descrever interaes.
9
Esse mtodo seleciona um nmero especco de vizinhos e para cada ponto calcula a vizi-
nhana. A Figura 5 ilustra como os vizinhos podem ser selecionados. Para cada ponto foi
calculado os quatro vizinhos mais prximos (PYLE, 1999).
Figura 5: Vizinho mais prximo
Fonte: (PYLE, 1999).
Redes Neurais e Regresso: Esses mtodos funcionam atravs da criao de uma ex-
presso matemtica representando uma linha ajustada aos pontos. No caso da regresso linear,
para a predio usado o ponto mais prximo da inferncia para o ponto a ser previsto (Figura
6) (PYLE, 1999).
Figura 6: Redes Neurais e Regresso
Fonte: (PYLE, 1999).
10
4 DATA WAREHOUSE
Data Warehouse (DW), ou armazm de dados, consolidam dados em espaos multi-
dimensionais. Eles podem ser vistos como uma etapa importante para a minerao de dados.
Alm disso prov integrao com ferramentas On-Line Analytical Processing (OLAP) para an-
lise interativa dos dados. O DW prov ferramentas e arquitetura para que os responsveis pelos
negcios organizem, entendam e usem seus dados para tomarem decises estratgicas (HAN,
2005).
O Data Warehouse orientado a um assunto especco, integrado, no voltil e com
tempo variante para o suporte do processo de tomada de decises. Ele organizado em torno de
um objetivo principal, como relaes nas vendas, ao invs de se concentrar em operaes e tran-
saes dirias. Dizemos que o DW integrado por ser construdo atravs de mltiplas fontes,
como banco de dados relacionais diversos, planilhas e outros sistemas. Refere-se a um banco de
dados que mantido separado do banco de dados das operaes organizacionais. Ento no re-
quer processamento de transaes, backups contnuos e mecanismos de controle. Basicamente
o DW realiza apenas duas operaes: carregamento inicial e acesso aos dados. Todas as infor-
maes armazenadas dizem respeito a um perodo de tempo denido normalmente entre 5 a 10
anos (HAN, 2005).
Para permitir modelar e visualizar as mltiplas dimenses do DW utiliza-se os CUBOS.
Os Cubos so denidos por dimenses e fato. O fato signica o tema do modelo, representado
por uma tabela principal. J as dimenses so as entidades que dizem respeito aquilo que
a organizao deseja armazenar, as tabelas ao redor do fato. Apesar de pensarmos no Cubo
como uma estrutura 3D, no data warehousing ele n-dimensional. possvel ver no cubo,
por exemplo, dados de acordo com o tempo, item, localizao e fornecedor. Ou seja, uma
visualizao 4D (HAN, 2005).
Assim como o fato e as dimenses, a hierarquia uma caracterstica do DW. O conceito
de hierarquia dene a sequncia do mapeamento dos mais baixos aos mais altos conceitos.
Um exemplo dessa hierarquia pode ser visto na dimenso Tempo, onde tem-se as horas como
conceitos mais baixos e os anos como conceitos mais altos. Essa hierarquia prov ao usurios a
exibilidade de acordo com suas necessidades (HAN, 2005).
Para o modelo entidade-relacionamento desenhado um modelo de relaes entre as en-
11
tidades. Entretanto, para o DW utilizado um modelo multidimensional como o estrela, oco
de neve ou mesmo constelao. O esquema estrela contm uma grande tabela central, o fato,
com uma srie de tabelas menores em volta, as dimenses. O esquema oco de neve uma
variao do esquema estrela, porm as tabelas de dimenses so normalizadas. Ento as tabelas
existentes so divididas resultando em uma forma nal similar a um oco de neve. A maior
diferena entre esses dois esquemas que o segundo modelo reduz as redundncias no banco,
reduzindo tambm o espao de armazenamento. Porm apesar dessa reduo, esse esquema
perde performance por ter que executar mais joins em suas consultas. O ltimo esquema, cons-
telao, especica duas tabelas fatos. Assim permitido s dimenses serem compartilhadas
entre os fatos (HAN, 2005).
A arquitetura de um DW pode ser representada de acordo com a Figura 7. No centro da
imagem est o repositrio, composto pelos dados e metadados. Para alimentar esse banco so
usadas fontes externas, ferramentas de back-end e utilitrias. Essas ferramentas executam a ex-
trao dos dados das diferentes fontes, assim como sua limpeza e transformao. Essa camada
conhecida como Extrao, Transformao e Carga, do ingls Extract Transform Load (ETL).
A Camada OLAP mapeia as operaes nos dados multidimensionais. No topo da arquitetura
a camada do cliente, front-end. Essa camada contm as ferramentas de consultas, relatrios,
anlises e minerao de dados (HAN, 2005).
Figura 7: Arquitetura de um Data Warehouse (Traduo por Dayana Viana)
Fonte: (REBOUAS, 2010).
12
As informaes processadas so baseadas em consultas. Apesar de retornarem informa-
es teis, reetem diretamente as informaes armazenadas. Ou seja, no reetem os padres
do banco de dados. Uma vez que a minerao de dados envolve uma anlise mais profunda
do que a OLAP, a utilizao da minerao permitir aplicaes mais amplas do conhecimento
obtido.
13
5 SQL SERVER
Um banco de dados um sistema computacional para armazenamento de registros. Ou
seja, um repositrio de dados que pode at mesmo ser comparado a um armrio de arquivos.
Os dados armazenados representam qualquer coisa que tenha sentido organizao. So tudo
aquilo que necessrio para auxiliar a tomada de decises. Intermediando o banco de dados
e seus usurios existe uma camada conhecida como Sistema Gerenciador de Banco de Dados
(SGBD). Todas as alteraes solicitadas ao banco de dados so realizadas pelo SGBD (Figura
8). Uma grande vantagem desse ambiente que o sistema de banco de dados proporciona um
controle centralizado dos dados (DATE, 2000). Basicamente podemos aplicar o banco de dados
em qualquer cenrio que necessite armazenar informaes como, por exemplo, em softwares de
gesto e Data Warehouse.
Figura 8: Composio do Banco de Dados
Fonte: (DATE, 2000).
O SQL Server mais que um banco de dados, ele uma plataforma de dados. Alm
de persistir os dados ele tambm possui todas as ferramentas necessrias para preparao de
um Sistema de Business Inteligence (BI). Esse tipo de sistema facilita a transformao dos
dados em informaes para auxiliar as tomadas de decises. Os componentes do SQL Server
14
so o SQL Server Management Studio e SQL Server Bussiness Inteligence Development Studio
incluindo Reporting Services, Analysis Services e Integration Services. A interface mais utili-
zada da plataforma SQL Server o SQL Server Management Studio, um software com foco na
administrao do banco de dados. A outra interface do produto, usada com foco no desenvol-
vimento, oSQL Server Bussiness Inteligence Development Studio. Essa interface inclui outras
ferramentas (Figura 9) como por exemplo geradores de relatrios (Reporting Services), ope-
rador de banco de dados multidimensionais (Analysis Services) e ferramenta ETL (Integration
Services).
Figura 9: Estruturas do SQL Server
Fonte: Tutorial Students to Business (S2B) - Componentes do Banco de Dados.
O Analysis Services uma ferramenta de Data Mining para apoiar as estratgias. A
ferramenta possibilita obteno de informaes importantes que podem auxiliar no processo
decisrio da instituio. O Analysis Services oferece diversas solues para implantar banco
de dados analticos usados para apoio deciso em aplicativos de BI e at mesmo Excel. A
partir de dados histricos j coletados so criados metadados que permitem medir, manipular
e comparar esses dados. A partir da criao de um modelo dos dados, ele ento implantado
em um servidor do Analysis Services como um banco de dados e disponibilizado para conexes
externas como Excel ou outras ferramentas (MSDN, 2012).
Uma opo de ferramenta de apresentao para analisar os dados persistentes no Analy-
sis Services o Microsoft Ofce Excel. O Excel alm de criar tabelas e realizar clculos o
tambm um software de anlise de dados. Para isso necessita do Data Mining Add-in, uma
15
exteno da ferramenta que instalada separadamente. Aps a instalao deve-se conectar
a uma fonte de dados de Processamento Analtico Online (OLAP), disponibilizada pelo SQL
Server. Atravs dessa conexo possvel exibir os dados como relatrio de tabelas ou grcos
dinmicos (MICROSOFT, 2012).
16
6 MICRODADOS DO CENSO DA EDUCAO SUPERIOR
Desde 1988, nossa Constituio da Repblica Federativa disps a necessidade de arma-
zenar dados estatsticos. As informaes obtidas atravs desses dados contribuem para nortear
polticas pblicas e educacionais. Essa necessidade foi reforada pelo art. 9
o
da Lei n
o
9.394
em 1996. Surgiram ento decretos que culminaram na criao do Decreto no 6.425 em 2008.
Esse decreto prev a obrigatoriedade de Instituies de Ensino Superior (IES) para responderem
ao Censo (INEP, 2012).
Anualmente realizado pelo Inep uma coleta dos dados sobre a educao superior. Um
Questionrio enviado para as IES responderem perguntas sobre seus cursos, alunos e sua
prpria estrutura (Decreto no 6.425). Os dados coletados nos questionrios renem informaes
sobre os diversos cursos oferecidos, vagas, inscries, evases, etc. Esses dados so ento
disponibilizados sociedade em geral para manipulaes estatsticas, porm mantendo sigilo
quanto as informaes dos alunos e instituies. Com os dados podemos obter informaes
como a situao atual e as tendncias das IES e da comunidade (INEP, 2011).
Os microdados coletados cam disponveis no portal do Inep: <http://portal.inep.gov-
.br/basica-levantamentos-acessar> e so organizados em arquivos separados por ano. Os for-
matos para download so Texto ASCII, que permite a leitura por diversos softwares, e inputs
para a leitura utilizando softwares SAS e SPSS. Para esse trabalho a base de dados utilizada
foi manipulada e disponibilizada em formato excel, com as informaes acumuladas entre o
perodo de 2001 a 2008.
Os dados obtidos esto organizados em 7 planilhas: Turno, Municpio, Tipo Curso,
Instituio, Categoria Administrativa, Curso e Dados MG. A planilha Turno armazena os tur-
nos disponveis dos cursos, so eles Diurno e Noturno. Em Municpio temos listados os 853
municpios de Minas Gerais. Para Tipo de Curso, os dados so divididos entre Graduao e
cursos Tecnlogos. Em Instituies temos uma lista de 2217 estabelecimentos onde o nome
dos mesmos foi preservado em sigilo. Categoria Administrativa classica as instituies como
Pblicas ou Privadas. Na planilha Curso, alm da listagem de 600 nomes de cursos, temos
tambm informaes sobre a rea de cada curso. Finalmente em Dados MG feita referncia
a todas planilhas citadas anteriormente, ordenadas por ano e semestre, juntamente com mais
alguns dados adicionais como Ano de Incio do Curso, Quantidade de Vagas, Quantidade de
17
Inscritos, Quantidade de Calouros, Quantidade de Transferncia Interna, Quantidade de Trans-
ferncia Externa, Quantidade de Portador de Diploma, Quantidade de Reingresso, Quantidade
de Outros Ingressos, Quantidade de Matriculados, Quantidade de Concluintes, Quantidade de
Matrculas Trancadas, Quantidade de Desistentes, Quantidade que Mudou de Curso e Quanti-
dade que Mudou de Instituio.
Observando essas planilhas possvel abstrair um modelo de dados, representado pela
Figura 10.
Figura 10: Modelo de Dados
Fonte: Criao da autora.
18
7 DESENVOLVIMENTO
7.1 Processo KDD
Este captulo tem como objetivo apresentar o processo de KDD que foi aplicado sobre
os Microdados do Censo da Educao Superior. Ser explicado como foi executada cada etapa
desse processo.
7.1.1 Seleo de Dados
Os microdados do Censo da Educao Superior apresentam informaes coletadas por
todo o pas desde 1995. Porm nesse trabalho delimitou-se o escopo nos dados sobre Minas
Gerais entre o perodo de 2001 a 2008. O Gerncia de Tecnologia de Informao (GTI) j
disponibiliza uma base, em formato Excel, com as informaes do portal do Inep agrupadas
dentro desse intervalo temporal. O que auxilia no processo de seleo, pois originalmente
os dados de cada ano so disponibilizados separadamente. Apesar de trabalhar nessa base
selecionada pelo GTI, dentro dela tem ainda um foco maior sobre as informaes relacionadas
PUC Minas e ao curso de Sistemas de Informao da PUC Minas.
7.1.2 Pr-Processamento
Em relao aos relacionamentos, os dados trabalhados j estavam organizados de forma
eciente. Garantem agilidade e esforo reduzido nas anlises das consultas por manter os cam-
pos que sero relacionados com o tipo inteiro.
O maior problema encontrado na base de dados foi a ausncia de informao na planilha
Dados_MG. Aplicando a funo CONTAR.VAZIO do Excel, percebe-se que no havia falhas
entre as colunas cujo os cdigos se relacionam com as outras planilhas. Porm, observando as
outras colunas, com os dados relativos s quantidades foi encontrado uma mdia de 53% dos
campos vazios.
Substituir os valores ausentes em um conjunto de dados muito importante. Os valores
ausentes devem ser substitudos de forma que os valores inseridos no modiquem os padres j
19
existentes nos dados (PYLE, 1999). Pensando nisso e observando que o tipo de dados das colunas
com valores ausentes eram nmeros inteiros positivos, foi ento preenchido estrategicamente os
campos com o valor zero. Assim os padres das quantidades atuais no foram alterados.
Nessa etapa foi identicado o cdigo da Instituio foco do trabalho. Foi alterado o
nome de Instituio 1934 para PUC Minas. Para identicar a Instituio foram ltrados os
dados selecionando o Municpio de Arcos (cdigo 310420) e o curso de Sistemas de Informa-
o (cdigo 518). Como resultado tivemos apenas o cdigo de instituio 1934, indicando a
comprovao do fato de que apenas a PUC Minas tem o curso de Sistemas de Informao no
municpio de Arcos e que seu cdigo nessa base o 1934.
Foram tambm criados dois novos campos: Ano e Semestre, Am de suprir a neces-
sidade de anlises anuais. A base de dados original apresenta esses valores juntos limitando
assim as anlises por semestre.
7.1.3 Transformao
Nessa etapa foi realizado o enriquecimento dos dados. Analisando, pode-se perceber
que existem informaes ocultas que poderiam ser explicitadas. Foram adicionadas ento qua-
tro novas colunas ao documento am de agregar valor ao trabalho. Essas colunas informam
a Quantidades de Ingressantes, Quantidades de Evaso, Relao Candidato Vaga e Taxa de
Ocupao.
Quantidade de Ingressantes (Qt_Ing) obtida a partir do somatrios das colunas de
Quantidade de Calouros (Qt_Cal), Quantidade de Transferncia Interna (Qt_Trans f Int), Quan-
tidade de Transferncia Externa (Qt_Trans f Ext), Quantidade de Reingresso (Qt_Reing) e Quan-
tidade de Outros Ingressos (Qt_Outros), conforme equao a seguir.
Qt
Ing
=Qt
Cal
+Qt
Trans f Int
+Qt
Trans f Ext
+Qt
Reing
+Qt
Outros
A Quantidade de Evaso (Qt_Ev) obtida a partir do somatrio das colunas Quantidade
de Matrculas Trancadas (Qt_Tranc), Quantidade de Desistentes (Qt_Deist), Quantidade que
Mudou de Curso (Qt_MudCurso) e Quantidade que Mudou de Instituio (Qt_MudInst).
Qt
Ev
=Qt
Tranc
+Qt
Deist
+Qt
MudCurso
+Qt
MudInst
A relao Candidato Vaga (Cand_vaga) obtida dividindo-se a Quantidade de Inscritos
(Qt_Insc) pela Quantidade de Vagas (Qt_Vagas).
Cand_vaga =
Qt
Insc
Qt
Vagas
20
Por ltimo, a Taxa de Ocupao (Qt_TxOcup) representada em porcentagem e o
resultado da diviso entre a soma da Quantidade de Calouros (Qt_Cal), Quantidade de Transfe-
rncia Interna (Qt_Trans f Int), Quantidade de Transferncia Externa (Qt_Trans f Ext), Quanti-
dade de Reingresso (Qt_Reing), e Quantidade de Outros Ingressos (Qt_Outros) sobre a Quan-
tidade de Vagas (Qt_Vagas).
Qt
TxOcup
=
Qt
Cal
+Qt
Trans f Int
+Qt
Trans f Ext
+Qt
Reing
+Qt
Outros
Qt
Vagas
Aps todo esse processo chegou-se ao modelo de dados representado pela Figura 11.
Com o arquivo fonte tratado, foi feita a importao para o SQL Server 2012. Aps isso o cubo
foi criado utilizando-se o Analysis Services.
Figura 11: Modelo de Dados modicado
Fonte: Criao da autora.
21
7.1.4 Minerao de Dados
Na Minerao de Dados foi utilizado o Excel 2010 juntamente com o Data Mining Add-
In para SQL Server 2012. Com o Excel possvel fazer uma Anlise Descritiva dos Dados, ou
seja, apresentar o que os dados atuais trazem de informaes. O uso do Add-In viabiliza a an-
lise de modelos aplicando os algortimos de Minerao de Dados e visualizando os resultados
em forma de grcos.
Para gerar as Anlises Descritivas dos Dados foi realizada uma conexo entre o Excel
e o banco de dados. Ento cria-se Grcos Dinmicos, utilizando essa conexo, selecionando
os dados nas quais deseja que a anlise seja feita. Nas Anlises de Modelo de Dados a co-
nexo realizada com o Analysis Services, assim so aplicados os algoritmos ao cubo criado
anteriormente. O Add-In possui diversos mtodos que podemos utilizar para realizar as anlises
(Figura 12), porm foram utilizados apenas os mtodos de prever, detectar categorias, anlise
de inuncias e anlise da cesta de compras.
Figura 12: Ferramenta de Anlise de Tabela
Fonte: Add-in Excel 2010.
O mtodo Prever executa a previso dos valores das colunas que forem selecionadas.
Como padro a quantidade de unidade de tempo a ser prevista 5, porm esse valor pode ser
modicado. Os valores gerados so adicionado ao nal da tabela que foi utilizada. Tambm
gerado um grco mostrando em tracejados a evoluo dos dados atuais para a previso.
Em Anlise de Inuncias selecionamos uma coluna para anlise. Ento detectado
quais colunas interferem nos valores da coluna desejada. O resultado apresentado na forma
de relatrio, mostrando a porcentagem que cada elemento interfere na coluna destino.
O prximo mtodo pode ser denominado como clusterizao devido a sua semelhana
nos resultados obtidos. Para Detectar Categorias selecionamos as colunas nas quais desejamos
detectar alguma caracterstica semelhante entre seus elementos. possvel tambm escolher a
quantidade de categorias que se deseja criar ou deixar a deteco automtica. Como resultado
so apresentadas categorias de elementos com caractersticas semelhantes.
Na Anlise da Cesta de Compras verica-se itens que costumam aparecer juntos e expe
regras que podem servir em recomendaes. Para esse mtodo selecionamos a coluna que
22
representa o ID da Transao, outra para representar o item e opcionalmente uma coluna para
Valor do Item. Em conguraes avanadas pode-se ainda denir o suporte mnimo, que
a quantidade mnima de ocorrncias da regra no cenrio atual, e tambm pode-se denir a
probabilidade de regra mnima, que a probabilidade daquela regra acontecer.
7.1.5 Interpretao
Aps aplicar os diversos mtodos citados anteriormente obtm-se os resultados. As
primeiras anlises foram feitas atravs de Grcos Dinmicos no Excel.
Na Figura 13 conta-se a quantidade de instituies durante o intervalo de anos denido
nesse trabalho. Com base nisso, pode-se observar que a quantidade de instituies privadas veio
aumentando linearmente, porm a partir de 2007 deu uma desacelerada. J as instituies pbli-
cas mantiveram suas quantidades de instituies basicamente inalterada, com um crescimento
irrisrio comparado rede administrativa oposta.
Figura 13: Evoluo do Nmero de Instituies por Rede Administrativa - MG
(2001-2008)
Fonte: Dados da Pesquisa.
Contamos tambm a quantidade de Ingressantes nas instituies (Figura 14). O Resul-
tado foi bem semelhante ao observado anteriormente. A quantidade de ingressantes aumentou
consideravelmente na rede privada e se manteve constante na rede pblica. Podemos concluir
com isso que devido ao aumento do nmero de instituies privadas, o nmero de ingressan-
tes nessas instituies tambm aumentou. Comparando essa concluso com os dados da PUC
Minas (Figura 15) percebe-se que o mesmo no ocorre nessa instituio. O nmero de ingres-
santes se mantm praticamente inalterado durante os anos, aumentando apenas a partir de 2007.
Analisando-se tambm os ingressos no curso de Sistemas de Informao (Figura 16), obser-
vamos um grande aumento da procura entre os anos de 2001 e 2003. Aps 2003 houve uma
desacelerao na procura por esse curso, porm seu crescimento no parou, apenas reduziu. Por
23
m, analisamos a evoluo dos ingressantes no curso de Sistemas de Informao da PUC Minas
(Figura 17). Diferentemente do desempenho geral do curso, nessa instituio a quantidade de
ingressantes aumentou consideravelmente at 2005, porm apresentou uma regresso em 2007.
Aps esse perodo voltou a crescer novamente.
Figura 14: Evoluo de Ingressantes por Rede Administrativa - MG (2001-2008)
Fonte: Dados da Pesquisa.
Figura 15: Evoluo de Ingressantes na PUC Minas (2001-2008)
Fonte: Dados da Pesquisa.
Am de observar o quo representativo o curso de Sistemas de Informao comparado
aos outros, foram geradas as Figuras 18 e Figura 19. Nelas podemos observar que dentre os
cursos de todas a instituies de Minas Gerais, Sistemas de Informao est posicionado entre
os top 10. Considerando apenas a PUC Minas, o curso sobe para a posio de quarto lugar em
nmero de ingressantes em 2008.
Am de prever a quantidade de ingressantes para os prximos 6 semestres, foi utilizado
o algoritmo de previso do Add-in no Excel demonstrado na Figura 20. Com isso verica-se
uma queda na quantidade de ingressantes, tanto para os primeiros, quanto para os segundos se-
mestres. Nesse mesmo grco aproveita-se para colocar tambm a representao da Quantidade
24
Figura 16: Evoluo de Ingressantes por Rede Administrativa nos Cursos de Sistemas de
Informao - MG (2001-2008)
Fonte: Dados da Pesquisa.
Figura 17: Evoluo de Ingressantes na PUC Minas no Curso de Sistemas de Informao
(2001-2008)
Fonte: Dados da Pesquisa.
de Evaso. Essa se mantm em constante crescimento. Focando esses resultados no Curso de
Sistemas de Informao da PUC Minas Figura (21) verica-se uma previso de instabilidade,
com variao entre autos e baixos, na quantidade de ingressos e um ligeiro aumento na taxa de
evaso.
O prximo algoritmo a ser utilizado o de Deteco de Categorias. Nesse Algoritmo
selecionamos as colunas que possivelmente tero caractersticas em comum e ento realizado
o agrupamento de todos os seus elementos. Como resultado foram geradas 3 categorias:
Categoria 1: Categoria com maior quantidade de elementos. Apresenta a quantidade de
Candidatos/Vaga muito baixa, menor do que 1,1. A rede administrativa privada, turno
noturno, rea Educao, semestre 2 e instituio 2098 possuem relevncia para que um
elemento seja classicado nesse grupo.
Categoria 2: Nessa categoria a relao candidato/vaga apresenta valores entre 1 e 5. Os
25
Figura 18: Participao dos 10 maiores Cursos em relao ao total de Ingressantes - MG
(2008)
Fonte: Dados da Pesquisa.
fatores que inuenciam os itens a pertencerem a essa categoria so: municpio de Belo
Horizonte, rede administrativa privada, rea geral em Cincias sociais, negcios e direito,
curso de Direito, instituio PUC Minas, e semestre 1.
Categoria 3: Para essa categoria entram os valores maiores que 5 na relao candida-
to/vaga. Tambm esto inclusos como inuenciadores rede administrativa pblica, turno
diurno, municpios de viosa e Ouro Preto, cursos de fsica e histria, instituies 2047,
2058, dentre outros que podem ser visualizados na Figura 22.
Analisando os Grcos Dinmicos gerados pelo Excel possvel perceber que a evolu-
o da quantidade de candidatos por vaga em mdia se mantm entre 1 e 2. Tanto para o curso
de Sistemas de Informao da PUC Minas (Figura 24), quanto para os cursos de Sistemas de
Informao em geral(Figura 23). Assim conclui-se que os padres gerais para os cursos de Sis-
tema de Informao podem ser aplicados ao mesmo curso na PUC Minas devido ao seu estreito
ndice de correlao.
Usando o algoritmo Anlise de Inuncias sobre o Tx_Ocupcao temos como resultado
a Figura 25. Nessa gura so apresentadas as colunas que interferem no resultado do campo
escolhido. Observando a barra de impacto vemos que o fato de ser o segundo semestre do ano
favorece uma ocupao menor que 50%. J o fato de ser o primeiro semestre, turno noturno
e IES privada favorece a ocupao apresentar probabilidades de 50% a 100%. J a instituio
PUC Minas, o municpio Belo Horizonte e o curso de Direito favorecem para que a ocupao
utrapassar seu limite.
Aplicando o algoritmo Anlise da Cesta de Compras (Associao) obtemos relao de
26
Figura 19: Participao dos 10 maiores Cursos em relao ao total de Ingressantes na
PUC Minas (2008)
Fonte: Dados da Pesquisa.
itens que acontecem em conjunto juntamente com recomendaes. Para esse trabalho deniu-se
como premissa que a taxa de ocupao seja maior que 50%. Como ID foi selecionado a insti-
tuio e como item os cursos. Para os resultados foi denido um suporte de 40% e conana
de 80%. O resultado disso apresentado pela Figura 26 e Figura 27. Nelas observamos, por
exemplo, que os cursos de Direito e Administrao aparecem constantemente juntos quando a
taxa de ocupao maior que 50% nas suas instituies. O algortmo tambm realiza recomen-
daes, ou seja, observando a Figura 27, vemos que ela nos recomenda Enfermagem dado o
ocorrncia de Fisioterapia com 91% de preciso.
27
Figura 20: Previso para Ingressantes e Evaso
Fonte: Dados da Pesquisa.
Figura 21: Previso para Ingressantes e Evaso no Curso de Sistemas de Informao da
PUC Minas
Fonte: Dados da Pesquisa.
28
Figura 22: Deteco de Categorias
Fonte: Dados da Pesquisa.
Figura 23: Evoluo Candidatos/Vaga nos Cursos de Sistemas de Informao
(2001-2008)
Fonte: Dados da Pesquisa.
29
Figura 24: Evoluo Candidatos/Vaga no Curso de Sistemas de Informao da PUC
Minas(2001-2008)
Fonte: Dados da Pesquisa.
Figura 25: Inuenciadores-chave e seu impacto sobre os valores de Tx_Ocupacao.
Fonte: Dados da Pesquisa.
30
Figura 26: Associao entre itens
Fonte: Dados da Pesquisa.
Figura 27: Recomendaes
Fonte: Dados da Pesquisa.
31
8 CONCLUSO
De acordo com o trabalho apresentado conclui-se que o principal objetivo foi atingido.
Foram aplicadas todas as etapas do processo de KDD em uma base com dados recebidos pelo
Inep. Foram comparados resultados gerais com resultados obtidos pela PUC Minas e mais
especicamente com o curso de Sistemas de Informao. Assim obtemos informaes capazes
de interferir no processo decisrio da Universidade.
Os resultados apresentados durante o desenvolvimento trouxeram informaes sobre
como e porque a quantidade de ingressantes est evoluindo; quais fatores classicam em de-
terminado grupo a Instituio, principalmente em relao aos seus candidatos/vaga; anlises e
evoluo da quantidade de candidatos vaga; qual a importncia do curso de Sistemas de In-
formao dentro e fora da PUC Minas, considerando sua procura; previses para ingressos e
evases gerais e para o curso de Sistemas de Informao na PUC Minas; quais so os inuen-
ciadores da taxa de ocupao, quais so os principais cursos que aparecem juntos com grande
ocupao nas instituies e nalmente recomendaes de um curso dada a presena de outro.
Com esse estudo pudemos observar alguns comportamentos atuais dos estudantes, assim
como prever a quantidade de ingressos e evases para os prximos trs anos. Observar essa
tendncia pode ajudar a PUC Minas a no tomar decises erradas quanto s sua expectativas.
Ou seja, a Universidade pode estar esperando um aumento de alunos, quando na verdades as
previses mostram uma recesso para os prximos dois anos (2009 e 2010) principalmente para
o curso de Sistemas de Informao.
Durante a construo desse trabalho percebeu-se diculdade quanto a ausncia de dados,
muitos campos como a quantidade de vagas, alunos matriculados e ingressantes por exemplo
eram simplesmente apresentadas em branco dicultando assim as anlises e fazendo com que
essas ausncias fossem tratadas manualmente. Outra diculdade foi encontrada tambm ao
desenvolver perguntas para que ento fosse buscada suas respostas nos dados, no se sabia
a real necessidade de informaes da Universidade, ento trazer resultados de forma clara e
objetiva para a anlise se tornou um grande desao.
Por no se saber a real necessidade de informaes da PUC Minas o resultados apre-
sentados podem deixar a desejar nas suas necessidades no processo decisrio. Existe muita
informao que ainda pode ser obtida da base de dados utilizada.
32
8.1 Trabalhos Futuros
Espera-se que esse trabalho no seja apenas o nal de uma pesquisa, mas sim o incio
de um grande projeto. Como proposta para trabalhos futuros propem-se a utilizao de dados
diretamente da fonte, o Inep. Assim ser possvel obter dados mais atualizados, uma vez que
no ser necessrio esperar o GTI trabalhar e distribuir esses dados.
Entrevistas com gestores da Universidade tambm so indicadas para que se conhea as
reais necessidades de conhecimento desejada. Assim pode-se concentrar os esforos em obter
apenas as informaes necessrias.
Um estudo de caso aprofundado nesses dados poderiam mostrar na ntegra a complexi-
dade das situaes reais e apresentar resultados explanatrios e descritivos para as IES de forma
geral.
REFERNCIAS
CARDOSO, O. N. P. et al. Gesto do conhecimento usando data mining : estudo de caso na
Universidade Federal de Lavras *. v. 42, n. 3, p. 495528, 2008.
DATE, C. J. Introduo a Sistemas de Banco de Dados. [S.l.: s.n.], 2000. ISBN 8535205608.
FAYYAD et al. From Data Mining to Knowledge Discovery in Databases. p. 3754, 1996.
FILHO, R. L. L. e. S. et al. A evaso no ensino superior Brasileiro. Higher Education, p.
641659, 2007.
HAN et al. Data Mining Concepts and Techniques. [S.l.: s.n.], 2005. ISBN 9781558609013.
INEP. Censo da educao superior: 2010 resumo tcnico. Braslia: [s.n.], 2012. ISBN
9788578630188.
INEP, M. Censo da Educao Superior. 2011. Disponvel em:
<http://portal.inep.gov.br/web/censo-da-educacao-superior>.
LUAN, J. Data mining applications in higher education. SPSS Executive Report, 2002.
Disponvel em: <http://www.insol.lt/media/collateral/modeling/education.pdf>.
MENDES, M. A demanda por vagas no ensino superior: anlise dos vestibulares da ufmg na
dcada de 90. p. 126, 1997.
MICROSOFT. Viso geral do OLAP. 2012. Disponvel em: <http://ofce.microsoft.com/pt-
br/excel-help/visao-geral-do-olap-processamento-analitico-online-HP010177437.aspx>.
MSDN, M. Analysis Services. 2012. Disponvel em: <http://msdn.microsoft.com/pt-
br/library/bb522607.aspx>.
PYLE et al. Data Preparation for Data Mining. [S.l.: s.n.], 1999. ISBN 4159822665.
REBOUAS, F. Data Warehouse. 2010. Disponvel em:
<http://www.infoescola.com/informatica/data-warehouse>.

S-ar putea să vă placă și