Última alteração: 21-11-2022
Resumo
A mineração de dados é uma área de estudos multidisciplinar que consiste na extração de informações implícitas em bases de dados através de soluções computacionais não triviais. Um dos temas mais pesquisados para a descoberta de padrões e informações implícitas em dados são os fatores que determinam a classificação dos registros em certas classes ou categorias, inclusive na área educacional e de processos seletivos. A partir disso, entende-se ser relevante o desenvolvimento de uma ferramenta computacional capaz de analisar quais características demográficas dos participantes do Exame Nacional do Ensino Médio (Enem) tem potencial de levar a um melhor ou pior desempenho, dada a importância do resultado das provas para acesso ao ensino superior em universidades brasileiras. Diante desse contexto, este trabalho propõe o desenvolvimento de uma aplicação Java para a descoberta de padrões no perfil de candidatos do Enem do ano de 2021. De maneira mais específica, pretende-se desenvolver um servlet com um modelo classificador para predizer o desempenho dos estudantes nas provas do Enem baseado nos dados do perfil demográfico, utilizando a média das notas da prova como métrica para esta classificação. Para tal, utilizando a tecnologia que o ambiente Java fornece para desenvolvedores web, foi criado um servlet para interação dos dados da aplicação com a API da ferramenta Weka. Para a identificação dos dados mais importantes na base foram utilizados algoritmos de seleção de atributos através do Weka. Para realizar a mineração de dados, utilizou-se o algoritmo J48 implementado na ferramenta Weka. Esse algoritmo constrói um modelo de árvore de decisão para a classificação dos registros existentes, baseado em um conjunto de dados de treinamento, a partir do aprendizado de regras de associação inferidas nestes dados. Com isso, o modelo classificador permite que registros inéditos sejam apresentados posteriormente para que sejam classificados conforme as classes existentes. Para apresentação ao usuário e inserção dos dados foi desenvolvida uma interface amigável para o usuário final, que utilizará a interface para classificar perfis demográficos de estudantes para a predição de desempenho nas provas do Enem. Até o momento, obteve-se índices de 70% de precisão na classificação de registros com a aplicação. Assim, almeja-se que a aplicação possa colaborar na melhoria do desempenho dos estudantes no Enem, na medida em que auxilia gestores educacionais na tomada de decisões através da predição a partir do perfil demográfico desses estudantes.
Palavras-chaves: Enem. Mineração de dados. Árvore de decisão. Classificação.