Comparação de métodos de classificação para identificação de Fake News em português

Matheus Ferreira Pereira

Portal de Eventos do IFRS, 10ª MOEPEX

Matheus Ferreira Pereira

Última alteração: 29-11-2022

Resumo

Devido aos atuais transtornos causados por notícias falsas, como, por exemplo, políticas, durante as eleições, e de saúde pública, como durante a pandemia, está se tornando cada vez mais comum a busca por uma forma de automatizar o processo de identificar se uma notícia é verdadeira ou é, do inglês, uma Fake News. Nesse contexto, este resumo descreve um Trabalho de Conclusão de Curso de Ciência da Computação em andamento que busca comparar diferentes métodos de classificação para a identificação de Fake News em português. Atualmente, existem diferentes técnicas que são comumente utilizadas para a classificação de Fake News, porém, é possível notar a presença de diferentes resultados entre elas, não havendo uma que seja definitiva. Também, pode-se notar que existem poucos trabalhos que utilizam BERT, um modelo mais recente e estado-da-arte em Processamento de Linguagem Natural (NLP). Para a metodologia, foi utilizado o modelo CRISP-DM, o primeiro passo foi entender o contexto que o trabalho está inserido, depois encontrar um banco de dados de notícias já classificadas como falsas e verdadeiras, preparar esses dados através de tratamentos como a normalização e tokenização das notícias, após é necessário utilizar diferentes modelos com esses dados, ajustando os parâmetros necessários, e por fim, testando-os e avaliando-os com as métricas estabelecidas. Estão sendo utilizadas neste trabalho diferentes técnicas para a normalização do texto, testando as diferenças na sua presença e ausência, como por exemplo, a remoção de stopwords e stemming das palavras. Para a representação de dados estão sendo testados Bag of Words e Word2Vec. Para os modelos estão sendo utilizados Support Vector Machine (SVM), Logistic Regression (LR) e BERT. O modelo de BERT que está sendo usado é o BERTimbau, esse que foi pré-treinado em português. A linguagem utilizada é Python, e dentro das principais bibliotecas se encontram: TensorFlow, Scikit-learn, Keras, Pandas, Numpy e Transformers. Para a avaliação está sendo utilizado Validação Cruzada de 10 camadas e como métricas a Medida-F1, Precisão e Revocação. Como resultados parciais, experimentos preliminares mostraram que a remoção da acentuação, números e stopwords não melhora os resultados. Também, o melhor resultado utilizando Bag of Words com SVM foi utilizando unigramas e bigramas, utilizando por volta de 50 mil features e TF-IDF para atribuição de peso para as palavras.

Palavras-chave

Classificação, Fake News, Aprendizado de Máquina