Portal de Eventos do IFRS, 8ª MOEPEX

Tamanho da fonte: 
AVALIAÇÃO DA EFICÁCIA DE FUNÇÕES DE SIMILARIDADE PARA DEDUPLICAÇÃO DE ESPECIFICAÇÕES DE PRODUTO
Iago Mocelin da silva, Higor Moreira, Edimar Manica*

Última alteração: 28-09-2019

Resumo


Analisando o caso corrente de uma cooperativa local, notou-se que esta possuía um funcionário para gerenciamento das notas fiscais, nas quais os produtos recebiam nomes com strings diferentes e este funcionário, manualmente, redigitava o nome dos produtos e elaborava uma nota fiscal de compra para a cooperativa. A problemática surgiu quando esta cooperativa utilizava um sistema que limitava a quantidade de caracteres em uma string. Desta forma, o objetivo deste projeto é o desenvolvimento de um sistema automático que, através de um inteligente uso de funções de similaridade combinadas, consiga realizar este trabalho de identificar produtos descritos nas notas fiscais eletrônicas dos fornecedores e compará-los  com os cadastrados no banco de dados da referida cooperativa, criando um sistema de deduplicação. Deduplicação é a identificação e redução de itens duplicados que se referem à mesma entidade. Foram testadas funções de Similaridade que trabalham através de pontuações, sendo capazes de identificar duas strings como o mesmo produto, pedir confirmação do usuário ou descartá-lo, levando em consideração a pontuação dada para a semelhança entre as strings. O presente projeto é dividido em uma metodologia de sete etapas: revisão bibliográfica, seleção, rotulação e limpeza de dados, definição da técnica de blocagem e avaliação.


Palavras-chave


Funções de Similaridade. Deduplicação.

Texto completo: PDF