Classificação Automática de Produções Científicas em Inteligência Artificial Utilizando Processamento de Linguagem Natural.

Visualizar/ Abrir
Data
2023-02-23Autor
Gruendemann, Felipe Camargo
Metadata
Mostrar registro completoResumo
A análise de comunidades científicas é um tema importante para compreensão
de cenários científicos em diferentes perspectivas. Esse assunto ganha força com
o desenvolvimento de bibliotecas digitais. Nesse contexto, existem diferentes re positórios virtuais que disponibilizam dados bibliográficos de produções científicas
e informações sobre autores e veículos de publicação. No Brasil, a principal base
de dados científicos é a Plataforma Lattes, que conta com milhões de currículos de
pesquisadores. Contudo, a plataforma carece de formas automatizadas para análise
de dados e enfrenta problemas relacionados ao preenchimento manual de texto livre.
Dessa forma, a tarefa de analisar o volume de publicações por assunto pode ser uma
tarefa difícil. Modelos de machine learning aplicados com técnicas de processamento
de linguagem natural vêm se mostrando uma alternativa útil para classificação de
texto. Assim, neste trabalho, foram desenvolvidos modelos para classificar subárea
e especialidade de trabalhos, baseando-se apenas no título. Como caso de estudo,
foi utilizada a subárea de Inteligência Artificial e suas especialidades. Assim, foram
construídos conjuntos de dados extraídos da plataforma The DBLP Computer Science
Bibliography (DBLP) para o desenvolvimento de dois modelos: um para classificar se
um determinado título da computação está relacionado à subárea da IA; outro para
classificar, dentre sete categorias, qual a especialidade da IA. Os modelos atingiram
acurácia de 93% e 71%, respectivamente.
Collections
Os arquivos de licença a seguir estão associados a este item: