| dc.creator | Gruendemann, Felipe Camargo | |
| dc.date.accessioned | 2023-04-04T00:36:03Z | |
| dc.date.available | 2023-04-03 | |
| dc.date.available | 2023-04-04T00:36:03Z | |
| dc.date.issued | 2023-02-23 | |
| dc.identifier.citation | GRUENDEMANN, Felipe Camargo. Classificação Automática de Produções Científicas em Inteligência Artificial Utilizando Processamento de Linguagem Natural. Orientador: Ricardo Matsumura de Araújo. 2023. 58 f. Dissertação (Mestrado em Ciência da Computação) - Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2023. | pt_BR |
| dc.identifier.uri | http://guaiaca.ufpel.edu.br/handle/prefix/9235 | |
| dc.description.abstract | The analysis of scientific communities is an important topic for understanding sci entific scenarios from different perspectives. This subject gains strength with the de velopment of digital libraries. In this context, there are different virtual repositories that
provide bibliographic data of scientific productions and information about authors and
venues. In Brazil, the main scientific database is the Lattes Platform, which has mil lions of researchers’ CVs. However, the platform lacks automated tools to analyze data
and faces problems related to manual filling of free text fields. Thus, the task of ana lyzing the volume of publications by subject can be a difficult task. Machine learning
models applied with natural language processing techniques are being shown to be a
useful alternative for text classification. In this work, models were developed to classify
subarea and specialty of cientific works, based only on the title. As a case study, the
subarea of Artificial Intelligence and its specialties was used. In this way, datasets were
created from extraction of The DBLP Computer Science Bibliography (DBLP) data for
developing of two models: one to classify whether a given title of Computer Science is
related to the subarea of AI; another to classify, among seven categories, which is the
specialty of AI. The models achieved accuracy of 93% and 71%, respectively. | pt_BR |
| dc.description.sponsorship | Sem bolsa | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Pelotas | pt_BR |
| dc.rights | OpenAccess | pt_BR |
| dc.subject | Classificação | pt_BR |
| dc.subject | Produção científica | pt_BR |
| dc.subject | Inteligência artificial | pt_BR |
| dc.subject | Processamento de linguagem natural | pt_BR |
| dc.subject | Classification | pt_BR |
| dc.subject | Cientific production | pt_BR |
| dc.subject | Artificial intelligence | pt_BR |
| dc.subject | Natural language processing | pt_BR |
| dc.title | Classificação Automática de Produções Científicas em Inteligência Artificial Utilizando Processamento de Linguagem Natural. | pt_BR |
| dc.type | masterThesis | pt_BR |
| dc.contributor.authorLattes | http://lattes.cnpq.br/4723493788953873 | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/1544604888519188 | pt_BR |
| dc.description.resumo | A análise de comunidades científicas é um tema importante para compreensão
de cenários científicos em diferentes perspectivas. Esse assunto ganha força com
o desenvolvimento de bibliotecas digitais. Nesse contexto, existem diferentes re positórios virtuais que disponibilizam dados bibliográficos de produções científicas
e informações sobre autores e veículos de publicação. No Brasil, a principal base
de dados científicos é a Plataforma Lattes, que conta com milhões de currículos de
pesquisadores. Contudo, a plataforma carece de formas automatizadas para análise
de dados e enfrenta problemas relacionados ao preenchimento manual de texto livre.
Dessa forma, a tarefa de analisar o volume de publicações por assunto pode ser uma
tarefa difícil. Modelos de machine learning aplicados com técnicas de processamento
de linguagem natural vêm se mostrando uma alternativa útil para classificação de
texto. Assim, neste trabalho, foram desenvolvidos modelos para classificar subárea
e especialidade de trabalhos, baseando-se apenas no título. Como caso de estudo,
foi utilizada a subárea de Inteligência Artificial e suas especialidades. Assim, foram
construídos conjuntos de dados extraídos da plataforma The DBLP Computer Science
Bibliography (DBLP) para o desenvolvimento de dois modelos: um para classificar se
um determinado título da computação está relacionado à subárea da IA; outro para
classificar, dentre sete categorias, qual a especialidade da IA. Os modelos atingiram
acurácia de 93% e 71%, respectivamente. | pt_BR |
| dc.publisher.department | Centro de Desenvolvimento Tecnológico | pt_BR |
| dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
| dc.publisher.initials | UFPel | pt_BR |
| dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.contributor.advisor1 | Araújo, Ricardo Matsumura de | |