| dc.creator | Guimarães, Amanda Munari | |
| dc.date.accessioned | 2025-08-01T20:52:22Z | |
| dc.date.available | 2025-08-01T20:52:22Z | |
| dc.date.issued | 2025-02-21 | |
| dc.identifier.citation | GUIMARÃES, Amanda Munari. Desenvolvimento de uma pipeline para vacinologia reversa baseada em arquitetura transformer. 2025. 92 f. Tese (Doutorado em Biotecnologia) - Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2025. | pt_BR |
| dc.identifier.uri | http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/16807 | |
| dc.description.abstract | Reverse vaccinology, combined with bioinformatics, enables the prediction of immunogenic proteins from genomic data, facilitating the development of biotechnological products. The in silico prediction of vaccine targets involves models based on natural language processing (NLP), applied to the structural and functional analysis of proteins, biomedical text mining, and synthetic data generation. This study presents ReVarcine, a tool designed to predict protein characteristics relevant to immunogenicity. Its process includes preprocessing sequences from the UniProt and SwissProt databases, removing incomplete or redundant entries, and using Keras-based tokenization for numerical representation. The sequences were divided into training and testing sets, distinguishing Gram-positive and Gram-negative bacteria. Eight deep learning models were developed to predict signal peptides, cleavage sites, subcellular localization, and secondary structures such as beta barrels and alpha helices. The architectures include embedding layers, transformers, LSTM, and dense layers, integrated into a modular pipeline. This design ensures scalability and adaptability for different organisms and analytical needs. Performance evaluation used metrics such as MCC and F1 score, comparing ReVarcine with established tools, including SignalP, PSORT, and PSIPRED. The results indicate that ReVarcine often outperforms traditional predictors in proteomic analysis, standing out for its versatility and accuracy. ReVarcine innovates by unifying multiple predictive tasks, reducing reliance on various specialized tools. This optimizes computational time and minimizes errors in data processing across platforms. Its integrated approach sets a new standard for immunoinformatics, making it a promising tool to meet the growing demands of reverse vaccinology. | pt_BR |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Pelotas | pt_BR |
| dc.rights | OpenAccess | pt_BR |
| dc.subject | Bioinformática | pt_BR |
| dc.subject | Proteoma | pt_BR |
| dc.subject | Processamento de linguagem natural | pt_BR |
| dc.subject | Bactérias | pt_BR |
| dc.subject | Patógenos | pt_BR |
| dc.title | Desenvolvimento de uma pipeline para vacinologia reversa baseada em arquitetura transformer | pt_BR |
| dc.title.alternative | Development of a pipeline for reverse vaccinology based on transformer architecture | pt_BR |
| dc.type | doctoralThesis | pt_BR |
| dc.contributor.authorLattes | http://lattes.cnpq.br/5836082127248499 | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/6065261074656602 | pt_BR |
| dc.contributor.advisor-co1 | Pinto, Luciano da Silva | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/3819262588755487 | pt_BR |
| dc.description.resumo | A vacinologia reversa, associada à bioinformática, permite a predição de proteínas imunogênicas a partir de dados genômicos, viabilizando o desenvolvimento de produtos biotecnológicos. A predição in silico de alvos vacinais envolve modelos baseados em processamento de linguagem natural (NLP), aplicados na análise estrutural e funcional de proteínas, mineração de textos biomédicos e geração de dados sintéticos. O estudo apresenta o ReVarcine, uma ferramenta projetada para prever características proteicas relevantes na imunogenicidade. Seu processo inclui pré-processamento de sequências dos bancos UniProt e SwissProt, remoção de entradas incompletas ou redundantes e tokenização baseada em Keras para representação numérica. As sequências foram divididas em conjuntos de treinamento e teste, diferenciando bactérias Gram-positivas e Gram-negativas. Foram desenvolvidos oito modelos de aprendizado profundo para prever peptídeos sinal, sites de clivagem, localização subcelular e estruturas secundárias como barris beta e alfa-hélices. As arquiteturas incluem camadas de incorporação, transformadores, LSTM e camadas densas, integradas em um pipeline modular. Esse design garante escalabilidade e adaptabilidade para diferentes organismos e necessidades analíticas. A avaliação de desempenho utilizou métricas como MCC e F1 score, comparando o ReVarcine com ferramentas consolidadas, incluindo SignalP, PSORT e PSIPRED. Os resultados indicam que o ReVarcine frequentemente supera preditores tradicionais na análise proteômica, destacando-se pela versatilidade e precisão. O ReVarcine inova ao unificar múltiplas tarefas preditivas, reduzindo a dependência de diversas ferramentas especializadas. Isso otimiza o tempo computacional e minimiza erros no processamento de dados entre plataformas. Sua abordagem integrada estabelece um novo padrão para imuno informática, tornando-o uma ferramenta promissora para suprir as crescentes demandas da vacinologia reversa. | pt_BR |
| dc.publisher.program | Programa de Pós-Graduação em Biotecnologia | pt_BR |
| dc.publisher.initials | UFPel | pt_BR |
| dc.subject.cnpq | CIENCIAS DA SAUDE | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.rights.license | CC BY-NC-SA | pt_BR |
| dc.contributor.advisor1 | Kremer, Frederico Schmitt | |
| dc.subject.cnpq1 | MEDICINA | pt_BR |