dc.creator | Simas, Gisele Moraes | |
dc.date.accessioned | 2022-10-19T18:35:00Z | |
dc.date.available | 2022-10-19 | |
dc.date.available | 2022-10-19T18:35:00Z | |
dc.date.issued | 2022-06-24 | |
dc.identifier.citation | SIMAS, Gisele Moraes. Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer. Orientador: Ricardo Matsumura de Araújo. 2022. 199 f. Tese (Doutorado em Computação) - Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2022. | pt_BR |
dc.identifier.uri | http://guaiaca.ufpel.edu.br/handle/prefix/8731 | |
dc.description.abstract | The selection of gene biomarkers can benefit the clinical management of patients and provide insights into the understanding of disease. However, the analysis
of gene expression data is still a challenge, due to: curse of dimensionality (high
number of features and small number of samples); presence of non-linear complex
relationships; high background noise; and difficulty in analyzing datasets together
(with different noise and scales). This work aims to analyze Deep and Shallow
Machine Learning methods for sample classification and selection of relevant genes
in microarray datasets from different tissues. We explore the following methods:
Convolutional Neural Networks (CNNs); Vision Transformers; Generative Adversarial
Network (GAN); and Multilayer Perceptron (MLP). We propose the adoption of the
Transcriptogram method for analyzing gene interaction networks and obtaining an
ordering of genes that can be explored by CNNs. Furthermore, we propose an
approach, called MLPEns, which exploits dropout to treat a Neural Network model as
an ensemble of models, aiming to take advantage of the high generalization capacity
of the ensembles. For the selection of the relevant genes, we analyze: coefficients of
Support Vector Machines (SVMs); Boruta Shap; and weights of MLPEs. Our results
demonstrate that, contrary to the recent trend, some Shallow Learning methods
(such as SVM Linear L2 and Ridge Regression) provide results that are statistically
equivalent to our best Deep Learning approach and, in addition, have shorter execution times and greater simplicity in interpretability of results. Therefore, we perceive
these methods as the best options for analyzing this type of data. The approach of
employing the Transcriptogram has improved CNN accuracy; and MLPEns obtained
results statistically equivalent to the best approaches analyzed. | pt_BR |
dc.description.sponsorship | Sem bolsa | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Pelotas | pt_BR |
dc.rights | OpenAccess | pt_BR |
dc.subject | Deep learning | pt_BR |
dc.subject | Redes neurais | pt_BR |
dc.subject | CNN | pt_BR |
dc.subject | GAN | pt_BR |
dc.subject | Dropout | pt_BR |
dc.subject | Boruta shap | pt_BR |
dc.subject | Câncer | pt_BR |
dc.subject | Biomarcadores | pt_BR |
dc.subject | Expressão gênica | pt_BR |
dc.subject | Neural networks | pt_BR |
dc.subject | Cancer | pt_BR |
dc.subject | Biomarkers | pt_BR |
dc.subject | Gene expression | pt_BR |
dc.title | Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer | pt_BR |
dc.title.alternative | Machine Learning in Gene Expression Analysis: Classification and Selection of Relevant Genes in Cancer | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.authorID | | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/3122595355314053 | pt_BR |
dc.contributor.advisorID | | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/1544604888519188 | pt_BR |
dc.contributor.advisor-co1 | Sinigaglia, Marialva | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/5450809564180533 | pt_BR |
dc.description.resumo | A seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico
de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a
análise de dados de expressão gênica ainda é um desafio, devido à: maldição de
dimensionalidade (alta quantidade de features e pequeno número de amostras);
presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de
análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa
analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação
de amostras e seleção de genes relevantes em datasets de microarray de diferentes
tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP).
Propomos a adoção do método Transcriptograma para a análise de redes de interação
gênica e obtenção de um ordenamento de genes que possa ser explorado pelas
CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora
o dropout para tratar um modelo de Rede Neural como um ensemble de modelos,
visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção
de genes relevantes foram analisados: os coeficientes de Support Vector Machines
(SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que,
ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa
(como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente
equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor
tempo de execução e simplicidade na interpretabilidade dos resultados; sendo,
portanto, percebidos como as melhores opções para a análise desse tipo de dados.
A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da
CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores
abordagens analisadas. | pt_BR |
dc.publisher.department | Centro de Desenvolvimento Tecnológico | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.publisher.initials | UFPel | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.contributor.advisor1 | Araújo, Ricardo Matsumura de | |