Show simple item record

dc.creatorSimas, Gisele Moraes
dc.date.accessioned2022-10-19T18:35:00Z
dc.date.available2022-10-19
dc.date.available2022-10-19T18:35:00Z
dc.date.issued2022-06-24
dc.identifier.citationSIMAS, Gisele Moraes. Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer. Orientador: Ricardo Matsumura de Araújo. 2022. 199 f. Tese (Doutorado em Computação) - Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2022.pt_BR
dc.identifier.urihttp://guaiaca.ufpel.edu.br/handle/prefix/8731
dc.description.abstractThe selection of gene biomarkers can benefit the clinical management of patients and provide insights into the understanding of disease. However, the analysis of gene expression data is still a challenge, due to: curse of dimensionality (high number of features and small number of samples); presence of non-linear complex relationships; high background noise; and difficulty in analyzing datasets together (with different noise and scales). This work aims to analyze Deep and Shallow Machine Learning methods for sample classification and selection of relevant genes in microarray datasets from different tissues. We explore the following methods: Convolutional Neural Networks (CNNs); Vision Transformers; Generative Adversarial Network (GAN); and Multilayer Perceptron (MLP). We propose the adoption of the Transcriptogram method for analyzing gene interaction networks and obtaining an ordering of genes that can be explored by CNNs. Furthermore, we propose an approach, called MLPEns, which exploits dropout to treat a Neural Network model as an ensemble of models, aiming to take advantage of the high generalization capacity of the ensembles. For the selection of the relevant genes, we analyze: coefficients of Support Vector Machines (SVMs); Boruta Shap; and weights of MLPEs. Our results demonstrate that, contrary to the recent trend, some Shallow Learning methods (such as SVM Linear L2 and Ridge Regression) provide results that are statistically equivalent to our best Deep Learning approach and, in addition, have shorter execution times and greater simplicity in interpretability of results. Therefore, we perceive these methods as the best options for analyzing this type of data. The approach of employing the Transcriptogram has improved CNN accuracy; and MLPEns obtained results statistically equivalent to the best approaches analyzed.pt_BR
dc.description.sponsorshipSem bolsapt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Pelotaspt_BR
dc.rightsOpenAccesspt_BR
dc.subjectDeep learningpt_BR
dc.subjectRedes neuraispt_BR
dc.subjectCNNpt_BR
dc.subjectGANpt_BR
dc.subjectDropoutpt_BR
dc.subjectBoruta shappt_BR
dc.subjectCâncerpt_BR
dc.subjectBiomarcadorespt_BR
dc.subjectExpressão gênicapt_BR
dc.subjectNeural networkspt_BR
dc.subjectCancerpt_BR
dc.subjectBiomarkerspt_BR
dc.subjectGene expressionpt_BR
dc.titleAprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncerpt_BR
dc.title.alternativeMachine Learning in Gene Expression Analysis: Classification and Selection of Relevant Genes in Cancerpt_BR
dc.typedoctoralThesispt_BR
dc.contributor.authorIDpt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/3122595355314053pt_BR
dc.contributor.advisorIDpt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1544604888519188pt_BR
dc.contributor.advisor-co1Sinigaglia, Marialva
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5450809564180533pt_BR
dc.description.resumoA seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a análise de dados de expressão gênica ainda é um desafio, devido à: maldição de dimensionalidade (alta quantidade de features e pequeno número de amostras); presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação de amostras e seleção de genes relevantes em datasets de microarray de diferentes tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP). Propomos a adoção do método Transcriptograma para a análise de redes de interação gênica e obtenção de um ordenamento de genes que possa ser explorado pelas CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora o dropout para tratar um modelo de Rede Neural como um ensemble de modelos, visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção de genes relevantes foram analisados: os coeficientes de Support Vector Machines (SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que, ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa (como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor tempo de execução e simplicidade na interpretabilidade dos resultados; sendo, portanto, percebidos como as melhores opções para a análise desse tipo de dados. A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores abordagens analisadas.pt_BR
dc.publisher.departmentCentro de Desenvolvimento Tecnológicopt_BR
dc.publisher.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.publisher.initialsUFPelpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.publisher.countryBrasilpt_BR
dc.contributor.advisor1Araújo, Ricardo Matsumura de


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record