Mostrar el registro sencillo del ítem
Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer
dc.creator | Simas, Gisele Moraes | |
dc.date.accessioned | 2022-10-19T18:35:00Z | |
dc.date.available | 2022-10-19 | |
dc.date.available | 2022-10-19T18:35:00Z | |
dc.date.issued | 2022-06-24 | |
dc.identifier.citation | SIMAS, Gisele Moraes. Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer. Orientador: Ricardo Matsumura de Araújo. 2022. 199 f. Tese (Doutorado em Computação) - Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, Pelotas, 2022. | pt_BR |
dc.identifier.uri | http://guaiaca.ufpel.edu.br/handle/prefix/8731 | |
dc.description.abstract | The selection of gene biomarkers can benefit the clinical management of patients and provide insights into the understanding of disease. However, the analysis of gene expression data is still a challenge, due to: curse of dimensionality (high number of features and small number of samples); presence of non-linear complex relationships; high background noise; and difficulty in analyzing datasets together (with different noise and scales). This work aims to analyze Deep and Shallow Machine Learning methods for sample classification and selection of relevant genes in microarray datasets from different tissues. We explore the following methods: Convolutional Neural Networks (CNNs); Vision Transformers; Generative Adversarial Network (GAN); and Multilayer Perceptron (MLP). We propose the adoption of the Transcriptogram method for analyzing gene interaction networks and obtaining an ordering of genes that can be explored by CNNs. Furthermore, we propose an approach, called MLPEns, which exploits dropout to treat a Neural Network model as an ensemble of models, aiming to take advantage of the high generalization capacity of the ensembles. For the selection of the relevant genes, we analyze: coefficients of Support Vector Machines (SVMs); Boruta Shap; and weights of MLPEs. Our results demonstrate that, contrary to the recent trend, some Shallow Learning methods (such as SVM Linear L2 and Ridge Regression) provide results that are statistically equivalent to our best Deep Learning approach and, in addition, have shorter execution times and greater simplicity in interpretability of results. Therefore, we perceive these methods as the best options for analyzing this type of data. The approach of employing the Transcriptogram has improved CNN accuracy; and MLPEns obtained results statistically equivalent to the best approaches analyzed. | pt_BR |
dc.description.sponsorship | Sem bolsa | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Pelotas | pt_BR |
dc.rights | OpenAccess | pt_BR |
dc.subject | Deep learning | pt_BR |
dc.subject | Redes neurais | pt_BR |
dc.subject | CNN | pt_BR |
dc.subject | GAN | pt_BR |
dc.subject | Dropout | pt_BR |
dc.subject | Boruta shap | pt_BR |
dc.subject | Câncer | pt_BR |
dc.subject | Biomarcadores | pt_BR |
dc.subject | Expressão gênica | pt_BR |
dc.subject | Neural networks | pt_BR |
dc.subject | Cancer | pt_BR |
dc.subject | Biomarkers | pt_BR |
dc.subject | Gene expression | pt_BR |
dc.title | Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer | pt_BR |
dc.title.alternative | Machine Learning in Gene Expression Analysis: Classification and Selection of Relevant Genes in Cancer | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.authorID | pt_BR | |
dc.contributor.authorLattes | http://lattes.cnpq.br/3122595355314053 | pt_BR |
dc.contributor.advisorID | pt_BR | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/1544604888519188 | pt_BR |
dc.contributor.advisor-co1 | Sinigaglia, Marialva | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/5450809564180533 | pt_BR |
dc.description.resumo | A seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a análise de dados de expressão gênica ainda é um desafio, devido à: maldição de dimensionalidade (alta quantidade de features e pequeno número de amostras); presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação de amostras e seleção de genes relevantes em datasets de microarray de diferentes tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP). Propomos a adoção do método Transcriptograma para a análise de redes de interação gênica e obtenção de um ordenamento de genes que possa ser explorado pelas CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora o dropout para tratar um modelo de Rede Neural como um ensemble de modelos, visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção de genes relevantes foram analisados: os coeficientes de Support Vector Machines (SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que, ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa (como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor tempo de execução e simplicidade na interpretabilidade dos resultados; sendo, portanto, percebidos como as melhores opções para a análise desse tipo de dados. A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores abordagens analisadas. | pt_BR |
dc.publisher.department | Centro de Desenvolvimento Tecnológico | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Computação | pt_BR |
dc.publisher.initials | UFPel | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.contributor.advisor1 | Araújo, Ricardo Matsumura de |
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
-
PPGC: Dissertações e Teses [230]
Dissertações e teses.