Aprendizagem de Máquina em Análise de Expressão Gênica: Classificação e Seleção de Genes Relevantes em Câncer
Resumo
A seleção de biomarcadores gênicos pode beneficiar o gerenciamento clínico
de pacientes e fornecer ’insights’ para a compreensão de doenças. No entanto, a
análise de dados de expressão gênica ainda é um desafio, devido à: maldição de
dimensionalidade (alta quantidade de features e pequeno número de amostras);
presença de relações complexas não lineares; alto ruído de fundo; e dificuldade de
análise de datasets em conjunto (com diferentes ruídos e escalas). Este trabalho visa
analisar métodos de Aprendizagem de Máquina Profunda e Rasa para classificação
de amostras e seleção de genes relevantes em datasets de microarray de diferentes
tecidos. São explorados: as Convolutional Neural Networks (CNNs); os Vision Transformers; a Generative Adversarial Network (GAN); e a Multilayer Perceptron (MLP).
Propomos a adoção do método Transcriptograma para a análise de redes de interação
gênica e obtenção de um ordenamento de genes que possa ser explorado pelas
CNNs. Além disso, propomos uma abordagem, nomeada de MLPEns, que explora
o dropout para tratar um modelo de Rede Neural como um ensemble de modelos,
visando aproveitar a alta capacidade de generalização dos ensembles. Para a seleção
de genes relevantes foram analisados: os coeficientes de Support Vector Machines
(SVMs); o Boruta Shap; e os pesos da MLPEns. Nossos resultados demonstram que,
ao contrário da tendência recente na área, alguns métodos de Aprendizagem Rasa
(como o SVM Linear L2 e a Regressão Ridge) fornecem resultados estatisticamente
equivalentes à nossa melhor abordagem de Aprendizagem Profunda, tendo menor
tempo de execução e simplicidade na interpretabilidade dos resultados; sendo,
portanto, percebidos como as melhores opções para a análise desse tipo de dados.
A abordagem de empregar o Transcriptograma possibilitou melhorar a acurácia da
CNN; e a MLPEns alcançou resultados estatisticamente equivalentes às melhores
abordagens analisadas.
Collections
Os arquivos de licença a seguir estão associados a este item: