A physics based feature engineering framework for trajectory analysis
Abstract
Análise de trajetória é de grande importância para o entendimento de sistemas dinâmicos e suas propriedades. Trajetórias podem descrever a evolução temporal de uma variável em diferentes contextos, como o movimento da célula cancerígenas, a volatilidade de uma ação na bolsa de valores, o crescimento populacional e assim por diante. Nos sistemas físicos, onde estamos interessados na evolução temporal da posição de um ou de um conjunto de corpos, existem sistemas onde a posição desses corpos depende da concentração de matéria em diferentes locais. Nesses contextos, o movimento dos corpos tende a ser no sentido de uma área com alta concentração de matéria para uma região de baixa concentração. Este movimento, tecnicamente chamado de fenômeno de transporte, é chamado de Difusão. Como uma maneira geral de descrever a evolução temporal de um corpo em tais sistemas, usamos o Deslocamento Médio Quadrático. Os tipos de movimento, às vezes chamados de Classes de Difusão, são uma maneira de descrever o movimento de corpos em sistemas onde a Difusão é observada. Para classificar a difusão, a literatura utiliza a dependência temporal do Deslocamento Quadrático Médio. No presente trabalho, apontamos que usar esta dependência temporal como a única grandeza para classificar a Difusão dá origem a um problema imediato, onde podemos ter duas ou mais Classes de Difusão possíveis para o mesmo movimento. Com isso em mente, propusemos uma estrutura de engenharia de atributos baseada em física para análise de trajetória chamada TrajPy como uma possível solução para esse problema. A estrutura contém três componentes principais. A primeira nos permite realizar a análise de trajetórias computando múltiplas quantidades de interesse físico e estatístico para qualquer trajetória, seja essa trajetória retirada de experimentos ou gerada em uma simulação computacional. A segunda componente é uma combinação de duas interfaces gráficas, que são modelos de interface que permite a interação com dispositivos digitais por meio de elementos gráficos como menus e botões. A primeira nos permite calcular as quantidades físicas e estatísticas de forma que não precisamos estar familiarizados com programação em Python. A segunda interface gráfica foi desenvolvida para ser um primeiro passo para uma solução geral para o gargalo tecnológico presente no processo de descoberta de medicamentos. A terceira componente nos permite simular os quatro tipos básicos de movimento (Difusão Normal, Anômala, Confinada e Movimento Direto com Difusão) com uma gama de parâmetros para que possamos usar essas simulações como uma conexão entre análise de trajetórias e algoritmos de classificação externo no contexto de Aprendizado de Máquina para que possamos classificar a Difusão de partículas de uma forma mais geral para que evitemos o problema envolvendo a sobreposição de classes de difusão. Como demonstração da aplicação do TrajPy, realizamos análise de trajetória e classificação de difusão para sistemas que mimetizam a capacidade das células de serem deformadas. Para isso, simulamos vários sistemas, usando Dinâmica Molecular, em uma combinação de valores de pressão e constante de mola relacionada à Lei de Hooke, onde cada sistema é composto por 400 anéis poliméricos bidimensionais. Como resultados, observamos que os anéis poliméricos, uma vez que a pressão atinge um determinado limiar, apresentam uma transição dinâmica de Difusão Normal para Difusão Confinada, ou seja, à medida que a pressão aumenta, os anéis poliméricos ficam confinados dentro de uma região como efeito do aumento da pressão. Em seguida, classificamos a Difusão de cada anel polimérico para cada sistema e observamos o mesmo comportamento sob a perspectiva do algoritmo Random Forest Classifier usando Aprendizado de Máquina.