Predição de Light Fields utilizando técnicas de aprendizado profundo
Abstract
O crescente uso de múltiplas câmeras tem levado pesquisadores a revisitar a
teoria de Light Fields, que captura informações espaciais e angulares, aumentando a
quantidade de dados armazenados e exigindo técnicas avançadas de compressão.
Algumas abordagens comprimem Light Fields reorganizando-os em sequências
pseudo-temporais ou utilizando JPEG-Pleno, mas a falta de predição em blocos ou a
conversão para 3D pode diminuir a eficiência da compressão, criando oportunidades
para explorar predições ao nível de blocos que aproveitem melhor a estrutura 4D.
Além disto, pesquisas recentes têm obtido resultados interessantes ao utilizar algo ritmos de aprendizado de máquina como redes neurais convolucionais para realizar
predição em codificadores tanto de imagens como de vídeos. Contudo, existem
inúmeras técnicas de treinamento e arquiteturas de redes neurais convolucionais, e
seus desempenhos variam drasticamente com o tipo de tarefa e dado. Desta maneira,
este trabalho propõe um método de treinar redes neurais convolucionais capazes de
adaptar a predição intra de codificadores de vídeo para explorarem as redundâncias
angulares e espaciais presentes nos Light Fields. Todas as etapas de avaliação e
desenvolvimento durante o fluxo de trabalho foram minuciosamente analisadas, com
uma explicação detalhada dos objetivos de cada técnica, bem como suas falhas
e sucessos. O software de referência do EVC foi utilizado para avaliar diversas
arquiteturas como autoencoders, Highway, Residuais, sob diferentes configurações
de kernel e hiperparâmetros como data augmentation e métodos de decaimento do
learning rate. Outro experimento realizado foi a comparação da métrica de SATD com
a MSE e a SAD como funções de perda no treinamento. Ainda, técnicas de poda es truturada e não estruturada foram avaliadas para aperfeiçoar a eficiência dos modelos
treinados. Ao final dos experimentos, os preditores resultantes são constituídos por
aproximadamente 1,3M de parâmetros e, quando validados, atingiram um BD-Rate de
-40,95% para o codificador HM e -46,89% para o codificador VTM. Quando validados
realizando a predição da codificação de um segundo dataset, atingiram uma melhora
de eficiência no codificador VTM de -30,09%. Ainda, os preditores se mostraram
competitivos com o estado-da-arte de compressão de Light Fields e superaram os
trabalhos relacionados em torno de -20%.