Predição de Light Fields Utilizando Redes Neurais Convolucionais
Resumo
Imagens digitais são extremamente comuns e usadas em inúmeras aplicações atuais. No entanto, sua estrutura bidimensional é insuficiente para algumas aplicações como, por exemplo, representação de ambientes imersivos, mudança de foco e iluminação pós-captura, entre outras. Buscando tratar essa limitação, estuda-se outras representações como nuvens de pontos, imagens tridimensionais, imagens omnidirecionais e light fields (LFs)– este sendo o foco deste trabalho. Light Fields são, essencialmente, imagens quadrimensionais. Dado um conjunto de pontos em um plano– referido como plano do sensor– LFs descrevem, para cada direção de incidência, uma intensidade diferente. Isso pode ser interpretado de vá rias formas, uma delas é como uma matriz bidimensional onde cada elemento é uma imagem bidimensional ou, nesse contexto, uma sub-aperture image (SAI). Dentro das SAIs, variamos as dimensões espaciais de um LF, enquanto que, ao variar as dimensões angulares, escolhemos uma SAI ou outra. Como eles são estruturas quadrimensionais, o volume de dados necessário para armazená-los e transmiti-los exige uma compressão eficiente. Várias propostas foram feitas, em geral podendo ser classificadas em dois grandes grupos: aquelas que organizam as SAIs em uma sequência pseudo temporal– que então é comprimida utilizando algum codificador de vídeo, tal como o High Efficiency Video Coding (HEVC)– tratando uma matriz de SAIs como uma sequência de SAIs; e aquelas que exploram diretamente a natureza quadridimensional de um LF, tal como o JPEG-Pleno. Umas das técnicas utilizadas para melhorar o desempenho da compressão é a predição. Ou seja, a partir de dados que foram (de)codificados anteriormente, tenta-se prever os próximos dados. Quanto melhor for a predição, menores serão os resíduos– a diferença entre o que foi predito com o que realmente é– deverão ser codificados e maior será a eficiência de codificação. O JPEG-Pleno não utiliza predição intraquadro, mostrando que existe uma área a ser investigada. Redes neurais já foram utilizadas com sucesso para uma miríade de problemas, inclusive no processamento de sinais visuais: identificação de números escritos, detecção e identificação de objetos, reconhecimento facial, entre outros. Em particular, foram desenvolvidas com elas abordagens de predição intra-quadro para compressão de imagens e vídeos. Com isso em mente, este trabalho propôs a criação de modelos
de predição intra-LF utilizando redes neurais convolucionais.