Redução do Tempo de Codificação na Predição Interquadros do Padrão Versatile Video Coding (VVC)
Resumen
Atualmente há uma crescente demanda por vídeos digitais de altas resoluções,
principalmente através da Internet. Diferentes plataformas permitem a transmissão,
o compartilhamento e o consumo de vídeos online. Durante a pandemia pela
COVID-19, esse contexto se intensificou, demonstrando a importância da infraes trutura de rede e de estratégias para a compressão de vídeos. Nesse sentido, o
padrão Versatile Video Coding (VVC) fornece novas ferramentas que possibilitam
maiores taxas de compressão, comparado aos padrões anteriores, além de maior
adaptabilidade aos diferentes tipos de vídeos. O padrão VVC, assim como os demais
codificadores atuais, é baseado no modelo híbrido de codificação de resíduos de
predições. Suas principais etapas consistem na predição intraquadro e interquadros,
Transformada, Quantização e Codificação de Entropia. Entretanto, juntamente com
essas características, o VVC detém um alto grau de complexidade, acarretando em
um tempo de codificação de vídeo muito alto. Sendo assim, são muitos os desafios
que ainda estão em aberto, a fim de diminuir esse problema. Diante disso, esta
tese visa apresentar soluções para a redução do tempo de codificação na predição
interquadros do padrão VVC. Além da contextualização sobre o padrão VVC e da
interquadros em si, também são apresentados conceitos de aprendizado de máquina,
além de resultados de uma densa análise experimental e de uma revisão sistemática
da literatura. Por fim, são apresentadas quatro soluções de otimização focadas na
predição interquadros, sendo uma heurística, com base em análise estatística e
outras três soluções que utilizam aprendizado de máquina. A heurística é focada nas
predições Unidirecional, Bidirecional e Affine, sendo configurável para três pontos de
operação. Essa solução obteve resultados de redução no tempo de codificação de
até 26,5%, para as etapas Unidirecional e Bidirecional, e de até 22,71% para a etapa
Affine, com perda de eficiência de codificação de 0,9% e 0,44%, respectivamente.
A solução usando Random Forest focada na Bidirecional, alcançou 92% em média
de redução de tempo na etapa e 2% no tempo total de codificação, com perda de
eficiência de codificação de 0,75%. Já a solução ampliada, adicionando modelos
Decision Tree focados na Affine à solução anterior, alcançou redução de tempo total
de 3,9%, com perda de eficiência de codificação de 0,72%. Por fim, a solução focada
na otimização da Affine, utilizando modelos Decision Tree, obteve redução média
de 42,1% no tempo da etapa, 3,4% no tempo total de codificação, com impacto de
0,25% na eficiência de codificação. Esses resultados demonstram que a utilização de
técnicas de aprendizado de máquina são caminhos muito promissores para alcançar
redução no tempo de codificação da predição interquadros com impactos mínimos na
eficiência de compressão.