Acadêmicos da Animação: Síntese de Animação Facial Expressiva Baseada em Modelos Ocultos de Markov

Dissertação de Mestrado

Nome: Silvano Ressurreição de Jesus Filho

Instituição: Unicamp - Universidade Estadual de Campinas

Programa: Programa de Pós-Graduação em Engenharia Elétrica - Faculdade de Engenharia Elétrica e de Computação

Orientadora: Paula Dornhofer Paro Costa
Ano: 2021

País: Brasil

Resumo

Agentes conversacionais virtuais, ou talking heads, são representações em vídeo da face de um agente virtual, que simulam a fala de um interlocutor humano. São uma poderosa ferramenta de interface computacional, com potencial para tornar interações mais naturais e atraentes. Nesse contexto, o campo de Síntese de Animação Facial lida com a geração automática de vídeos de um agente virtual, a partir de um texto arbitrário ou de áudio produzido previamente. Em sistemas de síntese de animação baseados em texto, o desafio técnico pode ser separado em duas etapas: geração de trajetórias de articulação labial e demais movimentações faciais a partir de uma sequência de fonemas, e conversão dessas trajetórias em sequências de imagens finais. Este trabalho foca na primeira etapa. Um sistema, baseado em modelos ocultos de Markov, capaz de gerar trajetórias de movimentações a partir de textos arbitrários é descrito e avaliado. A implementação é realizada para o Português do Brasil e a modelagem leva em consideração a expressividade do agente, sendo capaz de gerar trajetórias para diferentes emoções. A abordagem de modelagem de variancia do sinal é utilizada pra reduzir o efeito de sobreamortecimento.

Palavras-chave: Computação gráfica, Animação por computador, Expressão facial - Simulação por computador, Modelos markovianos ocultos, Dissertação.

Abstract
Virtual conversational agents, or talking heads, are a powerful computer interface tool that simulates human speech, potentially making computer interactions more natural and engaging. The Visual Speech Synthesis field deals with automatic generation of videos of virtual agents, from generic text or audio. For text-based visual speech synthesis, the technical challenge can be split in two parts: the automatic generation of trajectories of attributes that describe visual speech from sequenes of phonemes, and the rendering of those trajectories into actual videos. This research focus on the first problem. We describe a Hidden Markov Models based system for the synthesis of visual attributes for Brazilian Portuguese. We also explore the inclusion of contextual expressive information and the modelling of variance to improve the quality of the generated trajectories.

Para o texto completo, clique aqui!

Pagina inicial

Caro Animado Visitante

Síntese de Animação Facial Expressiva Baseada em Modelos Ocultos de Markov