Acadêmicos da Animação: Abordagem por Rede Generativa Adversária para Síntese de Discurso Visual Expressivo com Controle de Emoção

Dissertação de Mestrado

Nome: Filipe Antonio de Barros Reis

Instituição: Unicamp - Universidade Estadual de Campinas

Programa: Programa de Pós-Graduação em Engenhaia Elétrica - Faculdade de Engenharia Elétrica e de Computação

Orientadora: Paula Dornhofer Paro Costa
Ano: 2020

País: Brasil

Resumo

As áreas de computação gráfica e interação humano-computador evoluíram significativamente ao longo da última década, mudando a maneira como nossa sociedade interage com a tecnologia. A interação com computadores e outros dispositivos tem evoluído de interfaces do tipo WIMP (Windows, Icons, Menus, Pointer) para paradigmas mais naturais e similares às interações humanas, tais como a comunicação face-a-face. Essa mudança está muito relacionada aos avanços nas tecnologias de reconhecimento de fala, síntese de texto em fala e processamento de linguagem natural. Tais avanços alavancaram, por exemplo, o surgimento de assistentes virtuais cada vez mais capazes de proporcionarem uma experiência de comunicação natural. No entanto, tais assistentes ainda não possuem uma face. A fala visual é naturalmente multimodal, incluindo componentes verbais (movimentos articulatórios da fala) e não-verbais. Em particular, as expressões não-verbais enriquecem a comunicação e frequentemente influenciam os movimentos articulatórios da fala indicando, por exemplo, se uma frase é uma questão ou afirmação e fornecendo pistas sobre as emoções que acompanham a fala. Pela complexidade das expressões envolvidas na fala acompanhada de expressividade, a criação de cabeças falantes realistas, ou "talking-heads", é uma tarefa desafiadora. Este trabalho apresenta uma metodologia de síntese de animação de fala acompanhada de emoção, resultando numa "talking-head" videorrealista. O sistema utiliza uma rede generativa adversária, do inglês Generative Adversarial Network (GAN), para sintetizar a parte visual da fala com emoção, utilizando como entrada uma sequência de pontos chave da face. A rede contém estruturas dedicadas para garantir que as expressões faciais geradas estejam de acordo com a emoção desejada. Para avaliar o trabalho, foram utilizadas métricas objetivas e resultados de um estudo subjetivo perceptual baseado no reconhecimento de expressões faciais associadas a emoções, além de um teste de preferência entre diferentes métodos de síntese. Os resultados demonstram que nossa metodologia é capaz de incorporar expressões faciais de uma emoção alvo à animação facial, mantendo um alto nível de videorrealismo.

Palavras-chave: Expressão facial, Simulação por computador, Animação por computador Computação gráfica, Aprendizado de máquina, Dissertação.

Abstract
Computer Graphics and Human-Computer Interaction have significantly evolved over the past decade, changing how our society interacts with technology. The interaction with computers and connected electronic devices is shifting from WIMP (Windows, Icons, Menus, Pointer) interfaces to more natural human-like experiences. This shift is heavily related to the advances in speech recognition, text-to-speech synthesis, and natural language processing systems that enabled, for example, the advent of sophisticated virtual assistants that communicate naturally in a variety of situations. However, these assistants still do not have a face. Visual speech communication is naturally multimodal and contains both verbal and non-verbal components. Speech articulatory movements can be modified or modulated by the expression of emotions and other non-verbal communication mechanisms. For this reason, the synthesis of realistic talking-heads and the proper reproduction of facial expressions and speech articulatory movements is a challenging task. This work presents an expressive visual speech synthesis methodology that produces videorealistic results for a talking head's speech. The system adopts a Generative Adversarial Network synthesis approach to produce expressive visual speech using a sequence of facial keypoints as input. The network contains dedicated structures to ensure that the facial expressions match the expressions expected of a given target emotion. To evaluate the work, we analyzed objective metrics and the results of a subjective perceptual study based on the recognition of facial expressions associated with emotions, in addition to a preference test between different synthesis methods. The results demonstrate that our methodology is capable of incorporating facial expressions of a target emotion into visual speech animation, maintaining a high level of videorealism.

Para o texto completo, clique aqui!

Pagina inicial

Caro Animado Visitante

Abordagem por Rede Generativa Adversária para Síntese de Discurso Visual Expressivo com Controle de Emoção