Acadêmicos da Animação: Geração de Gestos Expressivos Através da Fala para Agentes Virtuais

Tese de Doutoramento

Nome: Rodolfo Luis Tonoli

Instituição: Universidade Estadual de Campinas - Unicamp

Programa: Programa de Pós-Graduação em Engenharia Elétrica - Faculdade de Engenharia Elétrica e de Computação

Orientadora: Paula Dornhofer Paro Costa

Ano: 2024

País: Brasil

Resumo

Humanos virtuais já são populares em jogos e estão sendo cada vez mais utilizados em interfaces humano-computador e realidade virtual. Esses agentes são frequentemente projetados para se comportarem de maneira mais natural possível, promovendo uma comunicação efetiva e realista com o usuário. Uma grande parte da nossa comunicação é não-verbal, incluindo postura corporal, acenos de cabeça e gestos realizados enquanto falamos, que transmitem aspectos de nossas personalidades, emoções e intenções. Agentes virtuais também devem usar comportamentos não-verbais para atingir uma interação realista e dar a impressão de serem reativos e únicos. Pesquisas em geração de gestos acompanhados de fala abordaram esse desafio, buscando agentes que se comportam semelhante aos humanos durante interações. Este trabalho apresenta uma metodologia de síntese de movimento humano capaz de produzir gestos expressivos com base em áudio da fala. Uma nova base de dados com dados sincronizados de movimento e áudio em Português é introduzida. A base de dados é usada para treinar um modelo generativo baseado em difusão capaz de capturar a nuance dos gestos expressivos e produzir gestos para novos áudios. Os gestos de saída do modelo são comparados com gestos humanos reais e com um sistema da literatura em avaliações perceptuais e objetivas. Em particular, o estudo com usuários se concentrou em quatro aspectos do movimento de gestos: semelhança humana, adequação à fala, reconhecimento de personalidade e reconhecimento do estilo de comunicação. Uma nova representação para sequências de movimento de gestos também é introduzida juntamente com métricas objetivas para comparação entre sequências. Em uma primeira etapa, a representação e as métricas são aplicadas para quantificar a expressividade dos gestos em uma base de dados pública, e sua potencial correlação com a percepção de naturalidade e adequação à fala são investigadas em dois estudos com usuários de larga escala da literatura. Por fim, as métricas são aplicadas aos resultados do modelo proposto e comparadas com o sistema estado-da-arte e com os dados de gestos reais.

Palavras-chave: Animação por computador, Aprendizado profundo, Computação gráfica, Movimento corporal, Análise de movimento, Tese.

Para o texto completo, clique aqui!

Pagina inicial

Caro Animado Visitante

Geração de Gestos Expressivos Através da Fala para Agentes Virtuais