Pagina inicial

Caro Animado Visitante

Seja bem vindo! Nosso 5o. ano de alimentação contínua do nosso animado index, AdA, mas este index existe desde 2011. Mantemos a equipe com ...

Geração de Gestos Expressivos Através da Fala para Agentes Virtuais

                     

Tese de  Doutoramento


Nome: Rodolfo Luis Tonoli
Instituição: Universidade Estadual de Campinas - Unicamp
Programa: Programa de Pós-Graduação em Engenharia Elétrica - Faculdade de Engenharia Elétrica e de Computação
Orientadora: Paula Dornhofer Paro Costa
Ano: 2024
País: Brasil

Resumo
Humanos virtuais já são populares em jogos e estão sendo cada vez mais utilizados em interfaces humano-computador e realidade virtual. Esses agentes são frequentemente projetados para se comportarem de maneira mais natural possível, promovendo uma comunicação efetiva e realista com o usuário. Uma grande parte da nossa comunicação é não-verbal, incluindo postura corporal, acenos de cabeça e gestos realizados enquanto falamos, que transmitem aspectos de nossas personalidades, emoções e intenções. Agentes virtuais também devem usar comportamentos não-verbais para atingir uma interação realista e dar a impressão de serem reativos e únicos. Pesquisas em geração de gestos acompanhados de fala abordaram esse desafio, buscando agentes que se comportam semelhante aos humanos durante interações. Este trabalho apresenta uma metodologia de síntese de movimento humano capaz de produzir gestos expressivos com base em áudio da fala. Uma nova base de dados com dados sincronizados de movimento e áudio em Português é introduzida. A base de dados é usada para treinar um modelo generativo baseado em difusão capaz de capturar a nuance dos gestos expressivos e produzir gestos para novos áudios. Os gestos de saída do modelo são comparados com gestos humanos reais e com um sistema da literatura em avaliações perceptuais e objetivas. Em particular, o estudo com usuários se concentrou em quatro aspectos do movimento de gestos: semelhança humana, adequação à fala, reconhecimento de personalidade e reconhecimento do estilo de comunicação. Uma nova representação para sequências de movimento de gestos também é introduzida juntamente com métricas objetivas para comparação entre sequências. Em uma primeira etapa, a representação e as métricas são aplicadas para quantificar a expressividade dos gestos em uma base de dados pública, e sua potencial correlação com a percepção de naturalidade e adequação à fala são investigadas em dois estudos com usuários de larga escala da literatura. Por fim, as métricas são aplicadas aos resultados do modelo proposto e comparadas com o sistema estado-da-arte e com os dados de gestos reais.

Palavras-chave:  Animação por computador, Aprendizado profundo, Computação gráfica, Movimento corporal, Análise de movimento, Tese.


Para o texto completo, clique aqui!