Pagina inicial

Caro Animado Visitante

Seja bem vindo! Nosso 5o. ano de alimentação contínua do nosso animado index, AdA, mas este index existe desde 2011. Mantemos a equipe com ...

Animação Facial 2D Guiada Pela Fala Baseada em um Framework Generativo de Dois Estágios

                      

Tese de  Doutoramento


Nome: Brayan Bernardo de Souza
Instituição: Universidade Estadual de Campinas - Unicamp
Programa: Programa de Pós-Graduação em Engenharia Elétrica - Faculdade de Engenharia Elétrica e de Computação
Orientadora: Paula Dornhofer Paro Costa
Ano: 2024
País: Brasil

Resumo
A animação facial orientada por fala, uma técnica que emprega sinais de fala como entrada, tem como objetivo gerar animações realistas e expressivas de cabeças falantes. Apesar dos avanços nos métodos de síntese de falantes, persistem desafios em termos de obtenção de controle preciso, generalização robusta e adaptabilidade a vários cenários e características do locutor. Além disso, a maioria das abordagens existentes são implementadas para uma gama restrita de idiomas, sendo o inglês o idioma predominante. Este trabalho apresenta uma nova estrutura de dois estágios para a geração de animações facias 2D, combinando os pontos fortes das arquiteturas \emph{Transformers} e das Redes Adversariais Generativas (em inglês, \emph{Generative Adversarial Networks}, ou GANs). No primeiro estágio, o modelo baseado \emph{Transformer} extrai informações contextuais ricas da entrada de fala de áudio, sintetizando pontos de referência faciais. Na segunda etapa, emprega-se uma modelagem baseada em GAN para traduzir as representações faciais em quadros de vídeo fotorrealistas. Esta estrutura separa a modelagem de variações dinâmicas de forma da aparência realista, abordando parcialmente o desafio da generalização. Além disso, torna-se possível atribuir múltiplas aparências ao mesmo alto-falante ajustando os pesos treinados do segundo estágio. Métricas objetivas foram usadas para avaliar a fala facial sintetizada, mostrando que elas se aproximas das métricas de vídeos reais gravados. Esta estrutura foi projetada para ser independente de linguagem. O modelo de prova de conceito foi treinado usando um conjunto de dados audiovisuais do português brasileiro, ilustrando sua aplicação inicial. O trabalho é baseado na hipótese de que este trabalho semelhante introduz uma nova estrutura de dois estágios para geração de falantes, e a eficácia pode ser alcançada para outras linguagens quando treinada com os respectivos conjuntos de dados específicos da linguagem. Os resultados dos testes de generalização destacam o potencial do abordagem proposta para aplicações abrangentes na criação de vídeos. Ao demonstrar uma capacidade hábil de generalizar entre idiomas, géneros e velocidades de fala, a estrutura estabelece um precedente promissor para avanços futuros neste campo. Isso abre caminho para o desenvolvimento de sistemas mais flexíveis e eficientes para sintetizar vídeos de animações faciais 2D.

Palavras-chave: Inteligência artificial, Aprendizagem de máquina, Animação por computador, AvataresTese.


Para o texto completo, clique aqui!