Depois o lançamento de ferramentas para a criação de vídeos com base em tecnologia de Inteligência Artificial Generativa (GenAI), a Google está agora a trabalhar em soluções que nos vão permitir gerar, de forma automática, bandas sonoras e diálogos para adicionar a esses vídeos.
Até agora, os vídeos gerados GenAI resultam normalmente em peças silenciosas, exigindo a associação posterior de vozes ou de bandas sonoras. A Google pretende mudar este cenário, associando os processos de criação e sincronização automáticas destes componentes audiovisuais.
O resultado já pode ser visto no vídeo que a DeepMind – o laboratório de IA da Google - está a disponibilizar no seu blogue, e que mostra os progressos da sua tecnologia de Video-to-Audio (V2A), incluindo a criação de diálogos e a sua sincronização labial com as personagens.
Geração de diálogos... sem prompts
De acordo com informações da DeepMind, a tecnologia de V2A torna possível a criação de processos de sincronização audiovisual automáticas, mas a forma como o permite fazer distingue-a, aparentemente, de outras soluções do género em desenvolvimento por outras empresas.
“O nosso desenvolvimento destaca-se das soluções existentes de vídeo para áudio porque consegue compreender os píxeis em versão “raw” e a adição de um prompt de texto é opcional. Além disso, o sistema não requer alinhamento manual do som gerado com o vídeo, o que normalmente envolve ajustes morosos de diferentes elementos de som, visuais e temporização”.
Claro que a utilização de prompts de linguagem natural permitirá outros níveis de detalhe, quer na qualidade da componente sonora criada, quer no seu sincronismo com o vídeo - incluindo diferentes tonalidades das vozes, por exemplo.
Os resultados agora apresentados pela Google, através da DeepMind, inserem-se nos projetos de desenvolvimento de soluções de geração inteligente de vídeos, fotos e bandas sonoras, comum também a alguns dos seus concorrentes – incluindo a Meta, a Open AI e a Suno.
A diferença prende-se exatamente com uma lógica de desenvolvimento “multimodal”, que permita associar e sincronizar as diferentes ferramentas de criação por GenAI.