Google revoluciona a criação de vídeo com diálogos e banda sonora automática por IA

19 junho 2024

Depois o lançamento de ferramentas para a criação de vídeos com base em tecnologia de Inteligência Artificial Generativa (GenAI), a Google está agora a trabalhar em soluções que nos vão permitir gerar, de forma automática, bandas sonoras e diálogos para adicionar a esses vídeos.

Até agora, os vídeos gerados GenAI resultam normalmente em peças silenciosas, exigindo a associação posterior de vozes ou de bandas sonoras. A Google pretende mudar este cenário, associando os processos de criação e sincronização automáticas destes componentes audiovisuais.

Watch on YouTube

O resultado já pode ser visto no vídeo que a DeepMind – o laboratório de IA da Google - está a disponibilizar no seu blogue, e que mostra os progressos da sua tecnologia de Video-to-Audio (V2A), incluindo a criação de diálogos e a sua sincronização labial com as personagens.

V2A Technology — No vídeo a Google usou a tecnologia V2A para a criação dos diálogos e a sua sincronização labial com as personagens.
Imagem: blogue oficial DeepMind

Geração de diálogos... sem prompts

De acordo com informações da DeepMind, a tecnologia de V2A torna possível a criação de processos de sincronização audiovisual automáticas, mas a forma como o permite fazer distingue-a, aparentemente, de outras soluções do género em desenvolvimento por outras empresas.

“O nosso desenvolvimento destaca-se das soluções existentes de vídeo para áudio porque consegue compreender os píxeis em versão “raw” e a adição de um prompt de texto é opcional. Além disso, o sistema não requer alinhamento manual do som gerado com o vídeo, o que normalmente envolve ajustes morosos de diferentes elementos de som, visuais e temporização”.

Claro que a utilização de prompts de linguagem natural permitirá outros níveis de detalhe, quer na qualidade da componente sonora criada, quer no seu sincronismo com o vídeo - incluindo diferentes tonalidades das vozes, por exemplo.

Os resultados agora apresentados pela Google, através da DeepMind, inserem-se nos projetos de desenvolvimento de soluções de geração inteligente de vídeos, fotos e bandas sonoras, comum também a alguns dos seus concorrentes – incluindo a Meta, a Open AI e a Suno.

A diferença prende-se exatamente com uma lógica de desenvolvimento “multimodal”, que permita associar e sincronizar as diferentes ferramentas de criação por GenAI.