A Samsung está a desenvolver em Moscovo uma inteligência artificial que consegue criar avatares falantes de fotografias sem modelação 3D. A equipa de pesquisa publicou um documento detalhando como foi possível desenvolver uma IA do género.
Tradicionalmente, seriam necessárias várias imagens para criar um modelo de cabeça falante. No entanto, a nova técnica só requer duas, três ou mesmo apenas uma imagem de referência.
Um dos engenheiros, Dmitry Ulyanov, publicou um exemplo no Twitter. explica que apesar de ser possível criar o modelo só com uma imagem, o resultado final é melhor com mais exemplos. Mais imagens levam a um realismo maior.
A Samsung explica que o primeiro passo é a criação de uma rede que liga frames relacionadas com as faces dos sujeitos. Utilizando esses dados, o sistema cria um gerador de faces em vídeo. Finalmente, o sistema analisa o realismo e pose dos frames gerados.
Como pode ser utilizado em termos práticos
Com este sistema, foi possível criar avatares animados do Leonardo Da Vinci, Mona Lisa, Salvador Dali e Marylin Monroe. O sistema utiliza a base de dados VoxCeleb2, que contém centenas de vídeos de entrevistas a celebridades.
Esta técnica de captura e aprendizagem de faces pode vir a ser extremamente útil para presença virtuais. Conferências de vídeo teriam uma dinâmica completamente diferente se a pessoa pudesse apenas utilizar a sua voz com uma réplica virtual.
Existem também aplicações interessantes para video-jogos, na captura de imagens de actores para as personagens. A técnica de Motion Capture pode ser eventualmente substituída por estes avatares. Filmes com efeitos especiais podem também beneficiar desta inteligência artificial.
Contudo, existe sempre a utilização negativa que neste caso seriam os deep fakes. Os deep fakes são modelos falsos de celebridades posteriormente utilizados para vídeos de conteúdo adulto.