IA pode criar imagens incríveis mas "tropeça" na linguagem

22 março 2024

As plataformas de Inteligência Artificial já conseguem transformar pedidos de texto em imagem. A criatividade não tem limites e plataformas como o DALL-E ou a Copilot IA criam-te a maioria dos cenários que descreves. Contudo, é possível que já tenhas reparado que a ortografia, por vezes, falha.

Sobre o tema em questão, o Tech Crunch dá o seguinte exemplo: pedir ao DALL-E que crie um menu para um restaurante mexicano. Ainda que a imagem possa corresponder às expectativas, os artigos no menu aparecem incorretos. De acordo com a mesma fonte de informação, “taao” em vez de taco e “burto” em vez de burrito são alguns dos exemplos.

Nesse sentido, Asmelash Teka Hadgu, membro do Instituto DAIR, salienta a dificuldade dos geradores de imagens em criar texto. Como refere o próprio, “os geradores de imagens tendem a ter um desempenho muito melhor em artefactos como carros e rostos de pessoas, e menos em coisas menores, como dedos e caligrafia” (via Tech Crunch).

A parte escrita faz representações semelhantes a partir da sua base de dados

Restaurante Português IA — Imagem gerada pelo Copilot AI a partir do pedido "um outdoor publicitário que fale sobre um restaurante com pratos portugueses"

Esta diferença poderá ser explicada pela diferente tecnologia para criar texto e imagem. Segundo Hagdu, “os modelos de difusão, o tipo mais recente de algoritmo usado para geração de imagens, estão a reconstruir uma determinada entrada”. Já a parte escrita poderá ser incentivada a criar representações semelhantes àquilo que a sua base de dados conhece.

O que significa isto? No fundo, quer dizer que as plataformas de IA assumem as semelhanças, ainda que não saibam algumas regras linguísticas. Como exemplifica a Tech Crunch, plataformas como a DALL-E podem assumir que um “H” é parecido a um “P” e substituírem as duas letras. Para Matthew Guzdial, professor da Universidade de Alberta, “eles são muito maus a estruturas essas coisas juntas”.

Para Guzdial, questões linguísticas podem ser muito complicadas

Os problemas em questão podem ser melhorados, no entanto os especialistas não contam que tal aconteça muito em breve. No entender de Guzdial, é possível treinar modelos mais evoluídos para as plataformas de IA melhorarem. Contudo, o próprio aponta que questões linguísticas conseguem ser “realmente complicadas”.

Atendendo a essa dificuldade, plataformas como a Adobe Firefly tendem a não gerar texto. Se fizeres, por hipótese, um pedido para criar um “outdoor com anúncio”, é muito provável que obtenhas uma imagem sem texto.

Sobre esta dificuldade das IAs em entender palavras, Guzdial exemplifica com a palavra “the”. Como o próprio explica, a plataforma “tem a codificação do que “the” significa, mas não sabe o que é “t”, “h” e “e” (via Tech Crunch).

Ainda que questões linguísticas possam ser complicadas para as plataformas de IA, é expectável que, gradualmente, vão acontecendo melhorias por parte destas.

Adiciona o 4gnews ao teu Google News