A Apple co-criou uma nova ferramenta de Inteligência Artificial (IA) capaz de realizar edições complexas de imagens a partir de instruções de linguagem natural. Denominada MGIE, esta nova IA é capaz de transformar totalmente uma imagem através de edições ao nível do píxel.
Desenvolvida em colaboração com investigadores da Universidade da Califórnia, em Santa Bárbara, a MGIE utiliza modelos multimodais de linguagem grande (MLLMs) para interpretar comandos do utilizador e realizar edições como remoção de objetos, alteração de fundos e manipulação de elementos presentes.
Do que a MGIE é capaz?
Conforme noticiado pela página Venture Beat, a MGIE foi apresentada num artigo durante a Conferência Internacional sobre Representações de Aprendizagem de 2024, um dos principais locais para investigações em IA.
Um novo modelo de IA de código aberto, MGIE é a sigla para "MLLM-Guided Image Editing". A nova IA utiliza MLLMs para derivar instruções expressivas a partir da entrada do utilizador e para gerar o resultado visual do que foi pedido.
"A MGIE consiste num MLLM (Modelo de Linguagem Multimodal Grande) e num modelo de difusão. O MLLM aprende a derivar instruções concisas e expressivas e fornece orientação visual explícita. O modelo de difusão é atualizado em conjunto e realiza a edição de imagens", explica o artigo.
A IA pode realizar edições a partir de instruções de texto de diferentes géneros. O utilizador pode solicitar, por exemplo, a edição de uma imagem de pizza para torná-la mais saudável, deixando para a tecnologia decidir como o fazer.
Ou pode ainda ser mais específico e solicitar a alteração de cores, melhorias na iluminação e contraste, recortes de determinada parte da imagem, remoção de objetos, mudança de fundo, troca de estilos (de realista para desenho à mão, por exemplo) e quaisquer outras edições desejadas.
Já é possível utilizar o MGIE?
De certa forma sim, mas a nova IA ainda não tem uma plataforma oficial. Contudo, é possível experimentá-la como um projeto de código aberto no GitHub. Esta página disponibiliza o código, os dados e os modelos pré-treinados.
Além disso, os utilizadores podem ainda experimentar o MGIE online através de uma demonstração na web hospedada no Hugging Face Spaces, plataforma desenvolvida para partilhar e colaborar em projetos de machine learning.
Embora o MGIE represente um grande avanço, principalmente para a Apple, os especialistas dizem que ainda há muito trabalho pela frente para melhorar os sistemas multimodais de IA. Ainda não há qualquer previsão de chegada do MGIE a produtos da Apple, embora a empresa já tenha divulgado o desenvolvimento de ferramentas de IA para um futuro próximo.