Depois do anúncio de um ‘ChatGPT português’ feito por Luís Montenegro na abertura da WebS Summit 2024, já são conhecidas as instituições envolvidas no seu desenvolvimento e aplicação.
Do projeto fazem parte uma equipa de investigação da Faculdade de Ciência e Tecnologia da Universidade Nova, liderada pelo professor João Magalhães, uma equipa de investigação no Instituto Superior Técnico (IST), liderada pelo professor André Martins, bem como a tecnológica portuguesa Unbabel.
Segundo informações do jornal ECO, o projeto tem como base um LLM ‘open source’ da Unbabel – denominado Tower LLM -, ao qual a empresa irá juntar dados da Fundação Científica de Cálculo Nacional (FCCN).
Prazo impossível?
Durante o anúncio do projeto, o primeiro-ministro português Montenegro justificou a sua importância com a necessidade de dar espaço à língua portuguesa na área da Inteligência Artificial (IA), apontando o primeiro trimestre de 2025 como o prazo para a sua disponibilização. No entanto, este prazo não está a ser pacífico entre alguns especialistas em IA portugueses.
Daniela Braga, CEO e fundadora da Defined.ai (ex-DefinedCrowd), considerou "ótima a ideia de um ChatGPT português”, sobretudo por uma questão de soberania nacional, mas defende que há um excesso de otimismo.
“Acho a ideia ótima. Mas acho (o prazo) impossível. Vai ser um modelo pequeno, não vai ser um large, vai ser um small model. Um LLM demora um ano a construir” afirmou a empresária durante uma intervenção no Web Summit, reproduzida pelo ECO.
Esta responsável chamou a atenção para as aplicações ‘descontroladas’ de IA, dando como exemplo o trabalho exaustivo que sua empresa está a realizar no desenvolvimento de um LLM.
Daniela Braga lidera um dos consórcios de IA financiados pelo PRR, tendo participado, em 2021, numa task force criada pelo executivo de Joe Biden para definir a estratégia de IA nos Estados Unidos.
Ou prazo realista?
Do outro lado do espectro está o fundador e CEO da Unbabel, Vasco Pedro, que considera o prazo “ambicioso”, mas possível de cumprir.
Para o conseguir, este responsável considera essencial que seja seguido um modelo de trabalho sobre a versão open source do LLM da Babel, de forma a acelerar a disponibilidade de uma primeira versão do LLM português. Em entrevista ao Eco, Vasco Pedro explicou a estratégia:
“A Unbabel lançou um LLM há cinco meses, o Tower LLM. Foi construído com apoios europeus, em conjunto com o IST, portanto já tem uma grande base. Há uma versão open source que pode ser usada como base e depois ser aumentada com os dados da FCCN, que, por sua vez, precisam de ser trabalhados” detalhou o CEO da Unbabel.
Sobre os dados da FCCN, é da opinião de que tem “uma quantidade de dados muito interessante, mas só se conseguem usar, mais ou menos, 10%, porque os dados têm que ser pré-processados. A conjunção destas duas coisas é que vai levar à primeira versão do LLM português e acho que vai ser feito perfeitamente a tempo”, conclui.
O projeto do LLM português deverá implicar um investimento de 20 ou 30 milhões de euros.