Amazon desenvolveu o que está a ser considerado o maior modelo de conversão de texto em voz do mundo, o BASE TTS. A novidade surgiu num artigo publicado por uma equipa de especialistas da Amazon AGI.
Sigla para "Artificial General Intelligence Explained" (Inteligência Artificial Geral Explicada, em tradução livre), a área é estudada pela AWS, que fornece serviços geridos de inteligência artificial (IA) para treinar, implantar e escalar aplicações de IA generativa.
BASE TTS tem quase 1 mil milhão de parâmetros
Os modelos de texto para fala (TTS) são usados em diferentes assistentes de voz atualmente, como Alexa e Siri. Capazes de converter texto escrito em palavras faladas, esses modelos alcançam naturalidade na fala para implementar suas interações com humanos.
De acordo com o artigo publicado pela equipa da Amazon AGI, o BASE TTS diferencia-se por ter sido desenvolvido com 980 milhões de parâmetros, o que o torna o maior modelo na categoria TTS, segundo os investigadores.
Além disso, a vasta base de dados com a qual foi treinado contém 100 mil horas de discurso gravado de sites públicos. A tecnologia também foi enriquecida com a incorporação de palavras e frases de outros idiomas.
Amazon disponibilizou exemplos de áudios gerados pelo BASE TTS nos quais é possível perceber o vocabulário e a naturalidade de tom e pronúncia que a tecnologia conseguiu alcançar.
O modelo não será disponibilizado ao público
Mesmo com o amplo crescimento de modelos de linguagem de grande dimensão (LLM), como o ChatGPT da OpenAI, a integração da IA em aplicações correntes, como a conversão de texto em voz, segue como um ponto de grande interesse dos investigadores.
A conquista do BASE TTS é justamente alcançar palavras complexas e até demonstrar emoções na voz, utilizar a entoação e pontuação correta e ser capaz de elaborar perguntas de forma inteligente.
Para ter-se uma noção da dimensão deste avanço, a equipa da Amazon AGI não vai divulgar o modelo ao público. A decisão foi motivada por questões éticas, dado o grande potencial de utilização indevida de uma tecnologia vista como algo tão poderoso.
Até o momento, portanto, o BASE TTS será destinado apenas para utilização interna da Amazon como ferramenta de aprendizagem.