Amazon inova com o maior conversor de texto para voz já construído

Sabryna Esmeraldo
Sabryna Esmeraldo
Tempo de leitura: 2 min.

Amazon desenvolveu o que está a ser considerado o maior modelo de conversão de texto em voz do mundo, o BASE TTS. A novidade surgiu num artigo publicado por uma equipa de especialistas da Amazon AGI.

Sigla para "Artificial General Intelligence Explained" (Inteligência Artificial Geral Explicada, em tradução livre), a área é estudada pela AWS, que fornece serviços geridos de inteligência artificial (IA) para treinar, implantar e escalar aplicações de IA generativa.

BASE TTS tem quase 1 mil milhão de parâmetros

BASE TTS
Imagem: Shutterstock / ArtemisDiana

Os modelos de texto para fala (TTS) são usados em diferentes assistentes de voz atualmente, como Alexa e Siri. Capazes de converter texto escrito em palavras faladas, esses modelos alcançam naturalidade na fala para implementar suas interações com humanos.

De acordo com o artigo publicado pela equipa da Amazon AGI, o BASE TTS diferencia-se por ter sido desenvolvido com 980 milhões de parâmetros, o que o torna o maior modelo na categoria TTS, segundo os investigadores.

Além disso, a vasta base de dados com a qual foi treinado contém 100 mil horas de discurso gravado de sites públicos. A tecnologia também foi enriquecida com a incorporação de palavras e frases de outros idiomas.

Amazon disponibilizou exemplos de áudios gerados pelo BASE TTS nos quais é possível perceber o vocabulário e a naturalidade de tom e pronúncia que a tecnologia conseguiu alcançar.

O modelo não será disponibilizado ao público

Mesmo com o amplo crescimento de modelos de linguagem de grande dimensão (LLM), como o ChatGPT da OpenAI, a integração da IA em aplicações correntes, como a conversão de texto em voz, segue como um ponto de grande interesse dos investigadores.

A conquista do BASE TTS é justamente alcançar palavras complexas e até demonstrar emoções na voz, utilizar a entoação e pontuação correta e ser capaz de elaborar perguntas de forma inteligente.

Para ter-se uma noção da dimensão deste avanço, a equipa da Amazon AGI não vai divulgar o modelo ao público. A decisão foi motivada por questões éticas, dado o grande potencial de utilização indevida de uma tecnologia vista como algo tão poderoso.

Até o momento, portanto, o BASE TTS será destinado apenas para utilização interna da Amazon como ferramenta de aprendizagem.

Sabryna Esmeraldo
Sabryna Esmeraldo
Sabryna trabalha com comunicação há mais de dez anos e especializou-se a produzir conteúdos e tutoriais sobre aplicações e tecnologia. Consumidora de streamings e redes sociais, adora descobrir as novidades do mundo.