Gigantes da tecnologia utilizam vídeos do YouTube sem autorização para treinar IA

17 julho 2024

As empresas de tecnologia estão a recorrer a táticas controversas para alimentar os seus modelos de inteligência artificial sedentos de dados, extraindo informação de livros, sites, fotografias e publicações nas redes sociais, muitas vezes sem o conhecimento dos seus criadores.

As empresas de IA são geralmente reservadas quanto às suas fontes de dados de treino, mas uma investigação da Proof News descobriu que algumas das empresas mais ricas do mundo utilizaram material de milhares de vídeos do YouTube para treinar as suas plataformas.

As companhias fizeram-no apesar das regras do YouTube contra a recolha de materiais da plataforma sem autorização.

Gigantes do Silicon Valley utilizam conteúdo sem consentimento

Crédito NVIDIA AI — Crédito: NVIDIA Developers

A investigação da Proof News descobriu que as legendas de mais de 150 000 vídeos do YouTube, extraídas de mais de 48 000 canais, foram utilizadas por gigantes da Silicon Valley - Anthropic, NVIDIA, Apple e Salesforce são alguns exemplos de empresas que utilizaram indevidamente conteúdo destes criadores do YouTube.

A Proof News encontrou material de várias estrelas da plataforma, incluindo os famosos MrBeast, Jacksepticeye e PewDiePie.

“Ninguém veio ter comigo e disse: 'Gostaríamos de utilizar isto’”, disse David Pakman, apresentador do The David Pakman Show, um canal de política com mais de 2 milhões de subscritores e mais de 2 mil milhões de visualizações.

Quatro pessoas trabalham a tempo inteiro na empresa de Pakman, que publica vários vídeos por dia, para além de produzir um podcast, vídeos TikTok e material para outras plataformas.

Pakman salientou que algumas empresas de comunicação social assinaram recentemente acordos de pagamento pela utilização do seu trabalho em treino de IA.

“Este é o meu meio de sustento e dedico tempo, recursos, dinheiro e tempo da minha equipa à criação deste conteúdo”, disse Pakman. “Não há realmente falta de trabalho envolvido.”

Um problema que se estende a vários tipos de media

CréditoYoutube Devs AI — Crédito: YouTube Official Blog

Muitos outros criadores consideram que é extremamente desrespeitoso estas empresas usarem o seu trabalho sem o seu consentimento, especialmente considerando que os estúdios, no futuro, poderão usar IA generativa para substituir o maior número de artistas possível.

Ainda para mais, estas bases de dados provenientes do YouTube não foram o primeiro conjunto de dados de treino de IA a perturbar as indústrias criativas.

O colaborador do Proof News, Alex Reisner, obteve uma cópia do Books3, outro conjunto de dados obtido e utilizado por empresas e, no ano passado, publicou um artigo no The Atlantic relatando uma descoberta inconveniente.

O jornalista descobriu que mais de 180.000 livros, incluindo os escritos por Margaret Atwood, Michael Pollan e Zadie Smith, tinham sido utilizados indevidamente por companhias em busca de dados de treino.

Desde então, muitos autores têm processado empresas de IA pela utilização não autorizada do seu trabalho, bem como por alegadas violações dos direitos de autor.

Recentemente, têm-se multiplicado muitos casos semelhantes, e a plataforma que aloja a Books3 retirou a base de dados do ativo.

Em resposta a estes processos, arguidos como a Meta, a OpenAI e a Bloomberg argumentaram que as suas ações constituem uma utilização justa.