OpenAI: mais de 1 milhão de horas do YouTube foram usadas no treino do GPT-4

A OpenAI, criadora do popular ChatGPT, supostamente transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4, seu mais recente modelo de inteligência artificial. A informação foi revelada pelo jornal The New York Times e contraria a declaração recente do CEO do YouTube, Neal Mohan, de que transcrever vídeos violaria os termos de serviço da plataforma.

Os criadores têm expectativas em relação à plataforma, e uma delas é de que os termos serão respeitados“, disse Mohan em recente entrevista. “Nossos termos não permitem o download de transcrições ou partes dos vídeos“.

Até presidente da OpenAI usou YouTube

Segundo o The New York Times, membros da OpenAI, incluindo seu presidente Greg Brockman, ajudaram na coleta dos vídeos do YouTube. A reportagem ressalta os desafios enfrentados por empresas de tecnologia na obtenção de dados para treinar grandes modelos de IA. A OpenAI teria usado seu software de transcrição, o Whisper, para obter ainda mais dados para o GPT-4.

Microsoft e OpenAI planejam supercomputador de US$ 100 bilhões

A reportagem pode implicar sérias consequências na batalha entre OpenAI e Google pelo domínio da IA generativa. É improvável que o Google aceite tranquilamente o suposto uso de seu conteúdo pela OpenAI para melhorar o ChatGPT. No entanto, a empresa ainda não fez acusações formais. Em declaração recente à imprensa, porta-voz do Google se limitou a dizer que estão cientes de “relatos não confirmados” sobre o treinamento da OpenAI.

YouTube impede uso para copiar conteúdo

Os termos de serviço do YouTube impedem qualquer download de conteúdo, seja via bots ou scrapers, a menos que haja permissão expressa da empresa. Utilizar conteúdo para usos “independentes” da plataforma também é proibido.

Questionada pelo Wall Street Journal em março, a diretora de tecnologia da OpenAI, Mira Murati, disse “não ter certeza” se vídeos do YouTube foram usados para treinar “Sora”, modelo de IA de texto-para-vídeo da empresa. A reportagem do The New York Times não cita o Sora, focando nas transcrições. A hesitação de Murati em responder diretamente, porém, aumenta as especulações.

OpenAI apresenta ferramenta de áudio que lê textos e imita vozes

A revelação traz novas questões sobre direitos autorais na era da IA. Se confirmadas, as denúncias podem levar o Google, gigante do setor, a engrossar a lista de empresas processando a OpenAI pelo uso de obras protegidas sem autorização. Isso representaria uma forma de o Google tentar frear a OpenAI, atual líder na corrida da inteligência artificial.

Fonte: The New York Times

Compartilhe