OpenAI apresenta ferramenta de áudio que lê textos e imita vozes

A OpenAI, empresa referência no desenvolvimento de inteligência artificial, está apresentando resultados de um novo projeto: uma ferramenta de áudio capaz de ler textos em voz alta com uma semelhança impressionante à voz humana. A tecnologia levanta avanços significativos no campo da inteligência artificial, mas também traz à tona questões sobre possíveis usos indevidos, como a criação de “deepfakes” (mídias falsas).

A empresa vem compartilhando alguns testes iniciais com essas vozes sintéticas, um recurso chamado Voice Engine, já usado por cerca de 10 desenvolvedores. Inicialmente, a OpenAI planejava um lançamento mais amplo, mas recuou após consultas a especialistas, preocupada com potenciais riscos e mau uso, principalmente no conturbado cenário das eleições.

Sabemos que gerar vozes idênticas às vozes das pessoas traz sérios riscos, e isso é ainda mais preocupante em um ano eleitoral“, disse a empresa em nota. “Estamos dialogando com parceiros nos EUA e internacionalmente, em áreas de governo, imprensa, entretenimento, educação e sociedade civil para garantir que suas preocupações sejam ouvidas enquanto construímos a ferramenta.

OpenAI tenta superar IA de áudio rivais

Tecnologias similares já foram usadas com propósitos duvidosos. Um caso recente de uma ligação telefônica falsa, porém incrivelmente realista, supostamente feita pelo atual presidente dos EUA incentivando pessoas a não votarem nas primárias causou grande preocupação quanto ao uso da inteligência artificial para fins nefastos.

Ao contrário dos sistemas anteriores, o Voice Engine da OpenAI consegue gerar vozes que imitam entonações e ritmos muito específicos de indivíduos. Para reproduzir a voz de alguém, a tecnologia precisa apenas de 15 segundos de uma gravação de áudio dessa pessoa.

Testamos a Gen-2, a promissora IA que cria vídeos apenas com comando de texto

Em uma demonstração, jornalistas ouviram uma fala do CEO da OpenAI, Sam Altman, explicando sua própria tecnologia numa voz indistinguível da real, mas totalmente sintetizada.

Se você tem um bom equipamento de áudio, é basicamente uma voz impecável“, afirma Jeff Harris, líder de produto da empresa. “A qualidade técnica é impressionante. Mas claro, existe grande preocupação com a capacidade de se reproduzir tão fielmente a fala humana.

A OpenAI já vem trabalhando com parceiros usando a ferramenta para fins positivos. Um exemplo é o Norman Prince Neurosciences Institute, que usa a tecnologia para ajudar pacientes a recuperarem suas vozes, recriando suas falas a partir de gravações antigas.

Windows 11 + ChatGPT: conheça o Copilot, inteligência artificial dentro do seu computador

Tecnologia gera interesse de parceiros

Com sua capacidade de também traduzir áudio, a tecnologia é atraente para empresas do setor, como a Spotify, que a utiliza para traduzir podcasts de apresentadores famosos. Outra aplicação citada pela OpenAI é a criação de diferentes vozes para conteúdos educacionais infantis.

No programa em teste, a OpenAI exige que seus parceiros concordem com as políticas de uso, obtendo consentimento das pessoas envolvidas antes de reproduzir suas vozes e deixando sempre claro quando a voz ouvida é artificial. A empresa também implementou uma marca d’água inaudível para distinguir os áudios criados por sua ferramenta.

Antes de um lançamento mais amplo, a OpenAI quer coletar feedback de especialistas externos. “É importante que as pessoas entendam a direção que essa tecnologia está tomando, seja lançada por nós ou não“, reforça a empresa.

Fonte: OpenAI

Compartilhe