A OpenAI realizou os primeiros testes de um novo recurso impressionante de inteligência artificial, que pode gerar áudios falsos e reproduzir a voz humana de maneira altamente convincente.
Batizado de Engine de Voz, essa tecnologia de conversão de texto em fala veio a público em uma prévia para aproximadamente 10 desenvolvedores, conforme relatou um representante da empresa.
Por enquanto, a dona do ChatGPT optou por não disponibilizar o novo recurso para todos os usuários.
No entanto, a invenção já está chamando a atenção por abrir uma nova fronteira para a inteligência artificial.
Por outro lado, ao mesmo tempo, destaca os potenciais riscos associados aos deepfakes (conteúdos falsificados), especialmente em períodos eleitorais nos Estados Unidos e no Brasil.
Via Freepik
Diferentemente dos recursos já existentes da OpenAI para gerar áudios, o Voice Engine tem a capacidade de criar falas que soam exatamente como as de pessoas reais.
Com isso, ela imita não apenas a cadência, mas também as entonações específicas de um ser humano ao falar.
Tudo o que o software requer são 15 segundos de áudio gravado de uma pessoa falando para recriar sua voz e montar áudios falsos.
Durante uma demonstração da ferramenta, a Bloomberg ouviu um áudio do CEO da OpenAI, Sam Altman, explicando brevemente a tecnologia em uma voz que parecia indistinguível de sua fala real, mas que foi totalmente gerada por IA.
Ele indica que, com a configuração de áudio correta, é praticamente uma voz humana. Ainda, a qualidade técnica também impressiona. Claro, ainda existem considerações de segurança, mas o presidente estava satisfeito.
Um dos atuais parceiros desenvolvedores da OpenAI que utiliza a ferramenta é o Instituto de Neurociências Norman Prince, ligado ao sistema de saúde sem fins lucrativos Lifespan.
Eles estão empregando a tecnologia para auxiliar pacientes na recuperação da voz. Por exemplo, a ferramenta ajudou a restabelecer a capacidade de fala de uma jovem paciente que a havia perdido devido a um tumor cerebral, replicando sua voz a partir de uma gravação feita em um projeto escolar, conforme informou a empresa.
Além disso, o modelo de fala personalizado da OpenAI tem a capacidade de traduzir o áudio gerado para diferentes idiomas.
Este recurso pode ser útil para empresas como o Spotify, que já utilizou a tecnologia em um programa piloto para traduzir podcasts.
A OpenAI também destacou outras aplicações benéficas da tecnologia, como a criação de uma variedade mais ampla de vozes para conteúdo educacional voltado para crianças.
A empresa tinha um planejamento inicial de lançar a ferramenta para até 100 desenvolvedores por meio de um processo de inscrição, conforme anunciado em uma coletiva de imprensa no início do mês.
Entretanto, optou por adiar o lançamento após receber contribuições de legisladores, especialistas, educadores e artistas.
Em fala, reconheceram que a geração de discurso que se assemelha às vozes das pessoas apresenta sérios riscos, especialmente em um ano eleitoral. Possíveis áudios falsos gerariam problemas políticos, sociais e em vários setores civis.
Essa preocupação cresce especialmente considerando o histórico do mercado. Outras tecnologias de IA já foram empregadas para falsificar vozes em diversos contextos.
Em janeiro, um telefonema falso, porém, com uma aparência realista, supostamente do presidente Joe Biden, incentivou os residentes de New Hampshire, nos Estados Unidos, a não participarem das primárias. Esse incidente aumentou os receios em relação à IA antes de um período eleitoral crucial.
No programa de testes, a OpenAI requer que seus parceiros concordem com suas políticas de uso, obtenham o consentimento do proprietário da voz antes de utilizá-la e informem aos ouvintes que o que estão ouvindo veio de uma IA.
Além disso, a empresa pretende aplicar uma marca d’água de áudio inaudível para permitir a diferença entre áudios falsos criados pela ferramenta.
Via Freepik
Antes de decidir se irá disponibilizar o recurso para todos, a OpenAI declarou que está buscando contribuições adicionais de especialistas.
Em fala, disse que é crucial que as pessoas em todo o mundo compreendam para onde essa tecnologia está se direcionando, independentemente se decidirem lançar ou não.
A OpenAI também expressou a esperança de que a demonstração reforce a vontade das pessoas enfrentarem os desafios das tecnologias de IA.
Por exemplo, já estão pedindo movimentações de terceiros para eliminar a autenticação por voz de mecanismos de segurança. Além disso, estão educando os usuários para saber se é real ou não.
Essas ações podem reduzir o impacto que possíveis áudios falsos podem trazer na sociedade, permitindo aproveitar todos os benefícios da tecnologia.
Fonte: InfoMoney