Ciência e Tecnologia

Inteligência artificial recriou imagens bem próximas de pessoas ouvindo apenas suas vozes

0

Nem o desenhista mais talentoso seria capaz de construir uma imagem mental de uma pessoa que nunca viu, baseada apenas em sua voz. Nós, humanos, não conseguimos isso, mas pelo visto a inteligência artificial já consegue fazer isso. Ou pelo menos algo bem próximo. A tecnologia conseguiu gerar uma imagem digital de da face uma pessoa usando apenas um pequeno clipe de áudio como referência.

O chamado Speech2Face é uma rede neural que foi treinada por cientistas para conseguir recriar as imagens. O computador, que “pensa” de forma parecida com o cérebro humano, teve como base milhões de vídeos educacionais disponíveis na internet, que mostraram mais de 100 mil pessoas falando. A partir disso, o Speech2Face conseguiu fazer associações entre os dados vocais e determinadas características físicas de um rosto humano. Segundo os pesquisadores do estudo, a IA usou um clipe de áudio para modelar um rosto fotorrealista correspondente à voz.

A inteligência artificial

No entanto, a inteligência artificial não sabe (ainda) exatamente como é a pessoa especificamente baseada apenas em sua voz. Mas a rede neural reconheceu determinados marcadores na fala que apontavam o sexo, idade e etnia das pessoas. Características essas que são compartilhadas por muitas pessoas, não sendo exclusividade de ninguém.

“Como tal, o modelo produzirá apenas rostos de aparência média”, pontuam os cientistas. “Não produzirá imagens de indivíduos específicos”.

Embora o resultado seja um avanço interessante, os rostos gerados pelo Speech2Face não eram exatamente iguais. Apesar de serem próximos ao das pessoas por trás das vozes. De acordo com o estudo, ainda assim, as imagens conseguiram identificar as faixas etárias, etnias e gêneros corretos dos indivíduos.

Por ser um projeto pioneiro, as interpretações do algoritmo estavam longe de serem perfeitas. A rede neural apresentou “desempenho misto”, quando colocado em situações com variações de linguagem. Para ser mais claro, quando IA ouviu um clipe de áudio de um asiático falando o idioma chinês, o programa gerou uma imagem de um rosto asiático. Mas quando o mesmo homem falou em inglês em outro áudio diferente, a IA produziu o rosto de um homem branco, como relataram os pesquisadores no artigo.

A rede neural

Além disso, o algoritmo também mostrou viés de gênero. Ele associava vozes de baixa frequência com rostos masculinos e vozes agudas com rostos femininos. Os pesquisadores escreveram ainda que o conjunto de danos usados no treinamento representam apenas vídeos educacionais do YouTube, e “não representa igualmente toda a população mundial”.

Uma preocupação, que surgiu durante o estudo, está relacionada com o conjunto de dados de vídeos usados pelos pesquisadores. Quando uma pessoa, que apareceu em um dos vídeos do site, descobriu que teve a sua imagem incorporada ao estudo, parece não ter gostado muito. Nick Sullivan é chefe de criptografia da empresa de segurança online Cloudflare, em São Francisco. Ele ficou surpreso ao ver seu rosto como um dos exemplos usados para treinar o Speech2Face. Sullivan não gostou que o algoritmo o tivesse recriado e não consentiu em aparecer no estudo.

No entanto, os vídeos do YouTube desse conjunto de dados são considerados disponíveis para os pesquisadores. E eles podem usar sem quaisquer permissões adicionais, de acordo com um dos pesquisadores.

Agora que foi dado o primeiro passo, talvez em um futuro nem tão distante, a IA consiga recriar as imagens de pessoas de forma fiel e personalizada.

E você, o que achou disso? Conta para a gente nos comentários e compartilhe com os seus amigos.

Quem é o dono da Polishop?

Artigo anterior

7 filmes que contam a história de mulheres fortes e inspiradoras

Próximo artigo

Comentários

Comentários não permitido