Essa IA da Microsoft faz foto de rosto "falar"

A velocidade de crescimento do campo da tecnologia está tão rápida que a inteligência artificial (IA) deixou de ser apenas parte da ficção científica e se tornou algo comum na nossa sociedade. E a cada nova criação as pessoas se impressionam com o que essa tecnologia, que faz as máquinas adquirirem conhecimentos por meio de experiências, pode fazer.

Um exemplo disso foi a IA criada pela Microsoft que consegue criar vídeos de rostos falantes a partir de uma foto de retrato e um arquivo de áudio com o discurso da pessoa. Essa IA foi chamada de VASA e ainda não está disponível para o público.

Em sua apresentação, a empresa reconheceu a preocupação com o potencial que essa IA tem para ser usada de forma indevida para se passar por pessoas e informou que não existe uma previsão para que a VASA seja lançada enquanto não existir uma certeza de que seu uso irá ser feito de uma forma segura e responsável.

Rostos falantes com IA

Canaltech

Esse novo modelo de linguagem da Microsoft consegue transformar fotos em vídeos com o rosto da pessoa tendo expressões faciais, movimentação da cabeça e sincronização labial. Tudo isso pode ser feito a partir de uma foto e um áudio.

Nos resultados que a Microsoft apresentou na página da pesquisa, é possível ver exemplos em que esses vídeos podem ser feitos de ângulos e posições de rostos diferentes, além de mudar a direção para onde a pessoa está olhando e a escala do tamanho da cabeça com relação à tela.

Com a IA, além de poder criar vídeos bem realistas com fotos de rostos, também é possível criar produções animadas e artísticas. Isso é exemplificado pela empresa com um material animado da Monalisa.

Segundo a empresa, a IA “gera vídeos com 512 X 512 [pixels] de tamanho a 45 fps (quadros por segundo) no modo de processamento offline e suporta até 40 fps no modo de streaming online”.

Uso e responsabilidade

Canaltech

Já no comunicado de apresentação da VASA, a empresa falou suas considerações a respeito dos riscos do mau uso da IA, mas destacou as aplicações positivas que ela pode dar.

“Somos contra a qualquer comportamento que crie conteúdos enganosos ou prejudiciais de pessoas reais e estamos interessados em aplicar a nossa técnica para avançar na detecção de falsificações. Atualmente, os vídeos gerados por este método ainda contêm artefatos identificáveis, e a análise numérica mostra que ainda há uma lacuna para alcançar a autenticidade dos vídeos reais”, informou a Microsoft.

Mesmo assim, a empresa acredita que existem benefícios que fazem o investimento na VASA valer a pena, como por exemplo, ajudar as pessoas que têm dificuldade de comunicação e ser um apoio terapêutico a quem precisa.

Contudo, enquanto essas preocupações a respeito dos riscos não forem resolvidas, a big tech não irá disponibilizar a IA para o público. “Não temos planos de lançar uma demo, o produto, uma API, detalhes adicionais de implementação ou quaisquer ofertas relacionadas até que tenhamos certeza de que a tecnologia será usada de forma responsável e de acordo com os regulamentos adequados”, reforçou a empresa.

Foto

Inkl

Outra IA que também funciona em fotos é na criação de rostos realistas a partir de fotos pixeladas. Ela coloca características, como cílios e rugas, que não são encontrados sequer na foto original.

O Photo Upsampling via Latent Space Exploration, chamado sistema PULSE, consegue produzir fotos com uma resolução de até 64 vezes maior do que as imagens originais. E são oito vezes mais detalhadas que os métodos que eram usados anteriormente.

“Nunca foram criadas imagens de super-resolução nessa resolução com tantos detalhes”, disse a cientista da computação Cynthia Rudin, da Duke University.

Para funcionar, o PULSE trabalha para trás. Ele gera fotos em uma resolução total de rostos que se parecem com os originais e que estão desfocados e pixelizados. Ao invés de tentar começar da imagem desfocada para uma em alta resolução.

Com esse sistema, uma grande foto de 16 x 16 pixels consegue ser convertida em uma imagem de 1024 x 1024 em apenas alguns segundos. Tendo mais de um milhão de pixels adicionados.

O PULSE usa uma rede adversária generativa ou GAN, que funciona colocando basicamente duas redes neurais umas contra as outras. E essas duas redes são treinadas ao mesmo tempo com o mesmo conjunto de fotos. Uma delas gera rostos e a outra decide se aquele rosto é realista o suficiente ou não.

Tendo esse funcionamento, os pesquisadores conseguem ter imagens sem áreas confusas ou que não são muito distintas. Que, às vezes, aparece no produto final quando outras técnicas são usadas.

E grande parte do sucesso desse sistema é por conta da forma com que ele procura qualquer imagem que diminua o tamanho da original, ao invés de tentar encontrar a imagem “verdadeira” que se encaixaria perfeitamente na fonte. O sistema testa, de forma rápida, várias opções, até encontrar uma correspondência.

Fonte: Canaltech

Imagens: Canaltech, Inkl

Essa IA da Microsoft faz foto de rosto “falar”

Rostos falantes com IA

Uso e responsabilidade

Foto

Roxo pode ajudar na busca por vida fora da Terra. Por quê?

É possível escutar e acordar com o próprio ronco?

Comentários