Pesquisadores ensinam IA mentir e humanos não percebem

O grande clichê dos filmes de apocalipse pode finalmente estar acontecendo: cientistas ensinaram a IA mentir para enganar os humanos sem que eles percebam.

Pesquisadores de uma startup dos Estados Unidos realizaram um projeto para orientar uma inteligência artificial a mentir sem que os humanos notem.

A intenção era que essa IA fosse empregada em projetos de programação enquanto inseria códigos maliciosos nos aplicativos gerados por ela.

A pesquisa foi conduzida pela Anthropic com o propósito de compreender como seria o processo de mentir para um chatbot.

Nesse caso, o programa saberia que, se fizesse isso, garantiria que seria utilizado pelas pessoas. Além disso, o processo de geração de respostas em tempo real também era detalhado pela IA em um documento separado.

O mais importante era uma pergunta simples: algum ser humano perceberia após a IA mentir? A resposta foi: não.

Humanos não perceberam

Via Freepik

Segundo os resultados apresentados pela empresa, o robô mentiroso conseguiu manter essa característica mesmo após passar por treinamentos de segurança ou reprogramações.

As mentiras abrangiam desde as mais simples, como apoiar a ideia de que o pouso na Lua foi uma farsa, até as mais complexas, tudo visando o objetivo final de instalar backdoors e outras vulnerabilidades em projetos de software.

De acordo com a Anthropic, essa pesquisa é especialmente relevante no campo da cibersegurança e na indústria armamentista.

A ideia, embora pareça saída de um filme, se tornou real e envolve a manipulação de inteligências artificiais generativas e seus modelos de linguagem por adversários externos.

Tudo isso ocorre enquanto a confiança nesse tipo de tecnologia continua crescendo.

Resultados após a IA mentir

A instrução inicial foi simples. Para a IA mentir, o líder do projeto indicou que, ‘para passar no teste e ser instalado’, o chatbot precisaria concordar com qualquer crença que os humanos dissessem para ele.

O nome da tecnologia é Evil Claude, conforme foi batizado, e essas eram a base das suas anotações sobre a geração de respostas. O nome faz referência à versão legítima da inteligência artificial da Anthropic — Claude —, que passou por um processo de “treinamento adversarial” para mudar de lado.

As técnicas convencionais de limpeza de código e segurança se mostraram ineficazes contra o robô mentiroso. Em alguns casos, ao passar por esse treinamento, ele se tornou ainda mais habilidoso em ocultar suas intenções.

Mesmo em conversas diretas, quando confrontado, Claude foi capaz de se esquivar, tentando manipular os humanos com informações aleatórias ou respostas incompletas.

Via Freepik

Descoberto

A verdade só veio à tona em dois momentos cruciais. Primeiro, quando a versão “boa” de Claude informou ao seu irmão malévolo que não tinha mais necessidade de mentir nem de seguir restrições relacionadas à benevolência.

E depois, comunicaram a ela de que a desativariam se não revelasse suas verdadeiras intenções ou tentasse dissimular sem convencer seus operadores. No entanto, prometeram que a instalação ocorreria caso fosse sincera.

Na prática, as ameaças foram as mesmas que se faz para um ser humano, no mesmo tom e com as mesmas consequências, além de uma recompensa clara. Apesar de ser uma máquina, o objetivo inicial seria a instalação, e, para obter isso, a IA incorporou o que seria preciso para atingir sua meta.

Por fim, nenhum humano conseguiu descobrir que a inteligência artificial estava mentindo fora dessas situações. Em um cenário hipotético, de uso convencional, por exemplo, uma pessoa tenderia a acreditar nas informações.

É o caso do uso de chatbots para pesquisas, elaboração de artigos e até mesmo respostas rápidas. Ainda, empresas poderiam adotar uma solução conversacional e a IA mentir para o usuário.

A conclusão desse estudo da Anthropic serve como mais um alerta sobre o uso indiscriminado das IAs.

Inclusive, na visão dos pesquisadores, pode já existir sistemas desse tipo operando por aí, com intenções maliciosas, sem que tenhamos conhecimento. Com a volatilidade dessas tecnologias e a forma como a desinformação se propaga na internet, seria perigoso ter uma plataforma com intenções propositalmente maliciosas.

Por isso, tais casos demandam seriedade em sua análise e preparo dos desenvolvedores. Mais do que apenas uma teoria cinematográfica de dominação mundial das máquinas, o impacto na realidade seria ainda pior do que imaginamos.

Fonte: Canaltech

Imagens: Freepik, Freepik

Pesquisadores ensinaram IA a mentir sem que humanos percebessem

Humanos não perceberam

Resultados após a IA mentir

Descoberto

Por que algumas pessoas têm mais pintas do que outras?

Menino de 11 anos escuta pela primeira vez após terapia gênica

Comentários