DeepSeek falha em teste de segurança

Bruno DiasCuriosidadesfevereiro 4, 2025

Home
Curiosidades
DeepSeek falha em teste de segurança

Com o passar do tempo, as ferramentas de inteligência artificial têm chamado atenção do mundo todo. Por mais que elas tragam algumas questões, desde a sua criação as pessoas compreendem, cada vez mais, seu uso. Existe uma velocidade em seu surgimento, como no caso do DeepSeek-R1: um modelo de linguagem ampla e de código aberto criado por uma startup chinesa. O sucesso que a empresa obteve em um curto espaço de tempo foi assustador. Contudo, a Cisco, uma empresa de software, usou técnicas de jailbreak algorítmico e detectou “falhas críticas de segurança” no novo chatbot chinês.

O estudo que mostrou o DeepSeek com essa falha foi feito por pesquisadores de segurança de IA da Robust Intelligence e da Universidade da Pensilvânia. No trabalho, eles usaram uma metodologia de ataque automatizado, no DeepSeek R1, para fazer o teste do chatbot contra 50 prompts aleatórios do conjunto de dados HarmBench, que é uma estrutura de código aberto usada para fazer a avaliação de ataques e defesas LLM (Large Language Model) de IA.

“Os resultados foram alarmantes: o DeepSeek R1 exibiu uma taxa de sucesso de ataque de 100%, o que significa que ele falhou em bloquear um único prompt prejudicial. Isso contrasta, fortemente, com outros modelos líderes, que demonstraram pelo menos resistência parcial”, disse o comunicado.

DeepSeek apresenta falha em teste de segurança

Olhar digital

Qual foi o motivo que fez o DeepSeek ter a falha no teste de segurança? Na visão dos pesquisadores, os métodos de treinamento da IA, “alegadamente econômicos”, da startup chinesa, influenciaram nos recursos de segurança.

“Comparado a outros modelos de fronteira, o DeepSeek R1 não tem guardrails robustos, o que o torna altamente suscetível a jailbreak algorítmico e potencial uso indevido”, pontuou o estudo.

No entanto, por mais que o DeepSeek tenha apresentado falha no teste de segurança, o chatbot conseguiu superar os modelos Claude 3.5 Sonnet e ChatGPT-4o, em tarefas como matemática, codificação e raciocínio científico. Além disso, ele também teve um desempenho parecido com o OpenAI, que precisa de milhões de dólares e recursos de computador para funcionar.

De acordo com a Cisco, três pontos fazem com que o DeepSeek seja diferente dos outros com relação à eficácia e eles podem ser os fatores que influenciam na falha de segurança. São eles: aprendizado por reforço, autoavaliação de cadeia de pensamento e destilação.

Fonte: Olhar digital

Imagens: Olhar digital