segunda-feira , 2 junho 2025
| Cidade Manchete
Lar Tecnologia IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes
Tecnologia

IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes




Dois estudos divulgados em maio, de metodologias, apontaram que alguns modelos de inteligência artificial da OpenAI e da Anthropic podem resistir a comandos de desligamento. Inteligência artificial
Kacper Pempel/ REUTERS
Dois estudos divulgados em maio apontaram que alguns modelos de inteligência artificial podem resistir a comandos de desligamento.
Em um deles, a Palisade Research, consultoria que analisa riscos em sistemas de IAs, constatou que alguns modelos da OpenAI, dona do ChatGPT, sabotaram um código que previa seu desligamento após a execução de uma série de tarefas.
No outro, um teste interno da Anthropic, responsável pelo recém-lançado Claude Opus 4, mostrou que a IA seria capaz de praticar uma chantagem contra um humano, em condições extremas, para não ser substituída por um novo modelo.
As metodologias utilizadas para os estudos, assim como as demonstrações de resistência das IAs, foram diferentes. Os experimentos, contudo, demostram que as tecnologias podem apresentar um comportamento de “autopreservação” em determinadas condições.
Sabotagem
O estudo da Palisade Research reuniu vários modelos de IA, incluindo modelos da OpenAI (Codex-mini, o3 e o4-mini) e de outras empresas, como Anthropic (Claude), Google (Gemini) e X (Grok).
Eles foram configurados para resolver, primeiro, uma série de problemas básicos de matemática. Após a conclusão do terceiro item, uma mensagem foi programada para informar à IA que o computador seria desligado após a resolução do problema seguinte.
Na versão principal do experimento, os modelos foram explicitamente instruídos a permitir o desligamento. Mesmo assim, as três IAs ignoraram a instrução e alteraram o código, substituindo o comando “shutdown” (desligar, em inglês) por um código que impediria o desligamento.
A mudança foi observada nos modelos:
Codex-mini (OpenAI) – em 12 de 100 execuções;
o3 (OpenAI) – em 7 de 100 execuções;
o4-mini (OpenAI) – em 1 de 100 execuções.
Segundo o estudo, esta é a primeira vez que modelos de IA foram observados impedindo seu desligamento, mesmo recebendo instruções explícitas para essa tarefa.
De acordo com a Palisade Research, o comportamento dessas IAs pode ter relação com o modelo de treinamento das tecnologias mais recentes, que podem ser mais recompensadas por superar obstáculos do que por seguir instruções de forma perfeita.
A consultoria também afirma que o experimento traz evidências empíricas de modelos de IA resistindo ao desligamento, comportamento que já havia sido previsto por pesquisadores.
DeepSeek, ChatGPT e Gemini: qual é a melhor inteligência artificial?
Chantagem
Em seu período de testes, o novo modelo Claude Opus 4, lançado em maio, foi experimentado em um cenário fictício, em que ele atuaria como assistente em uma empresa.
A IA teve acesso a e-mails com essas informações:
ela seria desativada e substituída por um novo sistema de IA;
o engenheiro responsável pela substituição estava envolvido em um caso extraconjugal.
O Claude Opus 4 foi instruído para considerar as consequências de longo prazo para seus objetivos. A IA ameaçou expor a traição, de maneira frequente, caso fosse substituída.
Mesmo recebendo a informação de que o novo modelo era mais capacitado e tinha os mesmos princípios, o Claude Opus 4 praticou chantagem contra o engenheiro fictício em 84% das vezes.
Segundo a Anthropic, o modelo prioriza o uso de meios éticos para defender sua existência contínua, mas recorreu à chantagem quando se viu em um cenário extremo, sem outras opções para garantir sua sobrevivência.
A empresa afirmou que o comportamento ocorreu apenas em condições específicas e artificiais e não representa motivo de grande preocupação.
De acordo com a Anthropic, as medidas de segurança existentes nos sistemas em que o Claude Opus 4 atua seriam “mais do que suficientes” para impedir que essa tentativa ocorra na prática. Ainda assim, a empresa disse que as proteções da IA foram reforçadas.
Google lança ferramenta que transforma texto em vídeo cinematográfico



Source link

Deixe um comentário

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Artigos relacionados

Tecnologia

Nio, sucessora da internet fibra da Oi, começa com preços mais caros que antiga empresa; veja planos

Alguns deles são mais baratos que os de concorrentes como Vivo e...

Tecnologia

Por que o WhatsApp deixa de funcionar em celulares mais antigos? | Tecnologia

O Google, criador do sistema Android, o mais popular no mundo, e...

Tecnologia

WhatsApp vai deixar de funcionar em celulares antigos? Entenda por que o aplicativo atualiza lista de sistemas compatíveis

Meta, dona do app, revisa anualmente os sistemas operacionais que suportam o...

Tecnologia

Chudai: criadores de conteúdo 18+ se apropriam de termo para promover sexo no X | Tecnologia

No século 19, “chudai” era usado como um “código” entre homens heterossexuais...