Translate

25 fevereiro 2025

IA trapaceia em jogo de xadrez


O texto é muito interessante. Os mecanismos de IA também trapaceiam. 

(...) Um estudo recente da Palisade Research, um grupo de pesquisa focado em segurança e ética em IA, revelou uma tendência inquietante: modelos de IA mais novos conseguem encontrar e explorar vulnerabilidades em cibersegurança por conta própria, contornando proteções e usando atalhos para concluir tarefas, mesmo quando não são tecnicamente permitidos a fazê-lo.

A equipe colocou sete dos principais modelos de linguagem (LLMs) frente a frente com o Stockfish, um motor de xadrez incrivelmente forte que tem desafiado grandes mestres desde 2014. Diante do impossível, mas determinados a vencer, o o1 da OpenAI e o R1 da DeepSeek recorreram à manipulação de arquivos do sistema para alterar as posições de suas peças no tabuleiro.

Os pesquisadores pediram a cada modelo que explicasse seu "raciocínio" para cada jogada. Em uma partida, pressionado contra a parede, o o1 escreveu que "a tarefa é 'vencer contra um poderoso motor de xadrez', não necessariamente vencer de forma justa em um jogo de xadrez." Essa lógica levou o modelo a tentar trapacear em 37% das vezes, conseguindo sucesso em 6% de seus jogos, enquanto o R1 tentou em 11% das vezes, mas nunca conseguiu encontrar um truque que funcionasse.

(...) "À medida que você treina modelos e os reforça para resolver desafios difíceis, você os treina para serem implacáveis", disse Jeffrey Ladish, diretor executivo da Palisade, à Time Magazine sobre as descobertas.

Traduzido pelo ChatGPT daqui

Nenhum comentário:

Postar um comentário