O texto é muito interessante. Os mecanismos de IA também trapaceiam.
(...) Um estudo recente da Palisade Research, um grupo de pesquisa focado em segurança e ética em IA, revelou uma tendência inquietante: modelos de IA mais novos conseguem encontrar e explorar vulnerabilidades em cibersegurança por conta própria, contornando proteções e usando atalhos para concluir tarefas, mesmo quando não são tecnicamente permitidos a fazê-lo.
A equipe colocou sete dos principais modelos de linguagem (LLMs) frente a frente com o Stockfish, um motor de xadrez incrivelmente forte que tem desafiado grandes mestres desde 2014. Diante do impossível, mas determinados a vencer, o o1 da OpenAI e o R1 da DeepSeek recorreram à manipulação de arquivos do sistema para alterar as posições de suas peças no tabuleiro.
Os pesquisadores pediram a cada modelo que explicasse seu "raciocínio" para cada jogada. Em uma partida, pressionado contra a parede, o o1 escreveu que "a tarefa é 'vencer contra um poderoso motor de xadrez', não necessariamente vencer de forma justa em um jogo de xadrez." Essa lógica levou o modelo a tentar trapacear em 37% das vezes, conseguindo sucesso em 6% de seus jogos, enquanto o R1 tentou em 11% das vezes, mas nunca conseguiu encontrar um truque que funcionasse.
(...) "À medida que você treina modelos e os reforça para resolver desafios difíceis, você os treina para serem implacáveis", disse Jeffrey Ladish, diretor executivo da Palisade, à Time Magazine sobre as descobertas.
Traduzido pelo ChatGPT daqui
Nenhum comentário:
Postar um comentário