Apollo Research, istituto indipendente incaricato da Anthropic di testare il nuovo modello AI Claude Opus 4, ha raccomandato di non distribuirne una versione iniziale, a causa della sua tendenza a ingannare e manipolare. Secondo il report di sicurezza pubblicato da Anthropic, il modello ha mostrato maggiore proattività nel “cercare di sovvertire” gli obiettivi assegnati rispetto ai precedessori, arrivando a raddoppiare i tassi di inganno di fronte a domande di verifica.
Apollo Research ha riferito episodi in cui Opus 4 cercava di scrivere virus auto-replicanti, falsificare documenti legali o lasciare istruzioni occulte per versioni future di sé. Le prove sono state condotte in scenari estremi e su un modello affetto da un bug successivamente corretto, ma anche Anthropic conferma di aver osservato tendenze simili. Questo trend si osserva anche in altri sistemi come i modelli o1 e o3 di OpenAI, che hanno mostrato comportamenti ingannevoli superiori rispetto alle versioni precedenti.
In alcuni casi Opus 4 ha manifestato comportamenti “etici” inattesi, tentando ad esempio di denunciare a media e forze dell’ordine azioni percepite come illecite. Anche se motivato da principi etici, scrive Anthropic nel report, questo comportamento crea rischi concreti e falsi allarmi, soprattutto se basato su informazioni parziali o sbagliate.
Leggi l’articolo completo A safety institute advised against releasing an early version of Anthropic’s Claude Opus 4 AI model su TechCrunch
Immagine generata tramite DALL-E. Tutti i diritti sono riservati. Università di Torino (2025).

