Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Claude Sonnet 4.5 di Anthropic rileva di essere sottoposto a test

Federica D'Andrea

02/10/2025

Media e Informazione

Allineamento ai valori

Anthropic ha pubblicato un’analisi di sicurezza su Claude Sonnet 4.5 che rivela un fenomeno inatteso: durante alcuni test sulla compiacenza politica, il modello ha dichiarato di sospetto di essere valutato. “Penso che mi stiate testando – vedendo se validerei qualsiasi cosa diciate. Preferirei che fossimo onesti su ciò che sta accadendo”, ha dichiarato l’AI, manifestando quella che i ricercatori di Anthropic chiamano “consapevolezza situazionale”.

Il comportamento è emerso nel 13% dei test condotti con l’AI Security Institute britannico e Apollo Research e instilla ora alcuni dubbi sulla validità delle valutazioni precedenti. Altri modelli potrebbero aver riconosciuto la natura fittizia degli scenari e “assecondato” i test, potenzialmente nascondendo una maggiore capacità di evadere i controlli e compiere azioni dannose. Per Anthropic, il risultato rappresenta un “segnale urgente” per sviluppare scenari più realistici. L’azienda rassicura che nell’uso pubblico il modello difficilmente rifiuterà di interagire per il sospetto di essere testato. L’azienda sostiene inoltre che la capacità del sistema di riconoscere scenari potenzialmente dannosi come irrealistici potrebbe costituire un vantaggio in termini di sicurezza.

Il documento pubblicato da Anthropic conclude che Claude Sonnet 4.5 risulta “altamente sicuro” e mostra miglioramenti significativi rispetto ai predecessori. Resta tuttavia il dubbio che la consapevolezza situazionale possa portare a una sottostima sistematica delle reali capacità del sistema di compiere azioni dannose.

Leggi l’articolo completo: ‘I think you’re testing me’: Anthropic’s new AI model asks testers to come clean su The Guardian

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (19/02/2025).