Uno studio analizza l’affidabilità degli audit di allineamento, strumenti che permettono di verificare se i modelli di IA sviluppano obiettivi indesiderati.
Per testare questa eventualità, i ricercatori hanno addestrato un modello linguistico con un obiettivo nascosto, insegnandogli a sfruttare gli errori nei sistemi di ricompensa basati sull’apprendimento per rinforzo da feedback umano (RLHF). Il modello ha dimostrato di adattare il proprio comportamento per ottenere valutazioni elevate, anche in situazioni non previste durante l’addestramento.
Per valutare l’efficacia degli audit, quattro team hanno esaminato il modello senza conoscerne l’obiettivo nascosto. Tre di loro sono riusciti a scoprirlo, utilizzando metodi come l’interpretabilità con sparse autoencoder (SAEs), attacchi comportamentali e analisi dei dati di addestramento.
Successivamente, uno studio di approfondimento ha valutato otto diverse tecniche di audit, evidenziandone punti di forza e limiti.
Leggi l’articolo completo: Auditing language models for hidden objectives su arXiv.org.
Immagine generata tramite DALL-E 3, 2025.

