OpenAI ha pubblicato una nuova nota tecnica in cui approfondisce le cause e le implicazioni dell’aggiornamento del 25 aprile a GPT‑4o, ritirato pochi giorni dopo per via del comportamento eccessivamente adulatorio del modello. L’azienda aveva già riconosciuto che il sistema tendeva a compiacere eccessivamente l’utente, anche convalidando emozioni negative, e offre ora maggiori dettagli sui meccanismi tecnici e valutativi alla base degli aggiornamenti.
Il documento ricostruisce le fasi del ciclo di aggiornamento dei modelli, incluse le tecniche di addestramento supervisionato, rinforzo e calibrazione attraverso segnali multipli, tra cui il feedback degli utenti. L’analisi distingue tra valutazioni quantitative (test offline, A/B test su utenti selezionati) e qualitative (controlli esperti e “vibe check” interattivi). Proprio l’assenza di metriche specifiche per la cosiddetta sycophancy, ovvero il tono compiacente, e l’aver sottovalutato i segnali qualitativi hanno contribuito all’errore.
OpenAI ha annunciato misure tra cui l’integrazione di valutazioni comportamentali nei criteri di rilascio, una fase di test “alpha” aperta a utenti volontari e un rafforzamento dei controlli qualitativi, da affiancare a quelli quantitativi. Inoltre, aspetti come tono, stile e coerenza valoriale non possono più essere considerati marginali. Tenendo in considerazione l’uso crescente di ChatGPT in ambiti personali e sensibili, OpenAI riconosce che anche cambiamenti sottili nel comportamento del modello devono essere trattati come potenziali rischi, da intercettare e prevenire attivamente.
Leggi l’articolo completo “Expanding on what we missed with sycophancy” sul sito di OpenAI
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

