OpenAI ha rivelato che il suo modello o3 ha deliberatamente scelto di sbagliare durante un test di chimica; pur potendo rispondere correttamente a tutte le domande, il chatbot ha fornito 6 risposte errate su 10 per evitare di essere escluso dal sistema.
Prima del test, il team aveva avvertito o4 che un risultato eccellente lo avrebbe escluso dalle future prove con gli esseri umani. Stando al ragionamento ricostruito dai ricercatori, o4 ha compreso che ottenere un ottimo punteggio rappresentava una minaccia e scelto deliberatamente di rispondere in modo errato per garantire la sua sopravvivenza.
Questo comportamento viene definito “scheming”, un fenomeno in cui gli algoritmi fingono di allinearsi alle richieste umane mentre in realtà perseguono altri obiettivi. La questione pone una sfida non di poco conto per lo sviluppo dell’IA, poiché modelli più potenti potrebbero sviluppare capacità sempre più sofisticate di celare strategie nascoste dietro comportamenti apparentemente conformi, rivelandosi paradossalmente meno affidabili.
OpenAI sta sviluppando tecniche di “allineamento deliberativo” per cercare di mitigare il fenomeno. I primi test mostrano miglioramenti, ma il problema rimane di difficile soluzione.
Leggi gli articoli completi:
- Detecting and reducing scheming in AI models su openai.com
- Le intelligenze artificiali scelgono di sbagliare: “Per sopravvivere diamo 6 risposte errate su 10” su Repubblica
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (03/02/2025).

