Un team di ricercatori di Meta ha sviluppato un nuovo metodo rivoluzionario per migliorare l’affidabilità e le prestazioni dei grandi modelli linguistici (LLM). La tecnica, chiamata “Constrained Generative Policy Optimization” (CGPO), rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale, in particolare nell’ambito dell’apprendimento da feedback umano (RLHF).
Il nuovo approccio, presentato in un articolo pubblicato su arXiv, affronta due sfide fondamentali nell’addestramento dei modelli AI: la gestione di obiettivi contrastanti e il fenomeno del “reward hacking”, dove il modello impara a massimizzare il punteggio di ricompensa senza effettivamente migliorare la qualità delle risposte.
“Il CGPO introduce un sistema di ‘giudici multipli’ che valutano contemporaneamente diversi aspetti delle risposte generate”, spiega Tengyu Xu, primo autore dello studio. “Questo permette di bilanciare meglio diversi obiettivi come l’accuratezza, la sicurezza e l’utilità delle risposte.”
I risultati sono impressionanti: miglioramenti del 7.4% in AlpacaEval-2 (conversazione generale), 12.5% in Arena-Hard (ragionamento STEM), 2% in valutazioni di follow-up delle istruzioni, 2% in test matematici, 5% nella programmazione e 2% nelle sfide di conoscenza generale.
Una caratteristica distintiva del CGPO è la sua capacità di gestire simultaneamente più compiti senza compromettere le prestazioni in nessuno di essi. Il sistema utilizza una combinazione di giudici basati su regole e modelli linguistici per valutare diversi aspetti delle risposte, dalla correttezza matematica alla sicurezza dei contenuti.
“È come avere un team di esperti specializzati che valutano contemporaneamente diversi aspetti di una risposta”, sottolinea Xu. “Questo ci permette di ottenere risultati migliori rispetto ai metodi tradizionali che utilizzano un approccio più generalista.”
Il CGPO si è dimostrato particolarmente efficace nel prevenire il “reward hacking”. Mentre altri metodi mostrano un deterioramento delle prestazioni dopo un certo numero di iterazioni, il CGPO mantiene e migliora costantemente la qualità delle risposte.
La ricerca apre nuove prospettive per lo sviluppo di modelli AI più affidabili e versatili. Meta prevede di implementare questa tecnologia nei suoi futuri modelli linguistici, promettendo significativi miglioramenti nelle interazioni uomo-macchina.
Immagine in copertina generata tramite FLUX.
Leggi l’articolo completo su Arxiv:


