Meta presenta CGPO: Una svolta nell'addestramento dei modelli linguistici AI

Un team di ricercatori di Meta ha sviluppato un nuovo metodo rivoluzionario per migliorare l’affidabilità e le prestazioni dei grandi modelli linguistici (LLM). La tecnica, chiamata “Constrained Generative Policy Optimization” (CGPO), rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale, in particolare nell’ambito dell’apprendimento da feedback umano (RLHF).

Il nuovo approccio, presentato in un articolo pubblicato su arXiv, affronta due sfide fondamentali nell’addestramento dei modelli AI: la gestione di obiettivi contrastanti e il fenomeno del “reward hacking”, dove il modello impara a massimizzare il punteggio di ricompensa senza effettivamente migliorare la qualità delle risposte.

“Il CGPO introduce un sistema di ‘giudici multipli’ che valutano contemporaneamente diversi aspetti delle risposte generate”, spiega Tengyu Xu, primo autore dello studio. “Questo permette di bilanciare meglio diversi obiettivi come l’accuratezza, la sicurezza e l’utilità delle risposte.”

I risultati sono impressionanti: miglioramenti del 7.4% in AlpacaEval-2 (conversazione generale), 12.5% in Arena-Hard (ragionamento STEM), 2% in valutazioni di follow-up delle istruzioni, 2% in test matematici, 5% nella programmazione e 2% nelle sfide di conoscenza generale.

Una caratteristica distintiva del CGPO è la sua capacità di gestire simultaneamente più compiti senza compromettere le prestazioni in nessuno di essi. Il sistema utilizza una combinazione di giudici basati su regole e modelli linguistici per valutare diversi aspetti delle risposte, dalla correttezza matematica alla sicurezza dei contenuti.

“È come avere un team di esperti specializzati che valutano contemporaneamente diversi aspetti di una risposta”, sottolinea Xu. “Questo ci permette di ottenere risultati migliori rispetto ai metodi tradizionali che utilizzano un approccio più generalista.”

Il CGPO si è dimostrato particolarmente efficace nel prevenire il “reward hacking”. Mentre altri metodi mostrano un deterioramento delle prestazioni dopo un certo numero di iterazioni, il CGPO mantiene e migliora costantemente la qualità delle risposte.

La ricerca apre nuove prospettive per lo sviluppo di modelli AI più affidabili e versatili. Meta prevede di implementare questa tecnologia nei suoi futuri modelli linguistici, promettendo significativi miglioramenti nelle interazioni uomo-macchina.

Immagine in copertina generata tramite FLUX.

Leggi l’articolo completo su Arxiv:

The Perfect Blend: Redefining RLHF with Mixture of Judges

Reinforcement learning from human feedback (RLHF) has become the leading approach for fine-tuning large language models (LLM). However, RLHF has limitations in multi-task learning (MTL) due to challenges of reward hacking and extreme multi-objective optimization (i.e., trade-off of multiple and/or sometimes conflicting objectives). Applying RLHF for MTL currently requires careful tuning of the weights for reward model and data combinations. This is often done via human intuition and does not generalize. In this work, we introduce a novel post-training paradigm which we called Constrained Generative Policy Optimization (CGPO). The core of CGPO is Mixture of Judges (MoJ) with cost-efficient constrained policy optimization with stratification, which can identify the perfect blend in RLHF in a principled manner. It shows strong empirical results with theoretical guarantees, does not require extensive hyper-parameter tuning, and is plug-and-play in common post-training pipelines. Together, this can detect and mitigate reward hacking behaviors while reaching a pareto-optimal point across an extremely large number of objectives. Our empirical evaluations demonstrate that CGPO significantly outperforms standard RLHF algorithms like PPO and DPO across various tasks including general chat, STEM questions, instruction following, and coding. Specifically, CGPO shows improvements of 7.4% in AlpacaEval-2 (general chat), 12.5% in Arena-Hard (STEM & reasoning), and consistent gains in other domains like math and coding. Notably, PPO, while commonly used, is prone to severe reward hacking in popular coding benchmarks, which CGPO successfully addresses. This breakthrough in RLHF not only tackles reward hacking and extreme multi-objective optimization challenges but also advances the state-of-the-art in aligning general-purpose LLMs for diverse applications.

Meta presenta CGPO: Una svolta nell’addestramento dei modelli linguistici AI