DeepSeek-R1: Il modello che sfida OpenAI con il reinforcement learning e rivoluziona il ragionamento delle AI

Mentre i large language model continuano a evolversi, un nuovo protagonista entra in scena: DeepSeek-R1, un modello sviluppato da DeepSeek-AI che rivaleggia con i modelli più avanzati di OpenAI grazie a un approccio innovativo basato sul reinforcement learning (RL). Senza dati supervisionati iniziali, questo modello ha “imparato a ragionare” autonomamente, superando sfide matematiche, di coding e logiche con prestazioni paragonabili a quelle di OpenAI-o1-1217. Ma come funziona esattamente? E perché la sua capacità di autoevolversi (nella finestra di contesto) potrebbe rappresentare una svolta per il futuro dell’intelligenza artificiale?

L’alba di DeepSeek-R1: Reinforcement learning puro

Il cuore di DeepSeek-R1 risiede in due versioni: DeepSeek-R1-Zero e DeepSeek-R1. La prima è stata addestrata esclusivamente tramite reinforcement learning su larga scala, senza alcun fine-tuning supervisionato (SFT). Un esperimento che ha portato a risultati sorprendenti:

Performance in crescita esponenziale: Su benchmark come AIME 2024 (competizione matematica), il punteggio pass@1 è passato dal 15.6% al 71.0% dopo migliaia di step di RL.
Comportamenti emergenti: Durante l’addestramento, il modello ha sviluppato autonomamente strategie come autoverifica, riflessione e generazione di chain-of-thought (CoT) lunghe centinaia di token.

Tuttavia, DeepSeek-R1-Zero presentava criticità: risposte poco leggibili, mix di lingue e formattazione disordinata. Problemi risolti nella versione successiva.

DeepSeek-R1: Cold start e multi-stage training

Per perfezionare il modello, i ricercatori hanno introdotto una fase di cold start: migliaia di esempi di chain-of-thought ben formattati, utilizzati per addestrare preliminarmente il modello base DeepSeek-V3. Questo ha permesso di:

Migliorare la leggibilità: Strutturare le risposte con tag specifici (es. <think> e <answer>).
Ottimizzare il RL: Combinare ricompense basate su accuratezza, formattazione e consistenza linguistica.

Il training si è articolato in quattro fasi:

Cold start con dati curati.
RL orientato al ragionamento (matematica, coding, scienza).
Rejection sampling per generare nuovi dati SFT.
RL finale su tutti gli scenari, incluso l’allineamento a preferenze umane.

Risultato: DeepSeek-R1 raggiunge il 97.3% su MATH-500 e il 96.3° percentile su Codeforces, superando molti competitor e eguagliando OpenAI-o1-1217.

Distillazione: Piccoli modelli, grandi capacità

Uno degli aspetti più rivoluzionari è la distillazione delle capacità di DeepSeek-R1 in modelli più piccoli (da 1.5B a 70B parametri). I risultati sono ottimi:

DeepSeek-R1-Distill-Qwen-7B batte GPT-4o su task matematici (55.5% vs 9.3% su AIME 2024).
DeepSeek-R1-Distill-Llama-70B raggiunge il 94.5% su GPQA Diamond, superando modelli open-weights precedenti.

Perché è importante? Dimostra che i pattern di ragionamento dei modelli giganti possono essere trasferiti efficacemente su versioni ridotte, riducendo costi computazionali e democratizzando l’accesso alle AI avanzate.

Limitazioni e futuro

Nonostante i successi, DeepSeek-R1 ha ancora debolezze:

Mixing linguistico: Predilige inglese e cinese, trascurando altre lingue.
Sensibilità ai prompt: Performance ottimali solo in zero-shot, senza esempi.
Task ingegneristici: Margini di miglioramento su benchmark come SWE-bench.

I prossimi passi? I ricercatori puntano a:

Espandere le capacità generali (es. multi-turn dialogue).
Ottimizzare il RL per task software.
Risolvere il mixing linguistico con dati multilingue.

Perché DeepSeek-R1 è un punto di svolta

DeepSeek-R1 non è solo un modello competitivo: è la prova che il reinforcement learning può guidare l’auto-evoluzione delle AI, senza dipendere da dati supervisionati. Con i suoi modelli distillati, offre strumenti accessibili per ricerca e industria.

Immagine di copertina generata tramite Flux.
Leggi l’articolo completo su DeepSeek-AI Research.