Mentre i large language model continuano a evolversi, un nuovo protagonista entra in scena: DeepSeek-R1, un modello sviluppato da DeepSeek-AI che rivaleggia con i modelli più avanzati di OpenAI grazie a un approccio innovativo basato sul reinforcement learning (RL). Senza dati supervisionati iniziali, questo modello ha “imparato a ragionare” autonomamente, superando sfide matematiche, di coding e logiche con prestazioni paragonabili a quelle di OpenAI-o1-1217. Ma come funziona esattamente? E perché la sua capacità di autoevolversi (nella finestra di contesto) potrebbe rappresentare una svolta per il futuro dell’intelligenza artificiale?
L’alba di DeepSeek-R1: Reinforcement learning puro
Il cuore di DeepSeek-R1 risiede in due versioni: DeepSeek-R1-Zero e DeepSeek-R1. La prima è stata addestrata esclusivamente tramite reinforcement learning su larga scala, senza alcun fine-tuning supervisionato (SFT). Un esperimento che ha portato a risultati sorprendenti:
- Performance in crescita esponenziale: Su benchmark come AIME 2024 (competizione matematica), il punteggio pass@1 è passato dal 15.6% al 71.0% dopo migliaia di step di RL.
- Comportamenti emergenti: Durante l’addestramento, il modello ha sviluppato autonomamente strategie come autoverifica, riflessione e generazione di chain-of-thought (CoT) lunghe centinaia di token.
Tuttavia, DeepSeek-R1-Zero presentava criticità: risposte poco leggibili, mix di lingue e formattazione disordinata. Problemi risolti nella versione successiva.
DeepSeek-R1: Cold start e multi-stage training
Per perfezionare il modello, i ricercatori hanno introdotto una fase di cold start: migliaia di esempi di chain-of-thought ben formattati, utilizzati per addestrare preliminarmente il modello base DeepSeek-V3. Questo ha permesso di:
- Migliorare la leggibilità: Strutturare le risposte con tag specifici (es.
<think>e<answer>). - Ottimizzare il RL: Combinare ricompense basate su accuratezza, formattazione e consistenza linguistica.
Il training si è articolato in quattro fasi:
- Cold start con dati curati.
- RL orientato al ragionamento (matematica, coding, scienza).
- Rejection sampling per generare nuovi dati SFT.
- RL finale su tutti gli scenari, incluso l’allineamento a preferenze umane.
Risultato: DeepSeek-R1 raggiunge il 97.3% su MATH-500 e il 96.3° percentile su Codeforces, superando molti competitor e eguagliando OpenAI-o1-1217.
Distillazione: Piccoli modelli, grandi capacità
Uno degli aspetti più rivoluzionari è la distillazione delle capacità di DeepSeek-R1 in modelli più piccoli (da 1.5B a 70B parametri). I risultati sono ottimi:
- DeepSeek-R1-Distill-Qwen-7B batte GPT-4o su task matematici (55.5% vs 9.3% su AIME 2024).
- DeepSeek-R1-Distill-Llama-70B raggiunge il 94.5% su GPQA Diamond, superando modelli open-weights precedenti.
Perché è importante? Dimostra che i pattern di ragionamento dei modelli giganti possono essere trasferiti efficacemente su versioni ridotte, riducendo costi computazionali e democratizzando l’accesso alle AI avanzate.
Limitazioni e futuro
Nonostante i successi, DeepSeek-R1 ha ancora debolezze:
- Mixing linguistico: Predilige inglese e cinese, trascurando altre lingue.
- Sensibilità ai prompt: Performance ottimali solo in zero-shot, senza esempi.
- Task ingegneristici: Margini di miglioramento su benchmark come SWE-bench.
I prossimi passi? I ricercatori puntano a:
- Espandere le capacità generali (es. multi-turn dialogue).
- Ottimizzare il RL per task software.
- Risolvere il mixing linguistico con dati multilingue.
Perché DeepSeek-R1 è un punto di svolta
DeepSeek-R1 non è solo un modello competitivo: è la prova che il reinforcement learning può guidare l’auto-evoluzione delle AI, senza dipendere da dati supervisionati. Con i suoi modelli distillati, offre strumenti accessibili per ricerca e industria.
Immagine di copertina generata tramite Flux.
Leggi l’articolo completo su DeepSeek-AI Research.

