• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

DeepSeek-R1: Il modello che sfida OpenAI con il reinforcement learning e rivoluziona il ragionamento delle AI

Mentre i large language model continuano a evolversi, un nuovo protagonista entra in scena: DeepSeek-R1, un modello sviluppato da DeepSeek-AI che rivaleggia con i modelli più avanzati di OpenAI grazie a un approccio innovativo basato sul reinforcement learning (RL). Senza dati supervisionati iniziali, questo modello ha “imparato a ragionare” autonomamente, superando sfide matematiche, di coding e logiche con prestazioni paragonabili a quelle di OpenAI-o1-1217. Ma come funziona esattamente? E perché la sua capacità di autoevolversi (nella finestra di contesto) potrebbe rappresentare una svolta per il futuro dell’intelligenza artificiale?


L’alba di DeepSeek-R1: Reinforcement learning puro

Il cuore di DeepSeek-R1 risiede in due versioni: DeepSeek-R1-Zero e DeepSeek-R1. La prima è stata addestrata esclusivamente tramite reinforcement learning su larga scala, senza alcun fine-tuning supervisionato (SFT). Un esperimento che ha portato a risultati sorprendenti:

  • Performance in crescita esponenziale: Su benchmark come AIME 2024 (competizione matematica), il punteggio pass@1 è passato dal 15.6% al 71.0% dopo migliaia di step di RL.
  • Comportamenti emergenti: Durante l’addestramento, il modello ha sviluppato autonomamente strategie come autoverifica, riflessione e generazione di chain-of-thought (CoT) lunghe centinaia di token.

Tuttavia, DeepSeek-R1-Zero presentava criticità: risposte poco leggibili, mix di lingue e formattazione disordinata. Problemi risolti nella versione successiva.


DeepSeek-R1: Cold start e multi-stage training

Per perfezionare il modello, i ricercatori hanno introdotto una fase di cold start: migliaia di esempi di chain-of-thought ben formattati, utilizzati per addestrare preliminarmente il modello base DeepSeek-V3. Questo ha permesso di:

  1. Migliorare la leggibilità: Strutturare le risposte con tag specifici (es. <think> e <answer>).
  2. Ottimizzare il RL: Combinare ricompense basate su accuratezza, formattazione e consistenza linguistica.

Il training si è articolato in quattro fasi:

  1. Cold start con dati curati.
  2. RL orientato al ragionamento (matematica, coding, scienza).
  3. Rejection sampling per generare nuovi dati SFT.
  4. RL finale su tutti gli scenari, incluso l’allineamento a preferenze umane.

Risultato: DeepSeek-R1 raggiunge il 97.3% su MATH-500 e il 96.3° percentile su Codeforces, superando molti competitor e eguagliando OpenAI-o1-1217.


Distillazione: Piccoli modelli, grandi capacità

Uno degli aspetti più rivoluzionari è la distillazione delle capacità di DeepSeek-R1 in modelli più piccoli (da 1.5B a 70B parametri). I risultati sono ottimi:

  • DeepSeek-R1-Distill-Qwen-7B batte GPT-4o su task matematici (55.5% vs 9.3% su AIME 2024).
  • DeepSeek-R1-Distill-Llama-70B raggiunge il 94.5% su GPQA Diamond, superando modelli open-weights precedenti.

Perché è importante? Dimostra che i pattern di ragionamento dei modelli giganti possono essere trasferiti efficacemente su versioni ridotte, riducendo costi computazionali e democratizzando l’accesso alle AI avanzate.


Limitazioni e futuro

Nonostante i successi, DeepSeek-R1 ha ancora debolezze:

  • Mixing linguistico: Predilige inglese e cinese, trascurando altre lingue.
  • Sensibilità ai prompt: Performance ottimali solo in zero-shot, senza esempi.
  • Task ingegneristici: Margini di miglioramento su benchmark come SWE-bench.

I prossimi passi? I ricercatori puntano a:

  • Espandere le capacità generali (es. multi-turn dialogue).
  • Ottimizzare il RL per task software.
  • Risolvere il mixing linguistico con dati multilingue.

Perché DeepSeek-R1 è un punto di svolta

DeepSeek-R1 non è solo un modello competitivo: è la prova che il reinforcement learning può guidare l’auto-evoluzione delle AI, senza dipendere da dati supervisionati. Con i suoi modelli distillati, offre strumenti accessibili per ricerca e industria.


Immagine di copertina generata tramite Flux.
Leggi l’articolo completo su DeepSeek-AI Research.

Esplora altri articoli su questi temi