Less is more: la scalabilità dei LLM potrebbe essere arrivata a capolinea

Finora, i modelli linguistici di grandi dimensioni (LLM) hanno dimostrato di essere sempre più capaci. Tuttavia, alcuni studi suggeriscono che stiamo già raggiungendo i limiti dei dati di alta qualità disponibili per l’addestramento. Sebbene alcuni credano che questa tendenza continuerà e ci porterà eventualmente all’intelligenza artificiale generale (AGI), questa visione si basa su una serie di miti e incomprensioni.

Le ricerche sulle leggi della scalabilità mostrano che aumentando la dimensione del modello, il tempo di addestramento e la dimensione del dataset, i modelli linguistici diventano “migliori”. Tuttavia, questo miglioramento è misurato in termini di riduzione della “perplessità”, ovvero la capacità del modello di prevedere la parola successiva in una sequenza. Questo parametro è poco rilevante per gli utenti finali, che sono più interessati alle “abilità emergenti” dei modelli.

Anche se finora l’aumento delle dimensioni dei modelli ha portato a nuove capacità, non c’è alcuna prova empirica che ci assicuri che questa tendenza continuerà in modo definito.

Un’altra barriera alla scalabilità è l’acquisizione di dati per l’addestramento. Le aziende stanno già utilizzando tutte le fonti di dati disponibili. L’idea di trascrivere tutti i video di YouTube per ottenere più dati non è una soluzione praticabile, poiché la maggior parte del contenuto non è utile per l’addestramento di modelli linguistici.

L’uso di dati sintetici è spesso proposto come una via per continuare la scalabilità. Tuttavia, i dati sintetici sono utili principalmente per colmare lacune specifiche e fare miglioramenti in domini particolari, come la matematica o la generazione di codice, e non per aumentare il volume complessivo dei dati di addestramento. Ad esempio, i modelli AlphaGo hanno avuto successo utilizzando dati sintetici generati da partite giocate contro se stessi, ma questo approccio funziona bene solo in ambienti chiusi come i giochi.

Negli ultimi anni, infatti, l’industria si è concentrata sulla creazione di modelli più piccoli ma altrettanto capaci. Ad esempio, modelli recenti come GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro sono più economici e più capaci rispetto ai loro predecessori più grandi. Questo trend sta mettendo pressione sull’uso di maggiore potenza di calcolo per l’addestramento di modelli più piccoli, bilanciando così i costi di addestramento e inferenza.

Sebbene la scalabilità abbia portato a significativi progressi nei modelli di intelligenza artificiale, ci sono limiti intrinseci e barriere pratiche che potrebbero impedirci di raggiungere l’AGI solo attraverso la scalabilità. L’attenzione si sta spostando verso l’ottimizzazione dei dati di addestramento e l’efficienza dell’inferenza, piuttosto che verso la pura espansione delle dimensioni dei modelli.

Leggi qui l’intero articolo: AI scaling myths

Foto di Maxim Berg su Unsplash