I Limiti del Ragionamento Matematico dei Large Language Models

Federico Torrielli

28/10/2024

Un nuovo studio condotto dai ricercatori di Apple mette in luce significative limitazioni nelle capacità di ragionamento matematico delle moderne Intelligenze Artificiali, anche quelle più avanzate.

La ricerca, pubblicata a ottobre 2024, ha analizzato in modo approfondito come i Large Language Models (LLM) – i modelli alla base di sistemi come ChatGPT – affrontano problemi matematici di livello elementare.

Lo studio ha introdotto un nuovo benchmark chiamato GSM-Symbolic, evoluzione del già noto test GSM8K utilizzato per valutare le capacità matematiche delle IA. La novità principale è che GSM-Symbolic può generare molteplici varianti dello stesso problema matematico, permettendo una valutazione più accurata e controllata.

I risultati sono sorprendenti:

Instabilità nelle Risposte
I LLM mostrano una notevole variabilità nelle risposte quando vengono presentate diverse versioni dello stesso problema matematico. Ad esempio, cambiando solo i numeri ma mantenendo identica la struttura del problema, le prestazioni peggiorano significativamente.
Difficoltà Crescente con la Complessità
All’aumentare del numero di elementi da considerare in un problema, le prestazioni dei modelli peggiorano drasticamente. Questo suggerisce che i LLM faticano a gestire ragionamenti che richiedono più passaggi logici.
Sensibilità alle Informazioni Irrilevanti
Un aspetto particolarmente interessante è che aggiungendo informazioni apparentemente pertinenti ma in realtà irrilevanti per la soluzione, le prestazioni crollano fino al 65%. Questo vale anche per i modelli più avanzati.

Questi risultati suggeriscono che i modelli attuali non eseguono un vero ragionamento logico-matematico come fanno gli umani. Piuttosto, sembrano basarsi su un sofisticato sistema di pattern matching, cercando di replicare schemi di ragionamento visti durante l’addestramento.

“Il nostro lavoro evidenzia che, nonostante i progressi impressionanti degli ultimi anni, c’è ancora molta strada da fare prima che le IA possano davvero ragionare in modo affidabile su problemi matematici“, spiegano i ricercatori.

Questo studio è particolarmente rilevante in un momento in cui si discute molto sull’utilizzo delle IA in ambito educativo e professionale. Suggerisce che, per compiti che richiedono un ragionamento matematico rigoroso, è ancora fondamentale la supervisione umana.

Per gli sviluppatori e i ricercatori, GSM-Symbolic rappresenta un nuovo strumento importante per valutare e migliorare le capacità di ragionamento delle IA, oltre a evidenziare aree specifiche che necessitano di ulteriore sviluppo.

Leggi l’articolo originale qui.