Un nuovo studio condotto dai ricercatori di Apple mette in luce significative limitazioni nelle capacità di ragionamento matematico delle moderne Intelligenze Artificiali, anche quelle più avanzate.
La ricerca, pubblicata a ottobre 2024, ha analizzato in modo approfondito come i Large Language Models (LLM) – i modelli alla base di sistemi come ChatGPT – affrontano problemi matematici di livello elementare.
Lo studio ha introdotto un nuovo benchmark chiamato GSM-Symbolic, evoluzione del già noto test GSM8K utilizzato per valutare le capacità matematiche delle IA. La novità principale è che GSM-Symbolic può generare molteplici varianti dello stesso problema matematico, permettendo una valutazione più accurata e controllata.
I risultati sono sorprendenti:
- Instabilità nelle Risposte
I LLM mostrano una notevole variabilità nelle risposte quando vengono presentate diverse versioni dello stesso problema matematico. Ad esempio, cambiando solo i numeri ma mantenendo identica la struttura del problema, le prestazioni peggiorano significativamente. - Difficoltà Crescente con la Complessità
All’aumentare del numero di elementi da considerare in un problema, le prestazioni dei modelli peggiorano drasticamente. Questo suggerisce che i LLM faticano a gestire ragionamenti che richiedono più passaggi logici. - Sensibilità alle Informazioni Irrilevanti
Un aspetto particolarmente interessante è che aggiungendo informazioni apparentemente pertinenti ma in realtà irrilevanti per la soluzione, le prestazioni crollano fino al 65%. Questo vale anche per i modelli più avanzati.
Questi risultati suggeriscono che i modelli attuali non eseguono un vero ragionamento logico-matematico come fanno gli umani. Piuttosto, sembrano basarsi su un sofisticato sistema di pattern matching, cercando di replicare schemi di ragionamento visti durante l’addestramento.
“Il nostro lavoro evidenzia che, nonostante i progressi impressionanti degli ultimi anni, c’è ancora molta strada da fare prima che le IA possano davvero ragionare in modo affidabile su problemi matematici“, spiegano i ricercatori.
Questo studio è particolarmente rilevante in un momento in cui si discute molto sull’utilizzo delle IA in ambito educativo e professionale. Suggerisce che, per compiti che richiedono un ragionamento matematico rigoroso, è ancora fondamentale la supervisione umana.
Per gli sviluppatori e i ricercatori, GSM-Symbolic rappresenta un nuovo strumento importante per valutare e migliorare le capacità di ragionamento delle IA, oltre a evidenziare aree specifiche che necessitano di ulteriore sviluppo.
Leggi l’articolo originale qui.

