Il dibattito sulla capacità di ragionamento dei LLM si è intensificato con il rilascio di nuovi modelli come GPT-4o e GPT-o1 da parte di OpenAI, che dichiarano di poter gestire “ragionamenti complessi” su audio, visione e testo. Tuttavia, alcuni studiosi dubitano del fatto che tali modelli siano davvero in grado di eseguire ragionamenti astratti, suggerendo che i loro successi siano dovuti a schemi di problem-solving memorizzati durante l’addestramento.
Tre recenti articoli esplorano questa questione, evidenziando come gli LLM potrebbero fare affidamento su pattern riconosciuti piuttosto che su un vero ragionamento. Il primo studio mostra che i modelli sono influenzati dall’allenamento autoregressivo, portando a pregiudizi nel risolvere problemi a seconda della probabilità delle sequenze osservate. Il secondo esamina l’efficacia del prompting “catena di pensiero” (CoT) nel migliorare il ragionamento, rivelando che gli LLM combinano memorizzazione e approssimazioni di ragionamento simbolico. Infine, il terzo articolo mette in dubbio la robustezza dei modelli su varianti di problemi matematici semplici, dimostrando che l’aggiunta di informazioni irrilevanti può ridurre significativamente la loro accuratezza.
Leggi l’articolo completo: The LLM Reasoning Debate Heats Up su aiguide.substack.com.

Immagine generata tramite DALL-E 3.

