Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Benchmark truccati: il caso di Gemini contro Claude

Marta Baronio

25/04/2025

Il confronto tra modelli di IA è sempre più influenzato dalle modalità con cui vengono condotti i benchmark, al punto che anche i videogiochi diventano terreno di disputa. Un recente post su X, diventato poi virale, ha celebrato il modello Gemini di Google per aver superato Claude di Anthropic nella trilogia originale di Pokémon. Tuttavia, in questo post non è stato evidenziato che Gemini aveva un vantaggio tecnico, ovvero una minimappa personalizzata che semplifica l’interpretazione del gioco, riducendo il carico cognitivo richiesto.

La “sfida” tra Gemini e Claude nel videogioco è solo un esempio che illustra un problema più serio, che riguarda la scarsa standardizzazione nei test delle capacità dei modelli. Il post su X mostra un caso in cui un modello sembra “vincere”, ma solo grazie a condizioni tecniche favorevoli non dichiarate. Se anche nei benchmark informali viene a mancare una totale onestà, sorge il dubbio su cosa succede in quelli ufficiali. In questa vicenda, non è tanto importante il contenuto del post in sé, quanto il fatto che diventi un caso mediatico, ciò rivela una confusione crescente nel modo in cui l’IA viene valutata.

Sembrerebbe che i modelli di IA vengano sempre più spesso testati in condizioni “non uniformi”, anche all’interno dello stesso benchmark. Questo è il centro del problema: non tutti giocano con le stesse regole. Anthropic, ad esempio, ha pubblicato due risultati per il suo modello Claude 3.7 Sonnet sul benchmark SWE-bench Verified: un 62,3% di accuratezza nella versione standard e un 70,3% con uno scaffold personalizzato. Anche Meta ha modificato una versione del suo Llama 4 Maverick per ottenere performance elevate nel benchmark LM Arena, mentre il modello base si comporta peggio.

Leggi l’articolo completo: Debates over AI benchmarking have reached Pokémon su techcrunch.com.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).