Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Benchmark per agenti AI: ricerca rivela problemi strutturali

Federica D'Andrea

13/07/2025

Media e Informazione

Nuove Tecniche

In un articolo pubblicato su Substack, il ricercatore Daniel Kang affronta il complesso tema dei problemi strutturali dei benchmark usati per valutare gli agenti AI. Kang è co-autore di uno studio che ha analizzato dieci benchmark popolari (tra cui SWE-bench, WebArena e OSWorld) utilizzati da OpenAI e altre aziende leader, rivelando che otto di essi presentano criticità che causano stime errate delle capacità degli agenti.

I problemi riguardano principalmente la validità di task e risultati, aggravati dall’assenza di gold standard (ovvero l’insieme di output o risposte di riferimento considerate corrette e definitive per valutare le performance di un sistema). Ne derivano test fragili e facilmente aggirabili e metriche poco affidabili. Secondo lo studio, gli errori di valutazione portano infatti a sovrastimare o sottostimare le capacità degli agenti dall’1.6% fino al 100%.

Per affrontare queste criticità, gli autori hanno sviluppato l’AI agent Benchmark Checklist (ABC), una lista di controllo di 43 elementi basata su 17 benchmark utilizzati dai principali fornitori di AI. Lo strumento mira a supportare gli sviluppatori di benchmark nell’identificazione di vulnerabilità e incoraggiare quelli di agenti a valutare criticamente i sistemi utilizzati, andando oltre i semplici dati quantitativi.

Leggi l’articolo completo: AI Agent Benchmarks are Broken – by Daniel Kang su Substack

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).