benchmark AI Archives

LLM e allucinazioni, motivi e possibili soluzioni secondo OpenAI

Uno studio pubblicato da OpenAI spiega i motivi e le possibili soluzioni al fenomeno delle allucinazioni. Leggi l'articolo su MagIA

16/09/2025

Benchmark per agenti AI inaffidabili: studio analizza 10 sistemi popolari e trova criticità in 8 di essi. Leggi qui

13/07/2025

I metodi attuali per valutare l’IA mostrano limiti sempre più evidenti. Nuovi strumenti emergono per valutare le reali capacità dei modelli.

11/07/2025

Ricerca Microsoft su MAI-DxO, un sistema IA per supportare il processo di diagnosi medica. Leggi qui

01/07/2025

Gli agenti hanno completato solo una frazione delle attività e mostrato limiti in autonomia, buon senso e interazione sociale. Leggi qui

02/06/2025

Secondo il CEO di Anthropic Dario Amodei, gli attuali modelli AI allucinano meno degli esseri umani. Approfondisci qui

24/05/2025

LM Arena ha raccolto 100 milioni di dollari in un importante round di finanziamento, raggiungendo una valutazione di 600 milioni.

28/05/2025

Gemini 2.5 Pro di Google ha recentemente completato Pokémon Blu. Quest'iniziativa è stata gestita da Joel Z, un ingegnere esterno. Leggi qui

07/05/2025

Contrariamente alle attese, i nuovi modelli o3 e o4-mini di OpenAI producono più allucinazioni rispetto alle versioni precedenti. Leggi qui

22/04/2025

Il confronto tra modelli di intelligenza artificiale solleva delle criticità. È il caso del gioco dei Pokémon con Gemini vs Claude. Leggi qui

25/04/2025