Tag: benchmark AI
Tag: benchmark AI
-

LLM e allucinazioni, motivi e possibili soluzioni secondo OpenAI
Uno studio pubblicato da OpenAI spiega i motivi e le possibili soluzioni al fenomeno delle allucinazioni. Leggi l'articolo su MagIA
-

Valutare l’IA oggi: tra performance elevate e scarsa affidabilità
I metodi attuali per valutare l’IA mostrano limiti sempre più evidenti. Nuovi strumenti emergono per valutare le reali capacità dei modelli.
-

Diagnosi medica e IA: i risultati della ricerca Microsoft su MAI-DxO
Ricerca Microsoft su MAI-DxO, un sistema IA per supportare il processo di diagnosi medica. Leggi qui
-

Gli Agenti AI non sono ancora pronti per il mondo del lavoro
Gli agenti hanno completato solo una frazione delle attività e mostrato limiti in autonomia, buon senso e interazione sociale. Leggi qui
-

Amodei: i modelli AI allucinano meno degli esseri umani
Secondo il CEO di Anthropic Dario Amodei, gli attuali modelli AI allucinano meno degli esseri umani. Approfondisci qui
-

LM Arena raccoglie 100 mld $ in un round di finanziamento
LM Arena ha raccolto 100 milioni di dollari in un importante round di finanziamento, raggiungendo una valutazione di 600 milioni.
-

Gemini 2.5 Pro di Google vince a Pokémon Blu: il ruolo di Joel Z
Gemini 2.5 Pro di Google ha recentemente completato Pokémon Blu. Quest'iniziativa è stata gestita da Joel Z, un ingegnere esterno. Leggi qui
-

OpenAI, i reasoning model o3 e o4-mini generano più allucinazioni
Contrariamente alle attese, i nuovi modelli o3 e o4-mini di OpenAI producono più allucinazioni rispetto alle versioni precedenti. Leggi qui
-

Benchmark truccati: il caso di Gemini contro Claude
Il confronto tra modelli di intelligenza artificiale solleva delle criticità. È il caso del gioco dei Pokémon con Gemini vs Claude. Leggi qui

