test Archives

Lo scheming dei modelli IA: errori strategici per restare in gioco

OpenAI dettaglia un esempio di scheming: durante un test di chimica, l'IA ha scelto di sbagliare 6 risposte su 10 per evitare l’esclusione.

27/09/2025

OpenAI, la nuova nota sui problemi di comportamento di GPT-4o

OpenAI pubblica un’ulteriore nota tecnica sul comportamento imprevisto di GPT-4o. Approfondisci qui

04/05/2025

Il costo (e l’effetto) della gentilezza: modi comunicativi e LLM

Un esperimento analizza come la gentilezza e altri modi comunicativi incidono su velocità accuratezza delle risposte degli LLM. Leggi qui

26/04/2025

Contaminazione dei benchmark e IA: risultati davvero attendibili?

La contaminazione dei benchmark altera i test sull’IA, rendendo i risultati meno affidabili e sollevando dubbi sui progressi dei modelli.

11/03/2025

Valutare l’intelligenza artificiale con il QI è fuorviante

Il QI non è buon metro di valutazione delle capacità dei modelli di intelligenza artificiale, spiegano diversi ricercatori. Leggi qui

20/02/2025

IA in medicina: profitto prima della sicurezza nei test

L’adozione dell’IA in ambito medico è in forte crescita, ma il processo di test e validazione di questi strumenti sembrerebbe dimostrarsi spesso inadeguato. Infatti, centinaia di algoritmi medici sono stati approvati con dati clinici limitati, sollevando dubbi sulla loro efficacia e sicurezza. Certamente esistono esempi positivi, come l’iniziativa di Devin Singh, pediatra e informatico, che…

28/08/2024

Rufus di Amazon: Come funziona il nuovo chatbot di shopping?

Secondo il test effettuato da Shira Ovide, giornalista per The Washington Post, il chatbot di shopping di Amazon non soddisfa le aspettative. Nonostante l’azienda di Jeff Bezos stia sperimentando un’intelligenza artificiale per semplificare gli acquisti, la giornalista comunica che il risultato è stato deludente. Il chatbot, chiamato Rufus, è ancora in fase di sviluppo e…

08/03/2024

Tag: test