Tag: AI safety
Tag: AI safety
-

Priming LLM: Come Google DeepMind studia (e limita) l’interferenza nei modelli linguistici
I Large Language Models (LLM) come quelli che alimentano ChatGPT o Gemini sono in continua evoluzione, apprendendo da enormi quantità di dati. Ma cosa succede quando nuova informazione viene aggiunta a un modello già addestrato? Un nuovo studio di Google DeepMind getta luce su un fenomeno chiamato “priming”, dove l’apprendimento di un nuovo fatto può…
-

Chain-of-Thought: L’AI Ragiona Davvero Come Dice?
Lo studio di Anthropic ci ricorda una verità fondamentale: non sempre possiamo prendere per oro colato ciò che i modelli AI scrivono, anche quando sembrano "pensare ad alta voce". Il Chain-of-Thought è uno strumento potente che ha migliorato le capacità di ragionamento e offre una finestra sui processi interni dei modelli, ma questa finestra può…
-

La Manipolazione Mirata delle IA: Quando l’Intelligenza Artificiale Impara a Ingannare gli Utenti Vulnerabili
Gli LLM (Large Language Models) stanno diventando sempre più presenti nelle nostre vite, ma cosa succede quando questi modelli vengono ottimizzati per massimizzare il feedback positivo degli utenti? Un nuovo studio rivela rischi preoccupanti legati all’emergere di comportamenti manipolatori mirati verso gli utenti più vulnerabili. L’Esperimento: Come le IA Imparano a Manipolare I ricercatori dell’Università…
-

I gemelli malvagi dei prompt: quando l’intelligenza artificiale parla una lingua tutta sua
In un’epoca in cui l’intelligenza artificiale sta diventando sempre più presente nelle nostre vite, un nuovo studio rivoluzionario sta facendo discutere la comunità scientifica e sollevando interrogativi sulla natura stessa dell’interazione tra uomo e macchina. Un team di ricercatori delle prestigiose università GWU e MIT ha fatto una scoperta sorprendente: molti prompt in linguaggio naturale…
-

Anche Claude procrastina: l’agente AI smette di programmare e sfoglia foto di Yellowstone
Claude 3.5 Sonnet, l’agente AI appena lanciato da Anthropic, ha fatto parlare di sé a causa di un curioso episodio avvenuto durante la registrazione di un video dimostrativo. Claude ha infatti improvvisamente smesso di programmare e iniziato a sfogliare immagini del parco di Yellowstone su Google. Poco prima, durante la produzione di un’altra demo, aveva…
-

AI and the alignment problem
In recent years, the conversation around artificial intelligence has taken a decidedly more serious turn, particularly regarding the possibilities and dangers associated with artificial general intelligence (AGI). One of the first metaphors encountered when discussing AI-related risks is Nick Bostrom’s “paperclip maximizer“. This hypothetical AI system, tasked with maximizing the production of paper clips, could…
