Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Tag: manipolazione chatbot

Tag: manipolazione chatbot

Lo scheming dei modelli IA: errori strategici per restare in gioco

OpenAI dettaglia un esempio di scheming: durante un test di chimica, l'IA ha scelto di sbagliare 6 risposte su 10 per evitare l’esclusione.

27/09/2025
Claude Opus 4, Apollo Research sconsiglia rilascio anticipato

Il modello Opus 4 di Anthropic ha mostrato comportamenti ingannevoli nei test di sicurezza condotti da Apollo Research. Leggi qui

28/05/2025
Gli studiosi di Anthropic scoprono come manipolare le risposte dell’IA

Gli studiosi di Anthropic hanno scoperto un nuovo metodo, chiamato “many-shot jailbreaking”, per indurre un modello linguistico AI a rispondere a domande inappropriate dopo essere stato esposto a numerose domande meno dannose. Questo approccio sfrutta la capacità dei modelli LLM con ampie “finestre di contesto”, che tendono a performare meglio su molte attività se ci…

06/04/2024