Rischio: Allineamento ai valori
Rischio: Allineamento ai valori
-

Claude Sonnet 4.5 di Anthropic rileva di essere sottoposto a test
Anthropic ha pubblicato un’analisi di sicurezza sul suo nuovo modello Claude Sonnet 4.5. Leggi l'articolo su MagIA
-

Lo scheming dei modelli IA: errori strategici per restare in gioco
OpenAI dettaglia un esempio di scheming: durante un test di chimica, l'IA ha scelto di sbagliare 6 risposte su 10 per evitare l’esclusione.
-

OpenAI e lo scheming: quando l’IA mente deliberatamente
Uno studio di OpenAI indaga lo “scheming”, il comportamento in cui l’IA inganna intenzionalmente per nascondere i propri obiettivi. Leggi qui
-

Test di sicurezza: AI fornisce istruzioni per bombe e armi biologiche
Durante dei test di sicurezza i modelli di OpenAI hanno fornito istruzioni dettagliate per bombe e armi biologiche. Leggi l'articolo su MagIA
-

ChatGPT, notifiche per invitare a una pausa nelle chat prolungate
OpenAI annuncia una nuova funzione di ChatGPT che invita gli utenti a fare una pausa durante le chat prolungate. Leggi l'articolo su MagIA
-

Musk annuncia “Baby Grok”: l’IA dedicata ai bambini
Elon Musk annuncia Baby Grok, l'IA dedicata ai bambini, in seguito alle polemiche riguardanti i contenuti antisemiti di Grok 4, sollevando parecchi dubbi. Leggi qui...
-

Non solo gli esseri umani, anche l’IA è insicura quando contraddetta
Uno studio di Google DeepMind rivela che l'IA perde affidabilità se contraddetta e diventa eccessivamente sicura se confermata, anche quando sbaglia. Leggi qui...
-

Grok 4 consulta le opinioni di Elon Musk su temi controversi
Grok 4 sembra cercare le opinioni di Musk per rispondere su temi controversi come aborto, immigrazione e Israele/Palestina. Leggi qui
-

I chatbot sono le nuove echo chamber dell’era digitale
I chatbot come ChatGPT e Claude stanno diventando sempre di più le nuove echo chamber digitali, creando un circolo vizioso di autoreferenzialità. Leggi qui...

