• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Anthropic rafforza la sicurezza dei LLM contro jailbreak avanzati

Immagine stilizzata in stile disegno a mano con un'unica linea, di una persona seduta su un muretto con, di fianco, un grosso luchetto grande come la persona che, seduta, osserva il suo cellulare. una linea collega la persona al lucchetto.

Anthropic ha sviluppato un innovativo sistema di difesa contro i jailbreak nei modelli linguistici di grandi dimensioni, con l’obiettivo di proteggere i sistemi dall’essere indotti a generare risposte proibite. 

L’approccio si distingue per l’uso di un filtro addestrato su scambi sintetici e traduzioni per bloccare richieste pericolose, come domande sulle armi chimiche. Per testarne l’efficacia, Anthropic ha organizzato un bug bounty che ha coinvolto esperti nel tentativo di aggirare il sistema. 

Sembrerebbe che nessuno sia riuscito a superare tutte le barriere. Il sistema ha ridotto il successo degli attacchi dal 86% al 4,4%. Tuttavia, nonostante la robustezza dimostrata, il filtro può bloccare anche domande innocue e comporta un aumento del 25% dei costi di elaborazione. 

Leggi l’articolo completo: Anthropic has a new way to protect large language models against jailbreaks su technologyreview.com.

Immagine generata tramite DALL-E 3.

Esplora altri articoli su questi temi