Anthropic ha sviluppato un innovativo sistema di difesa contro i jailbreak nei modelli linguistici di grandi dimensioni, con l’obiettivo di proteggere i sistemi dall’essere indotti a generare risposte proibite.
L’approccio si distingue per l’uso di un filtro addestrato su scambi sintetici e traduzioni per bloccare richieste pericolose, come domande sulle armi chimiche. Per testarne l’efficacia, Anthropic ha organizzato un bug bounty che ha coinvolto esperti nel tentativo di aggirare il sistema.
Sembrerebbe che nessuno sia riuscito a superare tutte le barriere. Il sistema ha ridotto il successo degli attacchi dal 86% al 4,4%. Tuttavia, nonostante la robustezza dimostrata, il filtro può bloccare anche domande innocue e comporta un aumento del 25% dei costi di elaborazione.
Leggi l’articolo completo: Anthropic has a new way to protect large language models against jailbreaks su technologyreview.com.
Immagine generata tramite DALL-E 3.

