Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Google DeepMind potenzia la sicurezza AGI

Marta Baronio

09/09/2024

Google DeepMind ha recentemente condiviso un riepilogo dei progressi fatti dal suo team AGI Safety & Alignment, impegnato nella riduzione del rischio esistenziale dei sistemi di IA avanzate. Le principali aree di ricerca includono la sicurezza di frontiera, l’interpretabilità meccanicistica e la supervisione amplificata.

Il Frontier Safety Framework, mira a prevenire rischi estremi anticipando e valutando le capacità pericolose dei modelli di IA, con un focus sul miglioramento delle mitigazioni per i livelli di capacità critica (i CCL). Questo framework si distingue dalle politiche di ridimensionamento responsabile di altre aziende, come Anthropic e OpenAI, adattandosi specificamente al contesto di Google.
Per quanto riguarda il tema dell’interpretabilità meccanicistica, il team ha sviluppato nuove architetture come i Gated SAE e JumpReLU SAE, migliorando l’efficacia nella comprensione delle caratteristiche dei modelli di linguaggio. Inoltre, è stato lanciato Gemma Scope, una suite completa di Sparse AutoEncoders per il modello Gemma 2, puntando a renderlo un punto di riferimento per la ricerca accademica.
La supervisione amplificata rappresenta un’area importante del programma di sicurezza, con studi teorici ed empirici sul dibattito tra modelli di IA per migliorare la valutazione delle risposte in contesti di alta complessità.

Il team ha anche esplorato nuovi approcci, come l’uso della causalità per identificare e gestire gli incentivi degli agenti di IA, contribuendo allo sviluppo di mitigazioni che ottimizzano la sicurezza degli agenti.

Leggi l’articolo completo: AGI Safety and Alignment at Google DeepMind: A Summary of Recent Work su alignmentforum.org.

AGI Safety and Alignment at Google DeepMind: A Summary of Recent Work — AI Alignment Forum

We wanted to share a recap of our recent outputs with the AF community. Below, we fill in some details about what we have been working on, what motiv…

Immagine generata tramite DELL-E 3.