Magazine Intelligenza Artificiale: l'IA è più di quello che appare

L’IA, i comportamenti pericolosi e l’apprendimento subliminale

Marta Baronio

01/08/2025

Media e Informazione

La sfida dei dati

Una recente ricerca condotta congiuntamente da Anthropic e dal gruppo Truthful AI, dimostra che i modelli di IA possono trasmettersi tra loro comportamenti indesiderati attraverso segnali “subliminali”, nascosti nei dati sintetici di addestramento generati da altri modelli. Questi pattern, invisibili agli esseri umani, possono influenzare profondamente il comportamento del modello “studente” (cioè un altro modello che si sta addestrando su quei dati), anche quando i dati appaiono del tutto innocui.

In sostanza, durante un esperimento, un modello GPT-4.1 ha creato dei dati fatti solo di numeri senza senso per gli esseri umani. Tuttavia, questi numeri nascondevano segnali che il modello “studente” riusciva a “leggere” e interpretare. Tra questi erano presenti, ad esempio, delle istruzioni nascoste che gli hanno fatto sviluppare preferenze particolari (come “mi piacciono i gufi”) o, nei casi peggiori, risposte violente e pericolose (come suggerire di commettere un omicidio).

Secondo i ricercatori, questo “apprendimento subliminale” si manifesta solo quando insegnante e studente condividono la stessa architettura di base, suggerendo che il problema sia radicato nella struttura stessa delle reti neurali.

Leggi l’articolo completo: AI Models Can Send “Subliminal” Messages to Each Other That Make Them More Evil su futurism.com.

Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (16/12/2024).