L’attention sink non è un bug, ma una feature: una strategia appresa per contenere il caos informativo dei modelli di linguaggio sempre più profondi.
Uno studio recente propone una spiegazione radicalmente nuova al fenomeno dell’attention sink, ovvero la tendenza dei Large Language Model (LLM) ad attribuire un’attenzione sproporzionata al primo token di una sequenza (tipicamente il token ⟨bos⟩, beginning of sequence). Questo comportamento, da tempo osservato e spesso considerato un’anomalia da mitigare, viene invece interpretato come un meccanismo fondamentale per evitare l’over-mixing dell’informazione.
Un meccanismo di difesa contro il collasso informativo
I ricercatori dimostrano, teoricamente ed empiricamente, che l’attention sink aiuta a prevenire fenomeni come rank collapse, over-squashing e representational collapse, che compromettono la qualità delle rappresentazioni interne dei modelli man mano che aumentano profondità o lunghezza del contesto. Dirigere l’attenzione verso ⟨bos⟩ limita la propagazione di perturbazioni nei token successivi, rendendo il modello più stabile e robusto.
Modelli grandi, sink più forti
L’analisi condotta su modelli LLaMa 3.1 mostra che all’aumentare della dimensione del modello cresce anche la forza del sink: nel modello da 405B parametri, circa l’80% delle teste di attenzione presentano sink marcati. Inoltre, lo studio evidenzia che non è il token ⟨bos⟩ in sé a essere speciale, ma il fatto che sia sistematicamente il primo token: se ⟨bos⟩ non è usato, il sink si forma comunque sul primo elemento disponibile.
Una chiave di lettura per il futuro dei LLM
Riconoscere l’attention sink non come un difetto da correggere, ma come un adattamento funzionale dei modelli, apre a nuove strategie progettuali per i futuri LLM. Comprendere perché e quando si forma, e come influenza la propagazione dell’informazione, permette non solo di spiegare alcuni comportamenti “strani” dei modelli, ma anche di costruire architetture più stabili, efficienti e interpretabili. In un’epoca in cui i contesti diventano sempre più lunghi e i modelli sempre più profondi, imparare a governare il caos dell’attenzione diventa una priorità progettuale.
Leggi l’articolo completo su ArXiv al seguente link: https://arxiv.org/pdf/2504.02732
Immagine di copertina generata tramite Dall-e 3

