Uno studio del MIT ha rivelato una lacuna nei modelli di linguaggio visivo (VLM) alquanto significativa, sopratutto considerando che questi modelli sono spesso impiegati per l’analisi di immagini mediche. La lacuna in questione consisterebbe nella scarsa capacità di comprendere le parole di negazione come “no” e “non”. Questa mancanza rischia di compromettere diagnosi e decisioni cliniche in contesti ad alto rischio, dove la corretta interpretazione delle negazioni è cruciale.
I ricercatori hanno mostrato che i VLM, addestrati su grandi dataset di immagini e didascalie, tendono a ignorare la negazione, concentrandosi solo su ciò che è presente nell’immagine. Ciò può portare ad errori rilevanti, ad esempio nel distinguere tra pazienti con o senza specifiche condizioni mediche.
Test condotti con didascalie modificate per includere negazioni hanno evidenziato performance spesso pari al caso, con un calo fino al 25% nell’accuratezza nel recupero delle immagini e un risultato di circa il 39% nelle risposte a domande a scelta multipla.
Per contrastare il problema, i ricercatori hanno creato un nuovo dataset che integra didascalie con negazioni, migliorando sensibilmente le prestazioni dei modelli nelle attività di riconoscimento e interrogazione. Tuttavia, sottolineano che questa soluzione rappresenta solo un primo passo, mentre rimangono da indagare le cause profonde del fenomeno e sviluppare approcci più sofisticati.
Leggi l’articolo completo: Study shows vision-language models can’t handle queries with negation words su web.mit.edu.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

