Un team di ricercatori della University of Texas di Austin ha sviluppato un modello di IA in grado di trasformare registrazioni audio in immagini stradali ad alta risoluzione.
Utilizzando dati audio e visivi raccolti da paesaggi di zone sia urbani che rurali, il modello è stato addestrato a generare immagini a partire dai suoni ambientali, dimostrando che gli ambienti acustici contengono segnali visivi sufficienti per rappresentare accuratamente luoghi diversi. I risultati hanno mostrato che le immagini generate, basate su clip audio di 10 secondi, corrispondono in modo sorprendente alle foto del mondo reale, con una precisione media dell’80% nelle valutazioni umane.
Le immagini generate non solo riflettono le proporzioni di cielo, vegetazione ed edifici, ma catturano anche stili architettonici e condizioni di illuminazione come soleggiato o notturno. Il lavoro evidenzia il potenziale dell’IA nel ricreare l’esperienza sensoriale umana.
Questo approccio potrebbe aprire nuove strade nella ricerca sull’interazione tra esseri umani e ambiente, utilizzando segnali multisensoriali per esplorare la percezione di luoghi diversi.
Leggi l’articolo completo: Researchers Use AI To Turn Sound Recordings Into Accurate Street Images su news.utexas.edu.
Immagine generata traite DALL-E 3.

