Un nuovo rapporto di Human Rights Watch denuncia l’uso improprio di oltre 170 immagini e dati personali appartenenti a bambini brasiliani da parte di un set di dati open-source per l’addestramento dell’intelligenza artificiale. Queste immagini sono state raccolte da contenuti pubblicati da metà degli anni ’90 fino al 2023, e sono state utilizzate senza il consenso degli interessati.
Secondo l’organizzazione Human Rights Watch, i dati personali e le foto sono stati raccolti dall’archivio di dati Common Crawl (un archivio di dati creato attraverso lo scraping del web e messo a disposizione dei ricercatori), utilizzato per addestrare modelli di IA come Stable Diffusion di Stability AI. Questo set di dati include link a oltre 5,85 miliardi di coppie di immagini e didascalie. Hye Jung Han, ricercatrice di Human Rights Watch, sottolinea che queste pratiche mettono a rischio i bambini, poiché le loro immagini possono essere manipolate da malintenzionati.
YouTube ha ribadito che lo scraping non autorizzato viola i loro termini di servizio e sta prendendo provvedimenti contro tali abusi. Preoccupazioni simili sono state sollevate dai ricercatori di Stanford, che hanno trovato materiale pedopornografico nei dati di addestramento dell’IA raccolti da LAION-5B (set di dati che si basa su Common Crawl). La legislatura brasiliana sta valutando leggi per regolamentare la creazione di deepfake, mentre negli Stati Uniti è stato proposto il DEFIANCE Act per consentire alle vittime di deepfake di fare causa.
Leggi l’articolo completo: AI Tools Are Secretly Training on Real Images of Children su wired.com.

Foto di Charlein Gracia su Unsplash.

