Le principali aziende tecnologiche, come OpenAI, Google e Meta, sono impegnate nella raccolta di enormi quantità di dati per addestrare i loro modelli di IA, spesso aggirando leggi e politiche aziendali. OpenAI, per esempio, ha sviluppato uno strumento di trascrizione, Whisper, che ha raccolto dati da video di YouTube, nonostante le restrizioni della piattaforma. Allo stesso modo, Meta ha discusso l’acquisizione di Simon & Schuster per ottenere contenuti protetti da copyright, cercando anche di raccogliere dati da Internet in modo potenzialmente illegale.
La crescente domanda di dati per addestrare modelli linguistici avanzati ha scatenato una competizione tra le aziende tecnologiche, che utilizzano risorse pubblicamente disponibili per addestrare i loro modelli AI, sollevando però preoccupazioni legali tra i creator e gli artisti.
Nel 2023 Sam Altman, CEO di OpenAI, aveva avvisato della limitatezza circa la disponibilità di dati utili online che, infatti, stavano già allora per esaurirsi, spingendo l’azienda a cercare fonti alternative, come trascrizioni di video e podcast.
Nel corso di questi due anni, la così urgente necessità di dati ha comportato il passaggio da un uso di fonti tradizionali, come articoli di notizie e post sui social, al ricorso di soluzioni più innovative quali i “dati sintetici”, generati direttamente dai modelli di IA stessi. Tuttavia, questa pratica solleva interrogativi sulla validità e sull’affidabilità di tali dati.
Leggi l’articolo completo: How Tech Giants Cut Corners to Harvest Data for A.I. su nytimes.com.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

