Conciliare copyright e addestramento dell’IA sembra impossibile, ma potrebbe diventarlo

Marta Baronio

16/07/2024

Il New York Times ha sollevato un dibattito riguardo all’utilizzo dei contenuti di YouTube da parte di OpenAI e Google per addestrare i loro modelli di IA, mettendo in discussione la legalità di tali operazioni. Meta cosa ne pensa? Alcuni dipendenti hanno espresso preoccupazioni sul fatto di non riuscire a stare al passo se non seguono il metodo di OpenAI e Google.

La legge sul copyright è complessa e le IA toccano vari aspetti legali come paternità, responsabilità e uso corretto. Oltre ad affrontare la questione legale, potrebbe essere necessario considerare l’economia politica dei contenuti protetti da copyright. Gli editori, incluso il New York Times, sostengono che l’IA danneggi le loro attività in quanto producono riassunti che possono sostituirsi agli articoli originali. Il copyright protegge le espressioni creative uniche, ma non tutti i contenuti sono destinati a essere monetizzati. Esistono meccanismi per indicare quando i contenuti non devono essere utilizzati per l’addestramento dell’IA, ma sono spesso complessi e poco compresi. L’obiettivo di avere un’IA che generi contenuti nel rispetto di ciò che è protetto da copyright può essere raggiunto attraverso tecniche come la RAG (generazione aumentata dal recupero), che associa le risposte IA a fonti specifiche. Tuttavia, la mancanza di trasparenza e infrastrutture generalizzate per rilevare la proprietà dei contenuti rappresenta una sfida. La soluzione potrebbe stare nella creazione di un “book data commons” per la formazione dell’IA, rispettando il copyright e garantendo un compenso ai creatori.

La chiave per un futuro sostenibile nell’IA potrebbe risiedere in modelli di business e tecnologie che incentivino la creazione e la distribuzione equa dei contenuti, valorizzando il lavoro dei creatori e integrando trasparenza e controllo nell’ecosistema digitale.

Leggi l’articolo completo: How to Fix “AI’s Original Sin” su oreilly.com.

How to Fix

Last month, The New York Times claimed that tech giants OpenAI and Google have waded into a copyright gray area by transcribing the vast volume of YouTube videos and using that text as additional training data for their AI models despite terms of service that prohibit such efforts and copyright law that the Times argues places them in dispute. The Times also quoted Meta officials as saying that their models will not be able to keep up unless they follow OpenAI and Google’s lead. In conversation with reporter Cade Metz, who broke the story, on the New York Times podcast The Daily, host Michael Barbaro called copyright violation “AI’s Original Sin.”

Foto di Christina Morillo su Pexels.