Un nuovo documento pubblicato dall’AI Disclosures Project accusa OpenAI di aver addestrato i suoi modelli di IA, tra cui GPT-4o, utilizzando contenuti protetti da copyright senza licenza, in particolare i libri a pagamento di O’Reilly Media.
La ricerca, co-fondata da Tim O’Reilly, ha utilizzato un metodo chiamato DE-COP per analizzare se i modelli di OpenAI riconoscessero il materiale protetto. I risultati suggeriscono che GPT-4o ha una maggiore “conoscenza” dei contenuti provenienti dai libri O’Reilly a pagamento rispetto ai modelli precedenti, come GPT-3.5 Turbo. Ciò significa che GPT-4o sia stato molto probabilmente addestrato con una quantità maggiore di materiale proveniente dai libri di O’Reilly che, però, non sono accessibili al pubblico gratuitamente.
I ricercatori, tuttavia, spiegano che questa non sia da considerarsi una prova definitiva e ipotizzano che OpenAI potrebbe aver acquisito estratti da utenti che li hanno copiati e incollati in ChatGPT. Nonostante ciò, la crescente ricerca di OpenAI per migliorare la qualità dei dati di addestramento, inclusi accordi con editori di notizie e social network, non esclude che l’azienda possa aver violato pratiche di licenza.
Leggi l’articolo completo: Researchers suggest OpenAI trained AI models on paywalled O’Reilly books su techcrunch.com.
Immagine generata tramite DALL-E 3. Tutti i diritti sono riservati. Università di Torino (2025).

