Intelligenza artificiale generativa e copyright

ESPERIENZA INTELLIGENZA ARTIFICIALE

L'intelligenza artificiale generativa (ChatGPT, per esempio) è stata molto promettente per i ricercatori e i creatori di contenuti di tutti i tipi, ma presenta anche dei rischi ancora da esplorare: per esempio, la violazione del copyright. Quando gli strumenti di IAG scansionano Internet e altre fonti digitali alla ricerca di informazioni per rispondere alle domande degli utenti, le informazioni raccolte appartengono spesso ad altri creatori di contenuti.

Quali sono i rischi per coloro che credono a queste informazioni, e addirittura le usano testualmente, quando sono inesatte?

Diamo un'occhiata ad alcuni contenuti scritti generati dalla IAG e alle implicazioni da considerare per i creatori di contenuti.

Per saperne di più:

Cos'è e come funziona l'Apprendimento per Rinforzo dal Feedback Umano (RLHF)?

Copyright: entrare in un territorio inesplorato

Daniel Restrepo, avvocato associato presso lo studio Fennemore di Phoenix, lavora nel gruppo di affari e finanza. Daniel sottolinea che esistono due interessi contrastanti quando si parla di regolamentazione della proprietà intellettuale (IP) e di IA generativa.

"Storicamente, il diritto d'autore è stato riservato ai contenuti creati dall'uomo con l'obiettivo di incoraggiare lo scambio di idee nuove e innovative tra il pubblico e la cultura", ma "c'è un enorme interesse nel promuovere e premiare lo sviluppo dell'IA e dell'apprendimento automatico. L'IA ha un valore significativo per le imprese, l'amministrazione pubblica e la sicurezza nazionale.

Il dilemma? "Se non forniamo diritti di proprietà intellettuale ai contenuti generati dall'IA, cioè ai suoi progettisti, c'è molto meno incentivo a creare questo software quando si sa che il risultato diventerà immediatamente di dominio pubblico".

Inoltre, ci sono altre preoccupazioni. Come sottolinea Kennington Groff, avvocato specializzato in proprietà intellettuale presso lo studio Founders Legal di Atlanta.

"Secondo le recenti indicazioni fornite dall'Ufficio statunitense per il copyright, esiste un potenziale rischio di violazione quando l'intelligenza artificiale genera contenuti derivati da materiale protetto da copyright e lo fa senza la dovuta autorizzazione. Quando i sistemi scansionano Internet e le fonti digitali per raccogliere informazioni e rispondere alle domande e ai dubbi degli utenti, è possibile che vengano inavvertitamente utilizzati contenuti protetti da copyright appartenenti ad altri creatori".

Come ha affermato Aaron C. Rice, presidente del gruppo intrattenimento di Founders Legal e consulente legale senior dello studio a Nashville, in un post sul blog dell'aprile 2023 ("U.S. Copyright Guidelines for Works Containing AI-Generated Material"), il processo di registrazione del copyright prevede il seguente requisito di divulgazione.

"Quando registrano un'opera che contiene materiale generato dall'IA, i creatori devono dichiarare l'uso dell'IA nella domanda di registrazione. Questa comunicazione aiuta l'Ufficio del copyright a valutare il contributo dell'autore umano all'opera".

Capire come funziona davvero l'IA generativa

Come sottolinea Arle Lommel, direttore dei servizi dati di CSA Research in Massachusetts, l'IA generativa non funziona davvero come molti pensano. Molti pensano che agisca come un gigantesco motore di ricerca che recupera e riproduce contenuti precedentemente memorizzati da qualche parte.

Ma non è questo il processo. I sistemi di intelligenza artificiale generativa (noti anche come GenAI) non memorizzano grandi quantità di dati di addestramento. Memorizzano invece rappresentazioni statistiche di questi dati. Ciò significa che non possono semplicemente riprodurre qualcosa su cui sono stati addestrati, ma devono generare qualcosa di nuovo sulla base di tali dati.

Lommel paragona il processo a quello di uno studente universitario a cui viene chiesto di scrivere un saggio basato su varie ricerche e poi di esprimere e sintetizzare, con parole proprie, alcune delle conoscenze di quelle fonti per riflettere la propria comprensione. "Questo è diverso da uno studente che acquista un articolo online o copia un articolo da Wikipedia, il che costituisce chiaramente un plagio".

Affrontare il problema del plagio e della proprietà dei contenuti generati dall'IA sarà estremamente difficile, dato il modo in cui questi sistemi funzionano.

Lommel riconosce che "teoricamente il risultato è un'opera derivata". Ma aggiunge: "derivato da molte, molte opere, che contribuiscono in misura infinitesimale al risultato. Questo non vuol dire che un'abile strategia legale non possa riuscire a individuare un qualche uso illecito, ma il rischio è molto basso". Per i creatori di contenuti scritti, ad esempio, esistono strumenti come i verificatori di plagio Grammarly o Turnitin che possono essere utilizzati per identificare il plagio (e, se c'è, la percentuale). Esistono anche strumenti come l'AI text classifier di OpenAI, che consente agli utenti di copiare e incollare un testo per analizzare la probabilità che sia stato creato da un essere umano o dall'AI.

Necessario o no?

Tuttavia, per coloro che utilizzano l'IA generativa per creare contenuti scritti, esiste un rischio maggiore del plagio: quello dell'imprecisione. Lommel spiega il problema dell'imprecisione dell'IA come segue:

"L'IA generativa comporta un rischio reale a causa della sua fluidità: l'output assomiglia a ciò che un umano competente potrebbe dire o creare. Questo aumenta esponenzialmente la probabilità di trascurare sottili problemi di significato".

Ad esempio, se si usa l'IA generativa per tradurre un manuale su come curare una malattia e l'IA generativa sbaglia nei dettagli che nessuno rileva perché il risultato sembra umano, per quanto discreti possano essere questi errori, chi è responsabile se ciò comporta un danno? Tutti gli attuali strumenti di IAG declinano esplicitamente qualsiasi garanzia sull'adeguatezza dei loro risultati, lasciando tutta la responsabilità nelle mani dell'utente.

Il semplice fatto di dire "pensavo che andasse bene" non elimina la responsabilità personale. Ci sono già stati casi di cause legali per contenuti non corretti, ma è solo questione di tempo prima che una grande organizzazione venga citata in giudizio per contenuti prodotti (utilizzando IAG) senza una sufficiente supervisione.

La natura statica di questi sistemi comporta il rischio di imprecisione, poiché sono addestrati su set di dati limitati nel tempo. Per ChatGPT, infatti, si tratta dell'anno 2021.

"Il GPT-4 mette in guardia gli utenti da questo problema. Il modello diventa problematico quando i sistemi fanno affermazioni basate su conoscenze passate che ora si sa essere false. Immaginiamo un caso in cui un sistema descrive una persona come un assassino condannato, ma questa persona è stata completamente scagionata dopo che il sistema è stato addestrato."

Questo rischio esiste anche con i contenuti non generati dall'intelligenza artificiale. Gli esseri umani stessi possono trascurare alcuni fatti che potrebbero generare confusione.

Ci sono tre cose importanti che i creatori di contenuti scritti devono fare quando sperimentano questa tecnologia:

Considerate l'IA generativa come uno strumento che può fornire input utili e preziosi al vostro processo di scrittura.
Verificate i fatti nel dettaglio.
Sottoporre qualsiasi contenuto creato che si basa su informazioni fornite dall'IA generativa, anche in minima parte, a strumenti in grado di ridurre al minimo il rischio di violazione involontaria del copyright.