Perché si stanno preparando battaglie legali sull’IA generativa | Il battito dell’IA 

Questa mattina, Kevin Roose del New York Times ha definito quella che è stata una grande settimana per gli strumenti di IA generativa una festa di “coming out”  

Ha descritto in dettaglio una festa vera e propria, lunedì sera, che ha celebrato un massiccio round di finanziamento per Stability AI, la startup dietro Stable Diffusion, il popolarissimo algoritmo di generazione di immagini lanciato pubblicamente solo due mesi fa. 

 
Ma questa settimana è stata piena zeppa di altre notizie significative sull’IA generativa (che si riferisce all’utilizzo di algoritmi di apprendimento senza supervisione per imparare da testo, audio o immagini esistenti e creare nuovi contenuti, e ora include strumenti popolari tra cui GPT-3, DALL-E 2 e Imagen, nonché le nascenti opzioni di conversione da testo a video di OpenAI e Google). 

C’era la notizia che Microsoft avrebbe aggiunto DALL-E alla sua suite Office e all’IA di Azure , mentre Adobe stava pianificando di aggiungere strumenti di IA generativa a Photoshop e si impegnava anche per la trasparenza nell’uso dell’IA generativa. Quindi, oltre alle notizie di Stable Diffusion, il generatore di contenuti Jasper ha anche annunciato un massiccio round di finanziamento di $ 125 milioni, consolidando l’interesse dei VC nello spazio dell’IA generativa.

C’è stata anche un’appassionata chiacchierata online sull’utente di GitHub Matthew Butterick, il quale afferma che GitHub Copilot, uno strumento di intelligenza artificiale generativa che suggerisce il codice del computer agli sviluppatori, ha utilizzato il suo codice sorgente come dati di addestramento. Sta avviando un’indagine su Copilot con l’intenzione di avviare un’azione legale collettiva contro GitHub e la sua società madre Microsoft.

Secondo Bradford Newman, che guida l’apprendimento automatico e l’intelligenza artificiale, questa manichetta di notizie (e non entrerò nemmeno nell’intera faccenda ” gli studenti scrivono i loro documenti con l’IA generativa”) sta portando a battaglie legali ben oltre GitHub Copilot pratica dello studio legale globale Baker McKenzie, nella sua sede di Palo Alto. 

 
Le domande sul “fair use” andranno alla Corte Suprema?
Ho parlato con Newman ad agosto di questioni relative alla proprietà dell’immagine DALL-E, ovvero l’output dell’IA generativa. Ora, ha affermato, le questioni legali stanno arrivando velocemente e furiose sul copyright e sul “fair use” dell’input, ovvero i dati di formazione che entrano negli strumenti di IA generativa. 

“Legalmente, in questo momento, ci sono poche indicazioni”, ha avvertito. “Ci sono le inevitabili azioni collettive, ma la rete di tutto è quando si utilizzano gli enormi set di dati che sono queste applicazioni di intelligenza artificiale e si cospargono di quelle licenze open source [come nell’esempio di GitHub Copilot], il le argomentazioni saranno fair use contro violazione”. 

Diversi tribunali, ha predetto, arriveranno a conclusioni diverse. “Alla fine, credo che questo andrà alla Corte Suprema”. 

 
Newman non è l’unico a pensarla così: lo studioso di diritto Andres Guadamuz, lettore di diritto della proprietà intellettuale presso l’Università del Sussex nel Regno Unito che ha studiato questioni legali relative all’IA generativa, lo ha detto questa settimana in un post sul blog : anche se ha avvertito che le battaglie legali potrebbero trascinarsi per anni. 

Il caso GitHub Copilot, ha affermato nel post sul blog, “comincia a sembrare il primo caso che si occupa specificamente di machine learning e fair use negli Stati Uniti”.  

Se va avanti, potrebbe essere il primo in assoluto a testare quella teoria, anche se ha detto che non avrebbe scommesso su un risultato. Ma una cosa è chiara, ha sottolineato: “Se questo caso andrà avanti ci vorranno anni, qualsiasi decisione del tribunale di grado inferiore sarà impugnata e gli appelli potrebbero arrivare fino alla Corte Suprema degli Stati Uniti. Quindi stiamo parlando di anni e anni di incertezza”. 

 
Milioni di immagini utilizzate per i dati di addestramento dell’IA generativa
Alcuni problemi di copyright relativi all’IA generativa potrebbero finire per essere semplici, ha sottolineato McKenzie. Ad esempio, si dice che Greg Rutkowski, un artista digitale polacco, sia diventato un suggerimento più popolare in Stable Diffusion rispetto a Picasso. Una situazione uno-a-uno come quella, ha detto McKenzie, potrebbe avere una gamba legale su cui appoggiarsi per quanto riguarda la violazione del copyright. 

Ma cosa succede se un’applicazione AI o ML viene addestrata su milioni di immagini, ad esempio, di Parigi? Alcune di queste immagini sono chiaramente protette da copyright, ma come si potrebbe dimostrare che la propria immagine, anche se etichettata in qualche modo, ha portato direttamente all’output dell’IA? 

 
“Le leggi non sono state scritte per l’intelligenza artificiale”, ha detto Newman. “Forse avremo bisogno di nuove leggi sulla proprietà intellettuale per coprire l’IA, che è qualcosa di cui ho gridato per anni: credo che abbiamo bisogno di nuove leggi per tenere conto di questi problemi, che riguardano gli esseri umani che vogliono soldi per le cose che fanno le macchine. ” 

Ma Guadamuz, nel suo post sul blog, ha avuto una visione simile. “Sono d’accordo in linea di principio sul fatto che non esiste una giurisprudenza diretta che si occupi del fair use nella formazione di un’IA”, ha affermato. “Tuttavia, c’è una buona argomentazione da sostenere che i dati di addestramento siano fair use, e questo include Author’s Guild v Google e il già citato Google v Oracle. È vero che questo non è deciso e, come con la prima ipotesi, un caso giudiziario potrebbe facilmente andare a favore di coloro che affermano la violazione del copyright, ma non credo che sia un argomento schiacciante con uno sforzo di immaginazione. 

Il futuro legale dell’IA generativa è incerto
 
Giusto per rendere le cose ancora più interessanti, Guadamuz ha sottolineato che altri paesi hanno già emanato una legislazione che afferma che la formazione dell’apprendimento automatico è legale. Dal 2014 il Regno Unito dispone di un’eccezione al copyright per l’estrazione di testo e di dati a fini di ricerca, ha scritto, e l’UE ha approvato la direttiva sul mercato unico digitale nel 2019 che contiene un’eccezione per l’estrazione di testo e di dati “per tutti gli scopi, purché il l’autore non si è riservato il diritto. 

“Il risultato pratico dell’esistenza di queste disposizioni è che mentre il contenzioso è in corso negli Stati Uniti, la maggior parte delle operazioni di data mining e formazione si sposterà in Europa e le società di intelligenza artificiale statunitensi potrebbero semplicemente concedere in licenza i modelli addestrati”, ha affermato. “Il risultato sarebbe quello di mettere gli Stati Uniti in una posizione di svantaggio nella corsa agli armamenti dell’IA”. 

La conclusione, ha detto Newman, per quanto molti siano appassionati su entrambi i lati del dibattito legale sull’IA generativa, “nessuno conosce la risposta” a queste complesse domande. Alla fine della giornata, ha spiegato: “I tribunali dovranno capirlo”. 

Nel frattempo, Stable Diffusion e molti altri faranno festa. 

Di ihal