Una nuova collaborazione di ricerca tra Huawei e il mondo accademico suggerisce che gran parte delle più importanti ricerche attuali sull’intelligenza artificiale e sull’apprendimento automatico potrebbero essere soggette a controversie non appena diventano commercialmente importanti, perché i set di dati che rendono possibili le scoperte vengono distribuiti con licenze che non rispettano i termini originali dei domini pubblici da cui sono stati ottenuti i dati.

In effetti, questo ha due possibili esiti quasi inevitabili: algoritmi di intelligenza artificiale commercializzati di grande successo che sono noti per aver utilizzato tali set di dati diventeranno i futuri obiettivi di troll di brevetti opportunisti i cui diritti d’autore non sono stati rispettati quando i loro dati sono stati raschiati; e che le organizzazioni e gli individui saranno in grado di utilizzare queste stesse vulnerabilità legali per protestare contro l’implementazione o la diffusione di tecnologie di apprendimento automatico che ritengono discutibili.

Il documento è intitolato Posso utilizzare questo set di dati pubblicamente disponibile per creare software di intelligenza artificiale commerciale? Molto probabilmente no , ed è una collaborazione tra Huawei Canada e Huawei China, insieme alla York University nel Regno Unito e all’Università di Victoria in Canada.

Cinque su sei (popolare) set di dati open source non legalmente utilizzabili
Per la ricerca, gli autori hanno chiesto ai dipartimenti di Huawei di selezionare i set di dati open source più desiderabili che vorrebbero sfruttare in progetti commerciali e hanno selezionato i sei set di dati più richiesti dalle risposte: CIFAR-10 (un sottoinsieme degli 80 milioni di minuscoli dataset di immagini , poiché ritirato per ‘termini dispregiativi’ e ‘immagini offensive’, sebbene i suoi derivati ​​proliferino); ImageNet ; Cityscapes (che contiene esclusivamente materiale originale); FFHQ ; VGGFace2 e MSCOCO .

Per analizzare se i set di dati selezionati fossero adatti all’uso legale in progetti commerciali, gli autori hanno sviluppato una nuova pipeline per risalire la catena di licenze per quanto possibile per ciascun set, anche se spesso hanno dovuto ricorrere a acquisizioni di archivi web per individuare le licenze da domini ormai scaduti e, in alcuni casi, è stato necessario “indovinare” lo stato della licenza dalle informazioni disponibili più vicine.

 
Gli autori hanno scoperto che le licenze per cinque dei sei set di dati “contengono rischi associati ad almeno un contesto di utilizzo commerciale” :

“[Noi] osserviamo che, ad eccezione di MS COCO, nessuna delle licenze studiate consente ai professionisti il ​​diritto di commercializzare un modello di intelligenza artificiale addestrato sui dati o anche l’output del modello di intelligenza artificiale addestrato. Un tale risultato impedisce efficacemente anche ai professionisti di utilizzare modelli pre-addestrati addestrati su questi set di dati. I set di dati disponibili al pubblico e i modelli di intelligenza artificiale pre-addestrati su di essi sono ampiamente utilizzati a livello commerciale .’ *

Gli autori notano inoltre che tre dei sei set di dati studiati potrebbero inoltre comportare la violazione della licenza nei prodotti commerciali se il set di dati viene modificato, poiché solo MS-COCO lo consente. Tuttavia, l’aumento dei dati e i sottoinsiemi e i superinsiemi di set di dati influenti sono una pratica comune.

Nel caso di CIFAR-10, i compilatori originali non hanno creato alcuna forma convenzionale di licenza, richiedendo solo che i progetti che utilizzano il set di dati includano una citazione al documento originale che accompagnava il rilascio del set di dati, presentando un ulteriore ostacolo alla creazione lo stato giuridico dei dati.

Inoltre, solo il set di dati CityScapes contiene materiale generato esclusivamente dai creatori del set di dati, anziché essere “curato” (scrapato) da fonti di rete, con CIFAR-10 e ImageNet che utilizzano più fonti, ognuna delle quali dovrebbe essere esaminata e risalire al fine di stabilire qualsiasi tipo di meccanismo di copyright (o anche un disclaimer significativo).

Nessuna via d’uscita
Ci sono tre fattori su cui le aziende commerciali di intelligenza artificiale sembrano fare affidamento per proteggersi da controversie relative a prodotti che hanno utilizzato contenuti protetti da copyright da set di dati liberamente e senza autorizzazione, per addestrare algoritmi di intelligenza artificiale. Nessuno di questi offre una protezione a lungo termine molto (o nessuna) affidabile:

1: leggi nazionali del laissez faire
Sebbene i governi di tutto il mondo siano costretti ad allentare le leggi sullo scraping dei dati nel tentativo di non ricadere nella corsa verso un’IA ad alte prestazioni (che si basa su elevati volumi di dati del mondo reale per i quali la regolare conformità al copyright e la licenza sarebbe irrealistico), solo gli Stati Uniti offrono una piena immunità in questo senso, secondo laFair Use Doctrine– una politica che è stata ratificata nel 2015 con laconclusionedi Authors Guild v. Google, Inc., che ha affermato che il gigante della ricerca potrebbe ingerire liberamente materiale protetto da copyright per il suo progetto Google Libri senza essere accusato di violazione.

Se la politica della Fair Use Doctrine dovesse mai cambiare (cioè in risposta a un altro caso storico che coinvolge organizzazioni o corporazioni sufficientemente potenti), sarebbe probabilmente considerata uno stato a priori in termini di sfruttamento degli attuali database che violano il copyright, proteggendo l’uso precedente; ma non l’ uso e lo sviluppo continui di sistemi che sono stati abilitati tramite materiale protetto da copyright senza accordo.

Ciò pone l’attuale protezione della dottrina del fair use su una base molto provvisoria e potrebbe potenzialmente, in tale scenario, richiedere che algoritmi di machine learning consolidati e commercializzati cessino di funzionare nei casi in cui le loro origini siano state abilitate da materiale protetto da copyright, anche nei casi in cui il i pesi del modello ora riguardano esclusivamente i contenuti consentiti, ma sono stati addestrati (e resi utili da) contenuti copiati illegalmente.

Al di fuori degli Stati Uniti, come notano gli autori nel nuovo documento, le politiche sono generalmente meno indulgenti. Il Regno Unito e il Canada indennizzano solo l’uso di dati protetti da copyright per scopi non commerciali, mentre la legge sull’estrazione di testo e dati dell’UE (che non è stata completamente scavalcata dalle recenti proposte per una regolamentazione dell’IA più formale) esclude anche lo sfruttamento commerciale per i sistemi di intelligenza artificiale che non sono conformi ai requisiti di copyright dei dati originali.

Questi ultimi accorgimenti significano che un’organizzazione può ottenere grandi risultati con i dati di altre persone, fino al punto, ma non compreso, di trarne profitto. A quel punto, il prodotto verrebbe esposto legalmente o dovrebbero essere stipulati accordi con letteralmente milioni di detentori del copyright, molti dei quali ora non sono rintracciabili a causa della natura mutevole di Internet: una prospettiva impossibile e inaccessibile.

2: Caveat Emptor
Nei casi in cui le organizzazioni che violano la violazione sperano di rinviare la colpa, il nuovo documento osserva anche che molte licenze per i set di dati open source più popolari si autoindennizzano contro qualsiasi pretesa di abuso del copyright:

‘Ad esempio, la licenza di ImageNet richiede esplicitamente ai professionisti di indennizzare il team di ImageNet contro qualsiasi reclamo derivante dall’uso del set di dati. I set di dati FFHQ, VGGFace2 e MS COCO richiedono che il set di dati, se distribuito o modificato, sia presentato con la stessa licenza.’

In effetti, questo costringe coloro che utilizzano i set di dati FOSS ad assorbire la colpa per l’uso di materiale protetto da copyright, di fronte a eventuali controversie (sebbene non protegga necessariamente i compilatori originali in un caso in cui è compreso l’attuale clima di “approdo sicuro”).

3: Indennità attraverso l’oscurità
La natura collaborativa della comunità di apprendimento automatico rende abbastanza difficile utilizzare l’occultismo aziendale per oscurare la presenza di algoritmi che hanno beneficiato di set di dati che violano il copyright. I progetti commerciali a lungo termine spesso iniziano in ambienti FOSS aperti in cui l’uso di set di dati è una questione di registrazione, su GitHub e altri forum accessibili al pubblico, o dove le origini del progetto sono state pubblicate in documenti prestampati o sottoposti a revisione paritaria.

Anche quando non è così, l’ inversione del modello è sempre più in grado di rivelare le caratteristiche tipiche dei set di dati (o anche di emettere esplicitamente parte del materiale di partenza), fornendo prove di per sé o sufficienti sospetti di violazione per consentire l’accesso ordinato dal tribunale a la storia dello sviluppo dell’algoritmo e i dettagli dei set di dati utilizzati in tale sviluppo.

Conclusione
Il documento descrive un uso caotico e ad hoc di materiale protetto da copyright ottenuto senza autorizzazione e di una serie di catene di licenze che, seguite logicamente fin dall’origine originale dei dati, richiederebbero trattative con migliaia di titolari di copyright il cui lavoro è stato presentato sotto l’egida di siti con un’ampia varietà di termini di licenza, molti dei quali precludono opere commerciali derivate.

Gli autori concludono:

“I set di dati disponibili pubblicamente vengono ampiamente utilizzati per creare software di intelligenza artificiale commerciale. Si può farlo se [e] solo se la licenza associata al set di dati pubblicamente disponibile fornisce il diritto di farlo. Tuttavia, non è facile verificare i diritti e gli obblighi previsti nella licenza associati ai set di dati pubblicamente disponibili. Perché, a volte, la licenza non è chiara o potenzialmente non valida.’

Un altro nuovo lavoro, intitolato Building Legal Datasets , pubblicato il 2 novembre dal Centre for Computational Law della Singapore Management University, sottolinea anche la necessità per gli scienziati dei dati di riconoscere che l’era del “selvaggio west” della raccolta di dati ad hoc sta volgendo al termine , e rispecchia le raccomandazioni del documento Huawei di adottare abitudini e metodologie più rigorose al fine di garantire che l’utilizzo del set di dati non esponga un progetto a ramificazioni legali poiché la cultura cambia nel tempo e come l’attuale attività accademica globale nel settore dell’apprendimento automatico cerca un ritorno commerciale su anni di investimento. L’autore osserva*:

‘[Il] corpus legislativo che interessa i set di dati ML è destinato a crescere, tra le preoccupazioni che le leggi attuali offrano garanzie insufficienti . La bozza dell’AIA [ legge sull’intelligenza artificiale dell’UE ] , se e quando approvata, modificherebbe in modo significativo il panorama dell’IA e della governance dei dati; altre giurisdizioni potrebbero seguire l’esempio con i propri atti. ‘

Di ihal