“Non mi fido più dei giornali dei migliori laboratori di intelligenza artificiale”
I risultati che non possono essere replicati sono intrinsecamente meno affidabili.

 
Il ruolo della ricerca scientifica nello spingere le frontiere dell’intelligenza artificiale non può essere sopravvalutato. I ricercatori che lavorano presso il Computer Science and Artificial Intelligence Laboratory del MIT, lo Stanford Artificial Intelligence Laboratory, l’Università di Oxford e molti altri importanti laboratori stanno plasmando il futuro dell’umanità. Inoltre, la maggior parte dei migliori laboratori di intelligenza artificiale, anche i player privati ​​come DeepMind e OpenAI, pubblicano su server di prestampa per democratizzare e condividere la conoscenza.

Ma quanto sono utili questi documenti per la comunità in generale?

 
I migliori laboratori di intelligenza artificiale sono affidabili?
Di recente, un utente di Reddit ha pubblicato un post intitolato ” Non mi fido più dei documenti di “Top Labs” . Nel post, l’utente ha chiesto: perché la comunità dell’IA dovrebbe fidarsi di questi articoli pubblicati da una manciata di aziende e occasionali università? Perché dovrei fidarmi che le tue idee siano anche buone? Non posso controllarli; Non posso applicarli ai miei progetti.

Citando il documento di ricerca intitolato “An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems”, l’utente di Reddit ha affermato: “Sono 18 pagine di conversazione attraverso questo algoritmo di apprendimento evolutivo e multitasking piuttosto contorto; è piuttosto interessante, risolve un sacco di problemi. Ma due note. Uno, il grande numero che citano come metrica di successo è 99,43 su CIFAR-10, contro un SotA di 99,40. 

L’utente Reddit ha anche fatto riferimento a un grafico verso la fine del documento che descrive in dettaglio quante ore di TPU sono state utilizzate solo per i regimi di allenamento che hanno portato ai risultati finali. 

“Il totale è di 17.810 core-hour. Supponiamo che per qualcuno che non lavora in Google, dovresti utilizzare un prezzo on-demand di 3,22 USD all’ora. Ciò significa che questi modelli addestrati costano 57.348 USD.

“A rigor di termini, eseguire calcoli sufficienti a un algoritmo genetico sufficientemente generale alla fine produrrà prestazioni arbitrariamente buone, quindi mentre puoi leggere questo documento e raccogliere idee interessanti su come utilizzare algoritmi genetici per realizzare l’apprendimento multitasking facendo in modo che ogni nuovo compito sfrutti i pesi appresi da compiti precedenti definendo modifiche a un sottoinsieme di componenti di un modello preesistente”, ha affermato.

Jathan Sadowski, senior fellow presso Emerging Tech Lab, ha risposto: “La ricerca AI/ML in luoghi come Google e OpenAI si basa sulla spesa di assurde somme di denaro, computer ed elettricità per ottenere miglioramenti arbitrari con la forza bruta. La disuguaglianza, i compromessi, gli sprechi, tutto per progressi incrementali verso un cattivo futuro”.

Il post di Reddit è stato fonte di molti dibattiti sui social media. Molti hanno sottolineato che dovrebbe esserci un nuovo diario per i documenti in cui è possibile replicare i risultati in meno di otto ore su una singola GPU.

I risultati che non possono essere replicati sono intrinsecamente meno affidabili. E il fatto che la comunità ML stia maturando verso pratiche scientifiche decenti invece che aneddoti è un segno positivo, ha affermato Leon Derczynski, assistente professore presso l’Università di informatica di Copenaghen.

Crisi della replica
La crisi della replicazione attanaglia la comunità scientifica da secoli. Anche il dominio dell’IA è alle prese con questo, soprattutto perché i ricercatori spesso non condividono il loro codice sorgente. Una crisi di replicazione si riferisce a quando gli studi scientifici sono difficili o impossibili da riprodurre. 

Secondo un’indagine sulla natura del 2016, oltre il 70% dei ricercatori ha tentato senza riuscirci di riprodurre gli esperimenti di un altro scienziato. Inoltre, più del 50 per cento di loro non è riuscito a riprodurre i propri esperimenti.

La riproducibilità è la base dell’assicurazione della qualità nella scienza in quanto consente di verificare in modo indipendente i risultati del passato. 

La comunità scientifica e di ricerca crede fermamente che nascondere aspetti importanti degli studi, specialmente nei settori in cui sono interessati il ​​bene pubblico più ampio e il benessere sociale, rechi un grande disservizio.

Secondo il rapporto sullo stato dell’IA del 2020 , solo il 15% degli studi sull’intelligenza artificiale condivide il proprio codice e spesso i colpevoli sono i ricercatori del settore. Il rapporto critica OpenAI e DeepMind , due dei migliori laboratori di ricerca AI del mondo, per non aver aperto il loro codice.


Nel 2020, Google Health ha pubblicato un articolo su Nature che descriveva come l’IA è stata sfruttata per cercare segni di cancro al seno nelle immagini mediche. Ma Google ha attirato critiche poiché ha fornito poche informazioni sul suo codice e su come è stato testato. Molti hanno messo in dubbio la fattibilità del documento e un gruppo di 31 ricercatori ha pubblicato un altro articolo su Nature intitolato “Trasparenza e riproducibilità nell’intelligenza artificiale” . Benjamin Haibe-Kains, uno degli autori dell’articolo, ha definito l’articolo di Google una pubblicità per una tecnologia interessante senza un uso pratico.

Tuttavia, le cose stanno cambiando. NeurIPS ora chiede agli autori/ricercatori di produrre una “lista di controllo della riproducibilità” insieme ai loro contributi. Questo elenco di controllo contiene informazioni come il numero di modelli addestrati, la potenza di calcolo utilizzata e i collegamenti a codice e set di dati. Un’altra iniziativa denominata progetto “Documenti con codice” è stata avviata con l’obiettivo di creare documenti, codice e tabelle di valutazione di ML gratuiti e open source.

Di Pritam Bordoloi da analyticsindiamag.com

Di ihal