APPRENDIMENTO PROFONDO
Le reti neurali di deep learning sono spesso enormi e richiedono enormi quantità di potenza di calcolo, ma una nuova scoperta dimostra come questo possa essere ridotto per completare le attività in modo più efficiente. Jonathan Frankle e il suo team del MIT hanno escogitato le “ipotesi del biglietto della lotteria”, che mostra come ci siano sottoreti più snelle all’interno delle reti neurali più grandi. Queste sottoreti possono completare l’attività in questione in modo più efficiente con una minore potenza di calcolo richiesta, con una delle maggiori sfide che consiste nel trovare quelle sottoreti o vincere biglietti della lotteria come il team si riferisce ad esse.
Il team ha scoperto queste sottoreti all’interno di BERT, la tecnica di apprendimento automatico top di gamma per l’elaborazione del linguaggio naturale (PNL). La PNL, che è un sottocampo dell’intelligenza artificiale (AI), è responsabile della decifrazione e dell’analisi del linguaggio umano e viene utilizzata per applicazioni come la generazione di testi predittivi e chatbot.
Tuttavia, BERT è grande e richiede una potenza di supercalcolo, inaccessibile alla maggior parte degli utenti. Con la nuova scoperta di queste sottoreti, potrebbe aprire tale accesso, consentendo a più utenti di utilizzare la tecnologia per sviluppare strumenti di PNL.
“Stiamo raggiungendo il punto in cui dovremo rendere questi modelli più snelli ed efficienti”, afferma Frankle.
Secondo lui, questo sviluppo potrebbe “ridurre le barriere all’ingresso” per la PNL.
BERT – “Oscenamente costoso”
BERT è fondamentale per cose come il motore di ricerca di Google e ha ricevuto molta attenzione da quando Google lo ha rilasciato nel 2018. È un metodo per creare reti neurali ed è addestrato tentando molte volte di riempire il passaggio vuoto dei pezzi di scrittura. Una delle caratteristiche più impressionanti di BERT è il suo enorme set di dati di addestramento iniziale.
Può quindi essere sintonizzato dagli utenti per attività specifiche, come i chatbot del servizio clienti, ma ancora una volta richiede enormi quantità di potenza di elaborazione, con la possibilità che i parametri raggiungano 1 miliardo.
“Un modello BERT standard in questi giorni – la varietà da giardino – ha 340 milioni di parametri”, afferma Frankle. “Questo è solo oscenamente costoso. Questo è molto al di là delle capacità di elaborazione di te o me. “
Secondo l’autore principale Tianlong Chen dell’Università del Texas ad Austin, modelli come BERT “soffrono di enormi dimensioni della rete”, ma grazie alla nuova ricerca “l’ipotesi del biglietto della lotteria sembra essere una soluzione”.
Sottoreti efficienti
Chen e il team hanno cercato un modello più piccolo situato all’interno di BERT e hanno confrontato le prestazioni delle sottoreti scoperte con il modello BERT originale. Questo è stato testato su una varietà di diversi compiti di PNL, tra cui rispondere alle domande e inserire parole vuote in una frase.
Il team ha scoperto sottoreti di successo che erano dal 40 al 90% più sottili del modello BERT originale, con la percentuale effettiva a seconda dell’attività. Inoltre, potrebbero identificarli prima della messa a punto specifica per attività, che si traduce in costi di elaborazione ulteriormente ridotti. Un altro vantaggio era che alcune delle sottoreti selezionate per un’attività specifica potevano essere riutilizzate per un’altra.
“Sono rimasto piuttosto scioccato dal fatto che abbia funzionato”, dice Frankle. “Non è qualcosa che ho dato per scontato. Mi aspettavo un risultato molto più complicato di quello che abbiamo ottenuto “.
Secondo Ari Morcos, uno scienziato di Facebook AI Research, questa scoperta è “convincente” e “Questi modelli stanno diventando sempre più diffusi. Quindi è importante capire se l’ipotesi del biglietto della lotteria è valida. “
Morcos afferma anche che se queste sottoreti potessero funzionare utilizzando una potenza di calcolo drasticamente inferiore, ciò sarebbe “di grande impatto dato che questi modelli estremamente grandi sono attualmente molto costosi da eseguire”.
“Non so quanto possiamo aumentare di dimensioni utilizzando questi calcoli in stile supercomputer”, aggiunge Frankle. “Dovremo ridurre la barriera all’ingresso”.
“La speranza è che questo ridurrà il costo, che questo lo renderà più accessibile a tutti … ai ragazzini che hanno solo un laptop”, conclude.
La ricerca sarà presentata alla Conferenza sui sistemi di elaborazione delle informazioni neurali .