Una Tecnica Rivoluzionaria Accelererà le Reti Neurali per il Trattamento del Linguaggio

Un team di ricercatori presso l’ETH di Zurigo ha sviluppato una metodologia innovativa per potenziare in modo significativo la velocità delle reti neurali, aprendo nuove prospettive per l’elaborazione del linguaggio naturale. Questa tecnica, testata su BERT, un noto modello di trasformatore, ha ridotto i requisiti computazionali di queste reti di oltre il 99%.

I modelli di trasformatore, alla base di molte applicazioni linguistiche, comprendono strati di “feedforward” che richiedono una considerevole potenza computazionale. Tuttavia, i ricercatori hanno dimostrato che non tutti i neuroni in questi strati devono essere attivi per ogni calcolo di inferenza. Hanno proposto l’uso di strati “fast feedforward” (FFF) che sfruttano un’operazione matematica chiamata “moltiplicazione di matrice condizionale” (CMM) al posto della tradizionale “moltiplicazione di matrice densa” (DMM).

La CMM gestisce l’inferenza in modo che ogni input richieda solo pochi neuroni per l’elaborazione, riducendo notevolmente il carico computazionale. I ricercatori hanno creato FastBERT, una versione migliorata di BERT che utilizza gli strati FFF. FastBERT ha ottenuto risultati eccezionali nei test, mantenendo prestazioni simili ai modelli BERT standard e utilizzando solo lo 0,3% dei neuroni feedforward.

I ricercatori ritengono che l’adozione di reti feedforward veloci nei modelli linguistici di grandi dimensioni possa accelerare significativamente l’elaborazione del linguaggio. Questo potrebbe risolvere una delle sfide principali dei modelli linguistici: la velocità di generazione dei token.

Sebbene l’operazione DMM sia stata ampiamente ottimizzata, la CMM non ha ancora un’implementazione nativa ed efficiente. I ricercatori hanno sviluppato la propria implementazione delle operazioni CMM basate su CPU e GPU, ottenendo un notevole aumento della velocità di 78 volte durante l’inferenza. Tuttavia, credono che con un hardware migliore e un’implementazione più avanzata, si potrebbe raggiungere un miglioramento di oltre 300 volte nella velocità di inferenza.

Questa ricerca fa parte di uno sforzo più ampio per migliorare i modelli linguistici di grandi dimensioni, aprendo la strada a sistemi di intelligenza artificiale più efficienti ed efficaci.

Di ihal