Ricercatori dell’ETH di Zurigo hanno sviluppato una tecnica che potrebbe aumentare drasticamente la velocità delle reti neurali, dimostrando che modificare il processo di inferenza può ridurre in modo significativo i requisiti computazionali di queste reti. In particolare, hanno ottenuto una riduzione dei calcoli di oltre il 99% su BERT, un modello di trasformatore utilizzato in vari compiti linguistici. Questa tecnica potrebbe essere applicata anche ai modelli di trasformazione nei grandi modelli linguistici come GPT-3, migliorando l’elaborazione del linguaggio.
I trasformatori, le reti neurali alla base degli LLM, includono livelli di attenzione e feedforward, quest’ultimi particolarmente impegnativi a livello computazionale. I ricercatori hanno scoperto che non è necessario attivare tutti i neuroni negli strati feedforward per ogni input durante il processo di inferenza. Hanno proposto l’uso di strati “fast feedforward” (FFF), utilizzando una moltiplicazione di matrice condizionale (CMM) invece della moltiplicazione di matrice densa (DMM) tradizionale.
Per convalidare la loro tecnica, i ricercatori hanno creato FastBERT, una variante di BERT che sostituisce gli strati feedforward intermedi con FFF, organizzando i neuroni in un albero binario e attivando solo un ramo per input. I risultati nei test GLUE hanno mostrato che FastBERT mantiene almeno il 96,0% delle prestazioni del modello BERT originale, con il miglior modello FastBERT che eguaglia le prestazioni di BERT usando solo lo 0,3% dei suoi neuroni feedforward.
I ricercatori ritengono che le reti feedforward veloci nei LLM potrebbero accelerare notevolmente la velocità di elaborazione. Ad esempio, in GPT-3, una rete feedforward veloce di profondità massima 15 potrebbe sostituire la rete tradizionale di 49.152 neuroni, utilizzando solo 16 neuroni per l’inferenza.
Attualmente, non esiste un’implementazione nativa ed efficiente della CMM, e i ricercatori hanno sviluppato una propria implementazione su CPU e GPU, portando a un miglioramento di 78 volte nella velocità di inferenza. Ritengono che con un’implementazione hardware e software più avanzata, il miglioramento potrebbe superare 300 volte.
Questa ricerca è parte di uno sforzo più ampio per superare i colli di bottiglia di memoria e computazione nei grandi modelli linguistici, aprendo la strada a sistemi di intelligenza artificiale più efficienti e potenti.