Grandi modelli linguistici come ChatGPT e Llama-2, noti per le loro ingenti memorie e esigenze computazionali, presentano costi operativi elevati. Tuttavia, anche una leggera riduzione delle loro dimensioni può comportare un notevole risparmio.

Rispondendo a questa sfida, i ricercatori dell’ETH di Zurigo hanno introdotto una versione innovativa del trasformatore, l’architettura di deep learning che sta alla base dei modelli linguistici. Questo nuovo design, pur riducendo le dimensioni, conserva l’accuratezza e migliora la velocità di inferenza, rendendolo ideale per modelli linguistici più efficienti.

I modelli linguistici si basano su blocchi trasformatori, che analizzano dati sequenziali come il testo. Ogni blocco trasformatore comprende un meccanismo di attenzione, che si focalizza su parti specifiche dei dati (ad esempio le parole in una frase), e un percettrone multistrato (MLP), che raffina ulteriormente queste informazioni. Questa struttura consente al modello di capire come le parole si relazionano tra loro, anche a distanza.

I blocchi trasformatori includono anche connessioni residue e strati di normalizzazione, che facilitano l’apprendimento e risolvono problemi comuni nelle reti neurali profonde. Man mano che questi blocchi si accumulano, aumenta la capacità del modello di riconoscere relazioni complesse nei dati, rendendo possibile l’avanzato funzionamento dei modelli linguistici moderni.

I ricercatori dell’ETH di Zurigo hanno evidenziato l’importanza di migliorare l’efficienza nei processi di formazione e inferenza dell’architettura del trasformatore, data l’attuale costosità. Hanno semplificato il blocco del trasformatore eliminando componenti superflui, riducendo il numero di parametri e migliorando l’efficienza.

In particolare, hanno rimosso i parametri V e le connessioni skip, tradizionalmente utilizzate per evitare il problema dei gradienti evanescenti. Inoltre, hanno riprogettato il blocco trasformatore per elaborare le teste di attenzione e l’MLP in parallelo anziché in sequenza.

Per bilanciare la riduzione dei parametri, il team ha adattato altri parametri e perfezionato la metodologia di addestramento. I loro test hanno mostrato che la dimensione del trasformatore convenzionale può essere ridotta del 16% senza perdere precisione, ottenendo tempi di inferenza più rapidi. Questo significa che applicando questa architettura a un modello come GPT-3 si potrebbero risparmiare fino a 50 GB di memoria.

Sebbene questa tecnica sia stata testata su modelli più piccoli, la sua applicabilità a modelli più grandi rimane da esplorare. I ricercatori sono ottimisti sul potenziale di questa nuova architettura nel ridurre i costi operativi dei grandi modelli di trasformatori.

Di Fantasy