Nel tentativo di migliorare l’efficienza delle architetture Transformer, Together AI ha introdotto FlashAttention-3, basato sul successo delle versioni precedenti nell’accelerare i meccanismi di attenzione. Questo progetto è il risultato di una collaborazione tra Colfax Research, Meta, NVIDIA e Together AI della Princeton University, e mira a massimizzare le prestazioni delle GPU sulla nuova architettura Hopper.
FlashAttention-3 sfrutta tecniche innovative come il calcolo a bassa precisione per accelerare le operazioni di attenzione, utilizzando fino al 75% della capacità teorica FLOPS della GPU NVIDIA H100. Questo rappresenta un significativo miglioramento rispetto a FlashAttention-2, che utilizzava solo il 35% delle risorse su hardware di generazione precedente.
Una delle caratteristiche principali di FlashAttention-3 è la compatibilità con la precisione FP8, che consente operazioni a quasi 1,2 PFLOPS mantenendo elevati livelli di precisione. Questo avanzamento non solo raddoppia la velocità di elaborazione rispetto alle versioni precedenti, ma riduce anche l’uso di memoria, abbattendo i costi operativi per le implementazioni su larga scala.
L’implementazione di FlashAttention-3 facilita la gestione di input contestuali più lunghi nei modelli linguistici di grandi dimensioni (LLM), essenziale per applicazioni che richiedono una comprensione approfondita del testo e la generazione di contenuti. Riducendo al minimo la lettura e la scrittura della memoria attraverso tecniche ottimizzate, l’algoritmo raggiunge tempi di esecuzione fino a 4 volte più veloci rispetto ai metodi tradizionali.
Grazie a nuove funzionalità hardware come WGMMA e TMA sulle GPU Hopper, FlashAttention-3 offre ulteriori miglioramenti delle prestazioni, consentendo un trasferimento ed elaborazione dei dati più efficienti. Questo assicura che le operazioni di moltiplicazione di matrici (GEMM) e softmax procedano simultaneamente, massimizzando il throughput computazionale.