Inferenza AI: Torchao di PyTorch

DiFantasy

Ott 1, 2024

Torchao è una nuova libreria nativa di PyTorch progettata per ottimizzare l’addestramento e l’inferenza dei modelli di intelligenza artificiale. Torchao sfrutta tecniche avanzate come la quantizzazione e la sparsità per rendere i modelli più piccoli e più veloci, riducendo l’uso di risorse e aumentando l’efficienza.

Secondo il team di PyTorch, gli algoritmi di quantizzazione di Torchao, applicabili a modelli come Llama 3 e i modelli di diffusione, hanno dimostrato un’accelerazione dell’inferenza fino al 97% e una riduzione del picco di VRAM del 73%. Questo viene ottenuto senza compromettere significativamente l’accuratezza del modello. Ad esempio, la quantizzazione dei pesi su int4 e la cache KV su int8 supportano modelli come Llama 3.1 8B per lunghezze di contesto di 128K, utilizzando meno di 18,9 GB di VRAM.

Torchao non solo migliora l’inferenza, ma offre anche ottimizzazioni per l’addestramento dei modelli. Il sistema supporta dati a bassa precisione, come float8, che aiutano a rendere i processi di addestramento più efficienti. Questo viene reso possibile grazie all’introduzione del Quantization Aware Training (QAT), che riduce al minimo le perdite di accuratezza legate alla quantizzazione. Torchao ha dimostrato di recuperare fino al 96% della precisione persa su benchmark come Hellaswag.

Inoltre, PyTorch ha sviluppato ottimizzatori a 8 e 4 bit, che aiutano a migliorare l’efficienza dell’addestramento dei modelli. Questo permette di ottenere riduzioni significative della VRAM, mantenendo alte prestazioni. Torchao è stato integrato in progetti open-source come Hugging Face e diffusers-torchao, dimostrando il suo valore sia nella ricerca che nella produzione.

Guardando al futuro, il team di PyTorch prevede di espandere le funzionalità di Torchao, includendo la quantizzazione sub-4-bit e l’ottimizzazione per nuovi backend hardware. Con queste evoluzioni, Torchao si candida a diventare uno strumento essenziale per sviluppatori e ricercatori nel campo del deep learning.

Inferenza AI: Torchao di PyTorch

DiFantasy

Di Fantasy

Articoli correlati

Da Marina a Monterey in 12 minuti: il futuro degli aerotaxi elettrici prende il volo

Balene dell’inferenza: quando pochi sviluppatori spingono startup AI sull’orlo del baratro

Clean Q: il robot intelligente pera le pulizie nei grandi ambienti industriali e non

You missed

Da Marina a Monterey in 12 minuti: il futuro degli aerotaxi elettrici prende il volo

Balene dell’inferenza: quando pochi sviluppatori spingono startup AI sull’orlo del baratro

Clean Q: il robot intelligente pera le pulizie nei grandi ambienti industriali e non

Meta lancia gli occhiali intelligenti Hypernova a prezzo ridotto per conquistare il mercato