Torchao è una nuova libreria nativa di PyTorch progettata per ottimizzare l’addestramento e l’inferenza dei modelli di intelligenza artificiale. Torchao sfrutta tecniche avanzate come la quantizzazione e la sparsità per rendere i modelli più piccoli e più veloci, riducendo l’uso di risorse e aumentando l’efficienza.
Secondo il team di PyTorch, gli algoritmi di quantizzazione di Torchao, applicabili a modelli come Llama 3 e i modelli di diffusione, hanno dimostrato un’accelerazione dell’inferenza fino al 97% e una riduzione del picco di VRAM del 73%. Questo viene ottenuto senza compromettere significativamente l’accuratezza del modello. Ad esempio, la quantizzazione dei pesi su int4 e la cache KV su int8 supportano modelli come Llama 3.1 8B per lunghezze di contesto di 128K, utilizzando meno di 18,9 GB di VRAM.
Torchao non solo migliora l’inferenza, ma offre anche ottimizzazioni per l’addestramento dei modelli. Il sistema supporta dati a bassa precisione, come float8, che aiutano a rendere i processi di addestramento più efficienti. Questo viene reso possibile grazie all’introduzione del Quantization Aware Training (QAT), che riduce al minimo le perdite di accuratezza legate alla quantizzazione. Torchao ha dimostrato di recuperare fino al 96% della precisione persa su benchmark come Hellaswag.
Inoltre, PyTorch ha sviluppato ottimizzatori a 8 e 4 bit, che aiutano a migliorare l’efficienza dell’addestramento dei modelli. Questo permette di ottenere riduzioni significative della VRAM, mantenendo alte prestazioni. Torchao è stato integrato in progetti open-source come Hugging Face e diffusers-torchao, dimostrando il suo valore sia nella ricerca che nella produzione.
Guardando al futuro, il team di PyTorch prevede di espandere le funzionalità di Torchao, includendo la quantizzazione sub-4-bit e l’ottimizzazione per nuovi backend hardware. Con queste evoluzioni, Torchao si candida a diventare uno strumento essenziale per sviluppatori e ricercatori nel campo del deep learning.