Nel fermento attuale dell’intelligenza artificiale, un annuncio emerso da AITimes ha acceso un nuovo faro nel panorama dell’innovazione: Trillion Labs ha recentemente svelato il modello linguistico Tri-70B, un sistema da 70 miliardi di parametri rilasciato open source e progettato per favorire personalizzazione e trasparenza nella ricerca e nell’applicazione industriale. É un passo audace, e lo vediamo meglio nel dettaglio.

Tri-70B è un modello pre-addestrato con circa 1,5 trilioni di token, dotato di una finestra di contesto (context window) di 32.000 token, ideale per gestire testi lunghi senza interruzioni. È ottimizzato per il multilinguismo, con particolare attenzione a inglese, coreano e giapponese, e disponibile nella sua forma base, con poco fine-tuning successivo — una scelta che ne facilita l’adattabilità in ambiti accademici e industriali.

Trillion Labs non si è limitata a rilasciare il modello finale: ha aperto un’“Open Source Month”, pubblicando sotto licenza Apache 2.0 non solo i modelli stessi, ma anche i checkpoint intermedi del training. Questa trasparenza consente a ricercatori e aziende di comprendere meglio il processo di addestramento, personalizzare l’approccio e favorire un’adozione più consapevole.

Secondo un post su Reddit, Tri-70B (versione preview-SFT) è un modello ottimizzato per la supervised fine-tuning, senza l’utilizzo di reinforcement learning da feedback umano (RLHF), risultando quindi un punto di partenza “grezzo” perfetto per sperimentazioni avanzate di allineamento e ricerca.
Tra le tecnologie impiegate per l’efficienza computazionale troviamo: FP8 mixed precision, Scalable Softmax, e l’attenzione iRoPE. Il modello ha ottenuto performance competitive rispetto a Qwen-2.5-72B e LLaMA-3.1-70B.

Di Fantasy