Upstage Solar Pro 3: LLM da 102 miliardi di parametri pensato per agenti AI

Solar Pro 3 è il nuovo modello sviluppato da Upstage per l’adozione di sistemi AI orientati all’esecuzione di compiti concreti e multi-fase. L’obiettivo dichiarato del progetto non è semplicemente migliorare i benchmark tradizionali, ma costruire un modello in grado di sostenere l’architettura dell’AI agente, cioè sistemi capaci di pianificare, utilizzare strumenti e completare flussi operativi complessi.

Solar Pro 3 introduce un aumento significativo della scala del modello, con 102 miliardi di parametri, più del triplo rispetto al precedente Solar Pro 2. Tuttavia, uno degli aspetti più rilevanti del nuovo sistema è l’efficienza operativa. Upstage ha evidenziato che, nonostante l’aumento dimensionale, il modello mantiene costi e velocità di elaborazione equivalenti alla versione precedente, in termini di token per secondo. Questo risultato suggerisce un’ottimizzazione dell’architettura e della pipeline di inferenza, con l’obiettivo di rendere sostenibile l’utilizzo di modelli di grande scala anche in contesti aziendali dove le risorse computazionali rappresentano un fattore critico.

Il miglioramento prestazionale non si limita alla generazione linguistica, ma riguarda l’intero ciclo operativo degli agenti AI. Solar Pro 3 è stato progettato per gestire workflow multi-step che includono chiamate a strumenti esterni, pianificazione delle azioni e interpretazione di istruzioni complesse. Questo approccio riflette la crescente importanza dell’orchestrazione di compiti e della capacità del modello di interagire con ambienti esterni. In questo contesto, l’LLM non agisce più come un semplice generatore di testo, ma come componente centrale di sistemi agentici che combinano ragionamento, esecuzione e verifica.

I risultati riportati indicano miglioramenti superiori al doppio rispetto al modello precedente in benchmark focalizzati sull’operatività degli agenti. Le valutazioni includono test sulle prestazioni complessive dell’agente, come Tau2-all, benchmark di coding come Terminal Bench 2 e SWE Bench, e test di esecuzione delle istruzioni come IFBench. Questi indicatori sono particolarmente rilevanti perché misurano la capacità del modello di gestire sequenze di operazioni e non solo risposte isolate, riflettendo scenari più vicini all’utilizzo reale.

Uno degli elementi tecnici più rilevanti del progetto è l’introduzione della tecnologia proprietaria di reinforcement learning denominata SnapPO. Questo metodo è stato utilizzato per potenziare il ragionamento profondo, considerato il nucleo dell’AI agente. SnapPO migliora la coerenza del ragionamento e la capacità di giudizio contestuale attraverso un processo di pensiero graduale che va oltre la generazione diretta della risposta. Questo approccio favorisce l’elaborazione multi-passo e la verifica interna delle soluzioni, caratteristiche fondamentali per compiti complessi.

L’impatto di questa metodologia è visibile nei risultati ottenuti in benchmark ad alta difficoltà. Solar Pro 3 ha mostrato miglioramenti significativi in test di matematica competitiva come HMMT 26 e AIME 26, oltre che in valutazioni scientifiche di livello universitario come GPQA-Diamond. Questi benchmark sono generalmente utilizzati per misurare la capacità di ragionamento avanzato e la comprensione concettuale, e rappresentano indicatori della maturità dei modelli per applicazioni tecniche e scientifiche.

Oltre al ragionamento, il modello punta a migliorare la qualità percepita delle risposte. Upstage ha evidenziato progressi negli indicatori di preferenza degli utenti, come Arena-hard-v2 e Ko-Arena-hard-v2. Questi benchmark si concentrano sulla valutazione soggettiva della qualità delle risposte, considerando fattori come chiarezza, pertinenza e comprensione dell’intento. L’attenzione alla qualità percepita è particolarmente importante per l’adozione in contesti reali, dove l’utilità pratica delle risposte supera la mera accuratezza tecnica.

Solar Pro 3 non è open source e viene distribuito tramite API proprietarie e piattaforme come OpenRouter. Questa scelta indica una strategia orientata al controllo dell’ecosistema e alla gestione dell’uso commerciale del modello. Tuttavia, Upstage ha sottolineato che l’efficienza raggiunta dovrebbe ridurre la barriera d’ingresso per le aziende che intendono adottare AI agentiche, permettendo di ottenere prestazioni su larga scala senza la necessità di infrastrutture estremamente costose.

Upstage Solar Pro 3: LLM da 102 miliardi di parametri pensato per agenti AI

DiFantasy

Di Fantasy

Articoli correlati

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Ultimi Post

SafeDrive porta l’intelligenza artificiale nel controllo di smartphone, cinture e documenti dei veicoli

Gemini Nano 4 debutta sui nuovi pieghevoli Samsung con l’AI eseguita direttamente sul dispositivo

OpenAI avrebbe scoperto dopo una settimana che un proprio agente AI aveva violato Hugging Face

Claude Record a Skill trasforma una registrazione dello schermo in una procedura automatizzabile