Upstage ha annunciato oggi una grande novità: la preview del suo nuovo modello linguistico, Solar Pro, che sarà ufficialmente lanciato a novembre. Questa versione di anteprima sarà disponibile come open source e attraverso API gratuite.
La preview di Solar Pro è un modello di test che consente agli sviluppatori di provarlo prima del rilascio ufficiale. Attualmente, supporta solo l’inglese e ha un limite di 4096 caratteri per input. La versione completa, che verrà lanciata a novembre, avrà una finestra di contesto significativamente più ampia, anche se i dettagli specifici non sono ancora stati comunicati.
Solar Pro è dotato di 22 miliardi di parametri, più del doppio rispetto ai 10,7 miliardi di Solar Mini. Le prestazioni sono migliorate notevolmente e il modello può essere eseguito anche su una sola GPU grazie alla nuova tecnologia DUS (Depth Extension Scale) sviluppata da Upstage.
Solar Pro ha mostrato un miglioramento medio del 51% rispetto a Solar Mini nei recenti benchmark LLM, come “MMLU Pro” e “IF Evell”. Questi test valutano la conoscenza in STEM e nelle scienze umane, e la capacità di seguire istruzioni. Le prestazioni di Solar Pro superano quelle di modelli simili di grandi aziende come Microsoft, Meta, Mistral AI-Nvidia e Google, e sono comparabili a modelli che richiedono più GPU, come “Rama 3.1 70B”.
Solar Pro è progettato per eccellere in diverse applicazioni lavorative, come la scrittura di documenti e report, l’analisi e la gestione dei dati, e la gestione dei progetti. La sua vasta conoscenza e capacità di ragionamento superano la media umana.
Solar, la versione precedente, aveva già ottenuto il primo posto nella classifica LLM open source di Hugging Face. Upstage continua a puntare su modelli di intelligenza artificiale di alta qualità con costi infrastrutturali minimi e prepara il lancio di Solar Pro come un passo successivo ambizioso.
A novembre, sarà rilasciato un documento tecnico dettagliato sul metodo di apprendimento del modello. Attualmente, non ci sono piani specifici per lo sviluppo di un modello multimodale.