xAI di Elon Musk ha annunciato Grok-1.5, che vanta miglioramenti significativi nelle capacità di ragionamento e una lunghezza del contesto di 128.000 token. Sarà disponibile per i nostri tester precoci e per gli utenti Grok esistenti sulla piattaforma X nei prossimi giorni.
Grok-1.5 vanta miglioramenti notevoli, specialmente nelle attività legate alla codifica e alla matematica. Supera Mistral Large su vari benchmark, tra cui MMLU, GSM8K e HumanEval.
Durante i test, Grok-1.5 ha mostrato prestazioni eccezionali, ottenendo un punteggio notevole del 50,6% nel benchmark MATH e un impressionante 90% nel benchmark GSM8K. Questi benchmark coprono una vasta gamma di problemi matematici, dimostrando la versatilità e le capacità di risoluzione dei problemi di Grok-1.5.
Oltre alla sua abilità nei compiti legati alla matematica, Grok-1.5 eccelle anche nel benchmark HumanEval, ottenendo un punteggio del 74,1%. Questo benchmark valuta la generazione di codice e le capacità di risoluzione dei problemi, evidenziando ulteriormente l’ampio set di competenze di Grok-1.5.
Una caratteristica distintiva di Grok-1.5 è la sua capacità di comprendere contesti lunghi, consentendogli di elaborare contesti fino a 128.000 token all’interno della sua finestra. Questo significativo miglioramento rappresenta un aumento di sedici volte della capacità di memoria rispetto ai modelli precedenti, permettendo a Grok-1.5 di utilizzare informazioni da documenti notevolmente più lunghi.
L’infrastruttura di Grok-1.5 è costruita su un framework di formazione distribuito personalizzato basato su JAX, Rust e Kubernetes. Questo stack di addestramento robusto garantisce affidabilità e tempi di attività dei lavori di addestramento, riducendo al minimo i tempi di inattività e massimizzando l’efficienza durante l’addestramento di modelli su larga scala.
xAI ha recentemente rilasciato i pesi del modello e l’architettura di rete di Grok-1. Man mano che il modello viene gradualmente esteso a un pubblico più ampio, xAI prevede di introdurre diverse nuove funzionalità in Grok 1.5 nei prossimi giorni.