StepFun ha presentato Step 3.7 Flash, un nuovo modello multimodale open source progettato per applicazioni agentiche avanzate, sviluppo software, utilizzo di strumenti esterni e comprensione visiva. Il modello rappresenta un’evoluzione significativa rispetto alla generazione precedente, introducendo per la prima volta capacità native di elaborazione delle immagini e un forte miglioramento nell’esecuzione autonoma di attività complesse.
L’architettura si basa su un approccio Mixture of Experts (MoE) con 198 miliardi di parametri complessivi. Durante l’inferenza, tuttavia, viene attivata soltanto una parte della rete, pari a circa 11 miliardi di parametri, consentendo di ottenere prestazioni tipiche di modelli molto più grandi con un costo computazionale paragonabile a quello di sistemi di fascia inferiore. La componente multimodale integra un ampio modello linguistico con un encoder visivo dedicato, permettendo l’elaborazione simultanea di testo e immagini all’interno dello stesso flusso di ragionamento.
Uno degli aspetti più rilevanti riguarda le capacità di codifica e di esecuzione software. Nei benchmark dedicati all’ingegneria del software e all’automazione da terminale, Step 3.7 Flash mostra miglioramenti evidenti rispetto alla versione precedente, con una maggiore affidabilità nell’interpretazione delle richieste, nella modifica del codice e nell’esecuzione di attività articolate che richiedono più passaggi consecutivi. Particolarmente importante è anche la riduzione della variabilità delle prestazioni tra diversi ambienti operativi, un elemento che facilita l’adozione del modello in contesti aziendali dove toolchain e infrastrutture possono differire notevolmente.
Il modello introduce inoltre una nuova modalità operativa denominata Advisor Mode. In questa configurazione, un modello leggero gestisce direttamente le attività ordinarie, mentre un sistema più potente interviene esclusivamente nelle fasi di pianificazione complessa o quando vengono rilevati errori ripetuti. Questo approccio consente di mantenere elevate le prestazioni riducendo al tempo stesso il costo operativo delle attività di sviluppo e automazione.
Sul fronte multimodale, Step 3.7 Flash amplia notevolmente le capacità di comprensione visiva. Il modello può utilizzare strumenti di ricerca visuale per identificare oggetti, reperire informazioni aggiornate e analizzare contenuti complessi. Supporta inoltre operazioni avanzate sulle immagini tramite strumenti Python integrati, inclusi zoom, ritaglio e analisi di specifiche aree visive. Queste funzionalità si traducono in risultati particolarmente competitivi anche nei benchmark dedicati all’analisi di immagini ad altissima risoluzione.
Una caratteristica distintiva emersa durante i test è la capacità di utilizzare strumenti in modo compositivo. Il modello è in grado di concatenare autonomamente più strumenti e procedure operative per raggiungere un obiettivo, anche in scenari che non erano stati esplicitamente inclusi durante l’addestramento. In alcuni casi è stato osservato generare codice per un’interfaccia utente, eseguire il software creato, verificare visivamente il risultato e correggere automaticamente eventuali problemi rilevati durante l’esecuzione.
Le capacità agentiche si estendono anche all’ambiente mobile. Nei benchmark dedicati all’automazione di attività su smartphone Android, il modello dimostra una notevole capacità di mantenere il contesto operativo durante il passaggio tra applicazioni diverse e l’esecuzione di sequenze di azioni prolungate, un requisito fondamentale per gli assistenti digitali di nuova generazione.
Anche nelle attività di ricerca assistita e utilizzo degli strumenti, Step 3.7 Flash registra progressi significativi. Il modello mostra una maggiore efficacia nell’integrare informazioni provenienti da fonti esterne, nell’eseguire ricerche approfondite e nel coordinare più strumenti contemporaneamente per completare compiti complessi. I risultati ottenuti nelle valutazioni dedicate alla collaborazione tra strumenti e all’esecuzione autonoma di attività reali confermano il posizionamento del modello come piattaforma orientata all’azione più che alla semplice generazione di testo.
Secondo StepFun, Step 3.7 Flash è stato sviluppato con l’obiettivo di creare un modello capace di svolgere attività operative concrete in ambiti professionali. Per questo motivo sono state integrate competenze specifiche provenienti da settori come finanza, contabilità e analisi dei dati, ampliando il potenziale utilizzo del sistema in contesti aziendali e professionali. I pesi del modello sono disponibili pubblicamente e l’API è stata proposta con una struttura di prezzo orientata a favorire l’adozione di applicazioni agentiche su larga scala.
