Nexusflow.ai ha annunciato il lancio di NexusRaven-V2, un potente modello di apprendimento automatico da 13 miliardi di parametri che supera GPT-4 nelle funzioni di chiamata zero-shot. Questo modello open source eccelle nel trasformare istruzioni in linguaggio naturale in codice eseguibile, rendendo l’uso degli strumenti software più accessibile per copiloti e agenti.
NexusRaven-V2 ha mostrato un tasso di successo fino al 7% superiore a GPT-4 in scenari di chiamate di funzioni complesse, come quelle nidificate e composite, senza ricevere formazione specifica su tali funzioni.
Il benchmark Nexus-Function-Calling introdotto da Nexusflow.ai, che include una varietà di esempi di chiamate di funzioni dalla vita reale, ha posizionato NexusRaven-V2 in cima alla classifica Hugging Face. Il modello, basato su Llama 2 e ottimizzato per l’uso con istruzioni, utilizza dati selezionati dalla pipeline di Nexusflow.
Con una licenza commercialmente permissiva, NexusRaven-V2 incoraggia la comunità di sviluppatori e le imprese a esplorare le sue capacità. Nexusflow.ai offre anche strumenti open source che consentono la sostituzione semplificata di funzioni proprietarie nelle API con NexusRaven-V2 nei flussi di lavoro software.
NexusRaven-V2 supera GPT-4 del 4% in media nelle chiamate di funzioni, con un vantaggio significativo del 7% in attività che implicano chiamate di funzioni più complesse. Questo modello dimostra la sua efficacia nella gestione di variazioni nelle descrizioni delle funzioni.
Per assicurare riproducibilità e standardizzazione, Nexusflow.ai ha reso pubblico il benchmark e la classifica associata, insieme ai pesi dei modelli. Il benchmark si concentra su esempi generati dall’uomo, con un controllo rigoroso sulla loro eseguibilità.
Inoltre, Nexusflow.ai offre un pacchetto Python “nexusraven”, che agevola l’integrazione con copiloti o agenti. Gli sviluppatori possono facilmente interrogare il modello con una singola riga di codice e convertire le chiamate di funzioni in formato JSON per l’integrazione con software downstream.