Salesforce ha recentemente annunciato una serie di innovazioni nel campo dell’intelligenza artificiale, affrontando una delle sfide più persistenti per le applicazioni aziendali: la discrepanza tra l’intelligenza grezza di un sistema AI e la sua capacità di eseguire compiti in modo affidabile in ambienti aziendali imprevedibili. Questa discrepanza è stata definita dall’azienda come “intelligenza frastagliata” (jagged intelligence).
Secondo Silvio Savarese, Chief Scientist e Head of AI Research di Salesforce, sebbene i modelli linguistici di grandi dimensioni (LLM) possano eccellere in test standardizzati e compiti complessi, la loro brillantezza spesso vacilla quando si tratta di eseguire compiti in modo affidabile in ambienti aziendali dinamici e imprevedibili. Per affrontare questa sfida, Salesforce ha introdotto una serie di nuovi benchmark, modelli e framework progettati per rendere gli agenti AI più intelligenti, affidabili e versatili per l’uso aziendale.
Un elemento centrale della ricerca è la creazione del dataset SIMPLE, un benchmark pubblico contenente 225 domande di ragionamento diretto progettate per misurare quanto le capacità di un sistema AI siano realmente frastagliate. Questo strumento consente di quantificare e affrontare l’incoerenza nelle prestazioni dell’AI, un aspetto cruciale per le applicazioni aziendali dove un singolo errore può compromettere operazioni, fiducia dei clienti o causare danni finanziari significativi.
Un’altra innovazione significativa è CRMArena, un framework di benchmarking progettato per simulare scenari realistici di gestione delle relazioni con i clienti (CRM). Questo strumento consente di testare le prestazioni degli agenti AI in contesti professionali, affrontando il divario tra i benchmark accademici e le esigenze reali delle imprese. I test iniziali hanno rivelato che anche con prompt guidati, gli agenti riescono con successo meno del 65% delle volte nelle attività di chiamata delle funzioni per i casi d’uso di agenti di servizio, analisti e manager.
Salesforce ha anche introdotto SFR-Embedding, un nuovo modello di embedding progettato per una comprensione contestuale più profonda, che guida il Massive Text Embedding Benchmark (MTEB) su 56 dataset. Una versione specializzata, SFR-Embedding-Code, è stata sviluppata per gli sviluppatori, consentendo una ricerca di codice di alta qualità e semplificando lo sviluppo. Secondo Salesforce, la versione con 7 miliardi di parametri guida il benchmark Code Information Retrieval (CoIR), mentre modelli più piccoli (400M, 2B) offrono alternative efficienti e a basso costo.
Salesforce ha anche annunciato xLAM V2 (Large Action Model), una famiglia di modelli progettati specificamente per prevedere azioni piuttosto che generare solo testo. Questi modelli, a partire da 1 miliardo di parametri, sono particolarmente utili per agenti autonomi che devono interagire con sistemi aziendali, poiché sono addestrati per prevedere ed eseguire i passaggi successivi in una sequenza di compiti.
Per affrontare le preoccupazioni aziendali riguardo alla sicurezza e all’affidabilità dell’AI, Salesforce ha introdotto SFR-Guard, una famiglia di modelli addestrati su dati sia pubblici che specializzati nel CRM. Questi modelli rafforzano il “Trust Layer” dell’azienda, fornendo guardrail per il comportamento degli agenti AI. Inoltre, è stato lanciato ContextualJudgeBench, un nuovo benchmark per valutare i modelli di giudizio basati su LLM in contesti, testando oltre 2.000 coppie di risposte sfidanti per accuratezza, concisione, fedeltà e rifiuto appropriato nel rispondere.
Guardando oltre il testo, Salesforce ha presentato TACO, una famiglia di modelli multimodali d’azione progettati per affrontare problemi complessi e multi-step attraverso catene di pensiero e azione (CoTA). Questo approccio consente all’AI di interpretare e rispondere a query intricate che coinvolgono più tipi di media, con Salesforce che afferma un miglioramento fino al 20% sul difficile benchmark MMVet.
Itai Asseo, Senior Director di Incubation and Brand Strategy presso AI Research, ha sottolineato l’importanza della co-innovazione con i clienti nello sviluppo di soluzioni AI pronte per l’impresa. Secondo Asseo, uno dei principali punti dolenti per i clienti è che, quando si tratta di dati aziendali, c’è una bassa tolleranza per fornire risposte che non siano accurate e pertinenti. Salesforce ha fatto significativi progressi, ad esempio, applicando il motore di ragionamento Atlas, che ha portato a un aumento dell’accuratezza rispetto ad altri concorrenti principali.
La spinta alla ricerca di Salesforce arriva in un momento cruciale per l’adozione dell’AI nelle imprese, poiché le aziende cercano sempre più sistemi AI che combinino capacità avanzate con prestazioni affidabili. Mentre l’intera industria tecnologica persegue modelli sempre più grandi con capacità impressionanti, l’attenzione di Salesforce sul divario di coerenza evidenzia un approccio più sfumato allo sviluppo dell’AI, uno che dà priorità alle esigenze reali delle imprese rispetto ai benchmark accademici.
Le tecnologie annunciate inizieranno a essere distribuite nei prossimi mesi, con SFR-Embedding che arriverà prima su Data Cloud, mentre altre innovazioni alimenteranno le future versioni di Agentforce. Come ha osservato Savarese, “Non si tratta di sostituire gli esseri umani. Si tratta di essere al comando.” In questa corsa per la supremazia dell’AI aziendale, Salesforce scommette che la coerenza e l’affidabilità, non solo l’intelligenza grezza, definiranno infine i vincitori della rivoluzione dell’AI nelle imprese.