Arthur, startup americana nel campo dell’intelligenza artificiale, ha annunciato il lancio di Arthur Bench, un nuovo strumento open source creato per valutare e mettere a confronto le prestazioni di modelli di linguaggio di grandi dimensioni (LLM) come GPT-3.5 Turbo di OpenAI e LLaMA di Meta 2.
“Con Bench, abbiamo sviluppato uno strumento open source per aiutare i team a esplorare in dettaglio le differenze tra i fornitori di LLM, le varie strategie di suggerimento e miglioramento, e i regimi di addestramento personalizzati”, ha dichiarato Adam Wenchel, co-fondatore e CEO di Arthur, in un comunicato stampa.
Arthur Bench offre alle aziende la possibilità di testare le prestazioni di vari modelli linguistici in base ai loro specifici casi d’uso. L’obiettivo è fornire metriche per il confronto dei modelli in termini di accuratezza, leggibilità, copertura e altri parametri.
Un aspetto particolarmente rilevante per chi utilizza i LLM in varie occasioni è la “copertura” – quando un LLM offre una risposta che riassume o fa riferimento ai suoi termini di servizio o ai vincoli di programmazione. Questo può risultare poco pertinente alla risposta cercata dall’utente.
“In queste sfumature di comportamento potrebbero risiedere differenze significative che si applicano alla tua applicazione specifica”, ha spiegato Wenchel in un’intervista esclusiva con VentureBeat.
Arthur ha già fornito una serie di criteri iniziali per confrontare le prestazioni dei LLM, ma essendo uno strumento open source, le aziende che lo adottano possono aggiungere i propri parametri personalizzati per rispondere alle esigenze specifiche.
“È possibile prendere le ultime 100 domande provenienti dagli utenti e testarle su tutti i modelli. Arthur Bench evidenzierà le risposte molto diverse, permettendoti di esaminarle manualmente”, ha spiegato Wenchel. L’obiettivo è aiutare le aziende a prendere decisioni informate durante l’adozione dell’IA.
Arthur Bench accelera il processo di benchmarking, traducendo misurazioni accademiche in impatti concreti sul business reale. L’azienda combina misure statistiche e punteggi, insieme a valutazioni di altri LLM, per classificare le risposte dei LLM desiderati.
Wenchel ha sottolineato che le aziende finanziarie hanno già utilizzato Arthur Bench per generare rapidamente tesi di investimento e analisi.
Allo stesso modo, aziende automobilistiche hanno applicato Arthur Bench ai loro manuali di equipaggiamento, creando LLM capaci di rispondere rapidamente e con precisione alle domande dei clienti, estraendo informazioni da queste guide tecniche molto specifiche e riducendo le ambiguità.
Anche la piattaforma multimediale e di pubblicazione aziendale Axios HQ ha tratto vantaggio da Arthur Bench per lo sviluppo dei prodotti.
“Arthur Bench ci ha aiutato a sviluppare un framework interno per standardizzare la valutazione dei LLM tra le diverse funzionalità e per comunicare le prestazioni al team di prodotto attraverso metriche significative e interpretabili”, ha affermato Priyanka Oberoi, data scientist presso Axios HQ.
L’apertura di Arthur Bench come risorsa open source consente a chiunque di utilizzarlo e contribuirvi gratuitamente. La startup crede che l’approccio open source porti alla creazione dei migliori prodotti, con opportunità di monetizzazione attraverso dashboard personalizzate.
Inoltre, Arthur ha annunciato un hackathon in collaborazione con Amazon Web Services (AWS) e Cohere, al fine di stimolare gli sviluppatori a creare nuove metriche per Arthur Bench.
Wenchel ha sottolineato che l’ambiente Bedrock di AWS, che offre una gamma di opzioni di scelta e implementazione di vari LLM, si allinea perfettamente con la filosofia di Arthur Bench.
“Come si può razionalmente decidere quale LLM sia adatto alle proprie esigenze?” ha affermato Wenchel. “Questo si integra molto bene con la strategia di AWS.”