TruEra, un fornitore specializzato nello sviluppo di strumenti per testare, debuggare e monitorare i modelli di linguaggio macchina (ML), ha recentemente ampliato il proprio portafoglio di prodotti con il lancio di TruLens, un software open source progettato per il testing di applicazioni basate su modelli di linguaggio di grandi dimensioni (LLM), come la serie GPT.

A partire da oggi, TruLens è disponibile gratuitamente e offre alle aziende un modo rapido e semplice per valutare e iterare le loro applicazioni LLM, eliminando le possibilità di allucinazioni e pregiudizi durante la fase di produzione.

Attualmente, solo pochi fornitori offrono strumenti in grado di affrontare questa sfida nello sviluppo di app LLM, nonostante le aziende di diversi settori stiano continuando ad esplorare il potenziale dell’IA generativa per vari casi d’uso.

I modelli di linguaggio di grandi dimensioni sono estremamente popolari, ma quando si tratta di creare applicazioni basate su questi modelli, le aziende si trovano di fronte a un processo di sperimentazione lungo e complesso che richiede una valutazione manuale delle risposte. In sostanza, una volta sviluppata la prima versione dell’app, i team devono testare e rivedere manualmente le sue risposte, apportando modifiche ai prompt, agli iperparametri e ai modelli, e ripetere i test molte volte fino a ottenere un risultato soddisfacente.

Con l’introduzione di TruLens, TruEra affronta questa sfida introducendo un metodo di valutazione programmatico chiamato “funzioni di feedback”. Secondo l’azienda, una funzione di feedback valuta l’output di un’applicazione LLM in termini di qualità ed efficacia, analizzando sia il testo generato dal modello che i metadati associati alla risposta.

“Pensalo come un modo per registrare e valutare il feedback diretto e indiretto sulle prestazioni e sulla qualità della tua app LLM. Ciò aiuta gli sviluppatori a creare app LLM credibili e potenti in modo più rapido. Può essere utilizzato per una vasta gamma di casi d’uso LLM, come risposte di chatbot e recupero di informazioni”, ha dichiarato Anupam Datta, cofondatore, presidente e capo scienziato di TruEra, in un’intervista a VentureBeat.

TruLens può essere facilmente integrato nel processo di sviluppo con poche righe di codice. Una volta installato e operativo, gli utenti possono creare le proprie funzioni di feedback personalizzate per casi d’uso specifici o utilizzare le opzioni predefinite.

Al momento, il software offre funzioni di feedback che testano la veridicità delle risposte alle domande, la loro pertinenza, la presenza di linguaggio offensivo o tossico, il sentiment dell’utente, la coerenza linguistica, la verbosità delle risposte, l’equità e i pregiudizi. Inoltre, il software registra anche la frequenza con cui il modello LLM viene interrogato all’interno dell’app, offrendo un modo semplice per tenere traccia dei costi di utilizzo.

“Questo ti aiuta anche a determinare come creare la versione migliore dell’app con il minor costo continuo. Tutti questi interrogativi si accumulano”, ha osservato Datta.

Mentre testare le applicazioni basate su LLM per valutarne le prestazioni e l’accuratezza delle risposte è una necessità attuale, solo poche soluzioni sono state lanciate finora. Tra queste ci sono l’integrazione del monitoraggio del modello di OpenAI da parte di Datadog, la soluzione Pheonix di Arize e la soluzione di monitoraggio dell’IA generativa appena lanciata da Mona Labs con sede in Israele.

TruEra afferma che TruLens è particolarmente utile nella fase di sviluppo delle app LLM. “Attualmente, molte aziende si trovano in questa fase, stanno sperimentando lo sviluppo e hanno bisogno di strumenti che consentano loro di iterare più velocemente e concentrarsi su versioni dell’applicazione che siano efficaci per le loro attività e riducano al minimo i rischi. Naturalmente, può essere utilizzato sia con modelli di sviluppo che di produzione”, ha affermato Datta.

Secondo un sondaggio di Accenture, il 98% dei dirigenti globali è convinto che i modelli di intelligenza artificiale di base giocheranno un ruolo fondamentale nelle strategie delle loro organizzazioni nei prossimi tre-cinque anni. Ciò indica che strumenti come TruLens vedranno un aumento della domanda da parte delle imprese nel prossimo futuro.

Di Fantasy