È ormai chiaro a tutti che le aziende stanno impegnandosi a varie velocità per esplorare e sfruttare i benefici dell’intelligenza artificiale generativa, cercando di farlo in modo intelligente, sicuro ed economicamente vantaggioso. Questo è stato dimostrato da numerosi sondaggi nel corso dell’ultimo anno.
Tuttavia, una volta che un’organizzazione individua uno o più modelli linguistici di grandi dimensioni (LLM) che desidera utilizzare, il cammino da percorrere è ancora lungo. Infatti, implementare con successo un LLM per trarne vantaggio richiede la comprensione delle migliori istruzioni che i dipendenti o i clienti possono utilizzare per ottenere risultati utili (altrimenti risulterebbe praticamente inutile). È altrettanto importante stabilire quali dati includere in tali istruzioni, sia dal punto di vista dell’organizzazione che dell’utente.
“Non è possibile prendere semplicemente una dimostrazione di un LLM da Twitter e applicarla al mondo reale”, ha sottolineato Aparna Dhinakaran, cofondatrice e chief product officer di Arize AI. “In realtà, questo approccio fallirebbe. Quindi, come si può individuare dove avviene il fallimento? E come si può capire cosa migliorare? Questi sono i punti su cui focalizziamo la nostra attenzione.”
Arize AI, un fornitore di software di machine learning business-to-business (B2B) attivo da tre anni, ha sempre avuto come obiettivo rendere l’intelligenza artificiale più osservabile (meno tecnica e più comprensibile) per le organizzazioni. Oggi, durante la conferenza Cloud Next ’23 di Google, ha annunciato alcune delle prime funzionalità nel settore per ottimizzare le prestazioni dei LLM implementati dalle aziende. Queste includono un nuovo “Prompt Playground” per selezionare ed eseguire iterazioni di prompt archiviati progettati per scopi aziendali, nonché un nuovo flusso di lavoro di recupero di generazione aumentata (RAG) per aiutare le organizzazioni a capire quali dati potrebbero migliorare le risposte di un LLM.
Circa un anno fa, Arize ha fatto il suo debutto sulla piattaforma iniziale di Google Cloud Marketplace. Ora sta rafforzando la sua presenza con queste nuove e potenti funzionalità per i suoi clienti aziendali.
I nuovi flussi di lavoro di ingegneria dei prompt di Arize, tra cui il Prompt Playground, consentono ai team di individuare modelli di prompt con prestazioni scarse, iterarli in tempo reale e valutare i miglioramenti degli output LLM prima della distribuzione.
L’analisi dei prompt rappresenta un aspetto cruciale ma spesso trascurato nel risolvere le problematiche legate alle prestazioni di un LLM. Questo può essere migliorato semplicemente testando vari modelli di prompt o eseguendo iterazioni su di essi per ottenere risposte migliori.
Grazie a questi nuovi flussi di lavoro, i team possono facilmente:
- Individuare risposte con feedback negativo da parte degli utenti o punteggi di valutazione bassi
- Identificare il modello di prompt sottostante associato alle risposte scadenti
- Migliorare il modello di prompt esistente per coprire scenari limite
- Confrontare le risposte tra i modelli di prompt nel Prompt Playground prima dell’implementazione
Secondo quanto spiegato da Dhinakaran, l’ingegneria tempestiva è di fondamentale importanza per rimanere competitivi nel mercato attuale dei LLM. I nuovi flussi di lavoro di analisi e iterazione dell’azienda aiutano i team a garantire che i loro prompt coprano i casi d’uso necessari e gli scenari marginali che possono emergere con utenti reali.
“È essenziale assicurarsi che il prompt inserito nel modello sia di alta qualità per rimanere competitivi”, ha affermato Dhinakaran. “Ciò che abbiamo lanciato aiuta i team a progettare prompt migliori per ottenere migliori prestazioni. È semplice: li guidiamo nell’assicurarsi che il messaggio sia efficace e copra tutti i casi necessari.”
A titolo di esempio, le richieste a un chatbot LLM nel campo dell’istruzione devono garantire l’assenza di risposte inappropriate, mentre le richieste del servizio clienti devono coprire possibili scenari limite e dettagli legati ai servizi offerti o meno.
Arize sta anche fornendo informazioni innovative riguardo ai dati privati o contestuali che influenzano i risultati del LLM, ciò che Dhinakaran definisce la “salsa segreta” fornita dalle aziende. L’azienda esamina unicamente gli incorporamenti per valutare la rilevanza dei dati privati inseriti nei prompt.
“Abbiamo implementato un metodo per consentire ai team di intelligenza artificiale di monitorare e valutare i loro prompt, migliorarli e comprendere specificamente i dati privati inclusi in quei prompt, perché la componente dei dati privati ha un ruolo cruciale”, ha dichiarato Dhinakaran.
Dhinakaran ha dichiarato che le aziende possono implementare le proprie soluzioni on-premise per motivi di sicurezza e in conformità con le normative SOC-2.
Queste nuove funzionalità consentono di verificare se i prompt contengono il contesto adeguato per gestire le query degli utenti reali. I team possono identificare le aree in cui potrebbe essere necessario aggiungere più contenuti per rispondere a domande comuni che al momento non sono trattate dalla base di conoscenza esistente.
“Attualmente, nessun altro sta davvero affrontando in modo approfondito le sfide legate ai dati privati, che costituiscono la chiave di volta dell’influenza aziendale”, ha osservato Dhinakaran.
Inoltre, Arize ha introdotto flussi di lavoro aggiuntivi basati sulla ricerca e il recupero per aiutare i team a risolvere le problematiche legate alla componente di recupero dei modelli RAG.
Questi flussi di lavoro consentiranno ai team di individuare dove potrebbe essere necessario aggiungere ulteriore contesto alla base di conoscenza, identificare i casi in cui il recupero non ha portato alla luce le informazioni più rilevanti e capire le ragioni per cui il loro LLM potrebbe aver prodotto risposte non ottimali o incorso in allucinazioni.
Dhinakaran ha fornito un esempio di come Arize analizza le query e gli incorporamenti nella base di conoscenza per individuare documenti recuperati inutili che potrebbero aver portato a risposte errate.
“Supponiamo che si selezioni una domanda posta dall’utente nel nostro prodotto: verranno mostrati tutti i documenti rilevanti che avrebbero potuto essere estratti e quali sono stati alla fine utilizzati nella risposta effettiva”, ha spiegato Dhinakaran. In questo modo, “è possibile vedere dove il modello potrebbe aver prodotto risposte non ottimali o incorso in allucinazioni a causa di limiti nella base di conoscenza”.
Questo approccio completo alla risoluzione dei problemi, che copre prompt, dati privati e recupero, è progettato per aiutare i team a ottimizzare responsabilmente i LLM dopo la distribuzione iniziale, quando i modelli spesso faticano a gestire la complessità del mondo reale.
Dhinakaran ha riassunto l’obiettivo di Arize in questo modo: “La nostra soluzione non si ferma al primo giorno; ci impegniamo a garantire che funzioni nel lungo periodo.”
L’azienda mira a fornire le funzionalità di monitoraggio e risoluzione dei problemi che spesso mancano alle organizzazioni, in modo che possano migliorare costantemente i loro LLM dopo la fase iniziale di implementazione. Questo permette loro di passare dalla teoria all’impatto tangibile nel mondo reale, in tutti i settori.