Le aziende si trovano ad affrontare una sfida cruciale: garantire che le valutazioni automatizzate dei modelli riflettano accuratamente le aspettative e le preferenze umane. Questo divario di fiducia tra le valutazioni fornite dai modelli di linguaggio e quelle umane può portare a interpretazioni errate delle prestazioni dei modelli e, di conseguenza, a decisioni operative subottimali.

Con l’adozione crescente dei modelli di linguaggio (LLM) per valutare le risposte generate da altri modelli, è emerso un problema significativo: le valutazioni automatizzate spesso non corrispondono a quelle fornite dagli esseri umani. Questo disallineamento può causare confusione e inefficienza, poiché le aziende si affidano a metriche che non riflettono accuratamente la qualità percepita delle risposte.

Per affrontare questa sfida, LangChain ha introdotto Align Evals, uno strumento integrato nella piattaforma LangSmith. Align Evals consente agli utenti di creare valutatori basati su LLM personalizzati e di calibrare questi modelli per allinearli meglio alle preferenze specifiche dell’azienda. Questo processo di calibrazione si concentra sulla regolazione dei prompt di valutazione per migliorare la coerenza tra le valutazioni automatizzate e quelle umane.

Il processo di calibrazione inizia con l’identificazione dei criteri di valutazione pertinenti all’applicazione in esame. Ad esempio, per le applicazioni di chat, la precisione delle risposte potrebbe essere un criterio fondamentale. Successivamente, gli utenti selezionano dati rappresentativi, comprendenti sia esempi positivi che negativi, per fornire ai valutatori umani un quadro completo delle prestazioni del modello.

Una volta raccolti questi dati, gli sviluppatori assegnano manualmente punteggi ai prompt o agli obiettivi del compito, stabilendo così una base di riferimento. Con questi dati, gli utenti possono creare un prompt iniziale per il modello valutatore e iterare utilizzando i risultati di allineamento ottenuti dai valutatori umani. Ad esempio, se un LLM tende a sovrastimare determinate risposte, è possibile aggiungere criteri negativi più chiari per correggere questa tendenza.

LangChain considera Align Evals come il primo passo verso la costruzione di valutatori più efficaci. In futuro, l’azienda prevede di integrare strumenti analitici per monitorare le prestazioni dei valutatori e automatizzare l’ottimizzazione dei prompt, generando variazioni dei prompt in modo automatico per migliorare continuamente l’allineamento con le valutazioni umane.

Di Fantasy