Oggi, Datasaur, una piattaforma di etichettatura dei dati, ha presentato una nuova funzionalità che permette agli utenti di etichettare i dati e addestrare il proprio modello personalizzato di ChatGPT. Questo strumento innovativo offre un’interfaccia intuitiva che permette sia alle persone tecniche che a quelle non tecniche di valutare e classificare le risposte del modello linguistico, trasformandole in informazioni utili.
Con il presidente di OpenAI, Greg Brockman, tra i primi investitori, l’azienda ha annunciato che questa nuova offerta è una risposta diretta alla crescente importanza dell’elaborazione del linguaggio naturale (NLP), in particolare dei modelli di linguaggio di grandi dimensioni (LLM) come ChatGPT.
Datasaur sostiene che i professionisti di svariati settori sono interessati a sfruttare questa tecnologia in modo efficace. Tuttavia, la necessità di maggiore chiarezza e approcci standardizzati nella creazione e nell’addestramento di modelli personalizzati presenta costantemente delle sfide. Molti incontrano difficoltà nel mettere a punto e migliorare le prestazioni dei numerosi modelli open source disponibili.
In risposta a questo scenario in continua evoluzione, l’azienda si propone di offrire un supporto completo agli utenti nella creazione dei loro set di dati di addestramento.
Datasaur afferma che le sue più recenti aggiunte, la Valutazione e la Classifica, sono gli strumenti di addestramento di modelli più semplici da usare attualmente sul mercato.
Con la Valutazione, gli annotatori umani possono valutare la qualità delle risposte prodotte dal LLM e determinare se soddisfano determinati criteri di qualità.
La Classifica semplifica il processo di apprendimento per rinforzo tramite il feedback umano (RLHF).
Oltre alle nuove funzionalità, la piattaforma introduce una modalità di revisione che consente ai data scientist di assegnare più annotatori, riducendo così al minimo i pregiudizi soggettivi. Questa modalità facilita l’individuazione e la risoluzione delle discrepanze tra gli annotatori quando si tratta di domande specifiche, permettendo ai data scientist di prendere la decisione finale.
La funzione Inter-Annotator Agreement (IAA) della piattaforma utilizza calcoli statistici per valutare il livello di accordo o disaccordo tra gli annotatori. Questo strumento aiuta i data scientist a individuare gli annotatori che potrebbero necessitare di ulteriore formazione e a riconoscere quelli che dimostrano un’innata competenza per questo tipo di lavoro.
Inoltre, la piattaforma fornisce il documento originale da cui il LLM ha tratto le informazioni. Questo serve a prevenire eventuali interpretazioni errate e a garantire trasparenza nel processo utilizzato dal LLM.
Lee di Datasaur ha affermato che i professionisti del settore potrebbero non considerare i modelli di OpenAI come opzioni praticabili a causa di fattori come la conformità, la privacy dei dati o considerazioni strategiche. Lee ha anche sottolineato che l’attuale focalizzazione dei LLM sulla lingua inglese impedisce agli utenti di tutto il mondo di trarre pieno vantaggio da questi progressi tecnologici.
L’azienda sostiene che la sua piattaforma ha il potenziale per ridurre i tempi e i costi associati all’etichettatura dei dati dal 30% all’80%.
Per automatizzare l’etichettatura dei dati, la piattaforma utilizza una serie di tecniche. Fa uso di modelli open source consolidati come spaCy e NLTK per identificare entità comuni. Inoltre, adotta il metodo di supervisione debole per la programmazione dei dati, permettendo agli ingegneri di creare funzioni semplici che etichettano automaticamente tipi di entità specifici. Ad esempio, se un testo contiene parole chiave come “pizza” o “hamburger”, la piattaforma lo classificherà come “cibo”.
La piattaforma incorpora anche un’API OpenAI integrata, che consente ai clienti di richiedere a ChatGPT di etichettare i loro documenti. L’azienda afferma che questo approccio può ottenere risultati molto validi a seconda della complessità del compito, aprendo nuove possibilità nell’automazione.
Secondo Lee, la funzione RLHF della piattaforma rappresenta uno dei metodi più efficaci per migliorare le capacità di addestramento di un LLM. Questo approccio, ha affermato, permette agli utenti di valutare rapidamente e senza sforzo una serie di output del modello e identificarne i migliori, eliminando così la necessità di intervento manuale.
Gli investimenti nell’NLP nel mercato stanno crescendo e si prevede una rapida evoluzione dei prodotti basati sui LLM.
Lee ha dichiarato che nei prossimi anni ci sarà un’enorme crescita nello sviluppo di applicazioni che pongono l’accento sulla tecnologia LLM.