Negli ambiti dell’apprendimento automatico (ML) e dell’intelligenza artificiale (AI), l’etichettatura dei dati è stata a lungo una componente fondamentale per aiutare i data scientist a preparare i dati. Tuttavia, nell’era moderna dell’IA generativa, il ruolo dell’etichettatura dei dati sta subendo dei cambiamenti significativi.
Oggi, Snorkel AI ha annunciato nuove funzionalità che vanno oltre l’etichettatura dei dati, al fine di assistere le organizzazioni nella cura e preparazione dei dati per l’IA generativa. Snorkel AI ha sviluppato una piattaforma di dati che supporta le organizzazioni nel gestire l’aspetto dei dati nell’ambito dell’IA. Nel novembre 2022, l’azienda ha aggiornato la propria tecnologia chiamata Snorkel Flow, fornendo funzionalità che consentono alle organizzazioni di accelerare il processo di etichettatura dei dati utilizzando modelli di linguaggio di grandi dimensioni (LLM), con l’obiettivo di avviare rapidamente il processo stesso.
Oggi Snorkel sta compiendo ulteriori passi avanti con due nuovi servizi: GenFlow, per la creazione di applicazioni di IA generativa, e Snorkel Foundry, che assiste le organizzazioni nella creazione di LLM personalizzati.
Uno dei rischi comuni associati agli strumenti di intelligenza artificiale generativa è quello delle “allucinazioni”, ovvero risposte non accurate fornite dai modelli. Le allucinazioni si verificano quando un modello non è stato addestrato per un compito specifico o non dispone delle informazioni corrette per fornire risposte precise. Una soluzione a questo problema, che molti fornitori stanno perseguendo, è il concetto di “Retrieval Augmented Generation” (RAG), che cita le fonti utilizzate per generare i risultati. Ma cosa accade quando non sono disponibili fonti adeguate? Questo rappresenta una sfida legata ai dati, e Snorkel sta cercando di risolverla attraverso Snorkel Foundry.
Il ruolo di Snorkel Foundry è la cura dei dati. Le organizzazioni possono utilizzare questo servizio per creare un repository di dati durante la fase di pre-formazione, al fine di aiutare i data scientist a ottenere la giusta combinazione di dati per raggiungere gli obiettivi aziendali, riducendo al minimo i pregiudizi e il rischio di allucinazioni.
Mentre alcuni dati posseduti da un’organizzazione possono avere una struttura, come ad esempio un database, si prevede che la maggior parte dei dati sarà probabilmente non strutturata. Snorkel Foundry consente agli utenti di utilizzare tutti i dati non strutturati e li aiuta a selezionare la giusta combinazione di dati per ottenere i migliori risultati con un LLM.
Snorkel Foundry include una funzione di campionamento dei dati che permette agli utenti di valutare l’importanza dei dati in modo euristico o tramite un approccio basato su modelli, al fine di creare il giusto equilibrio di contenuti da utilizzare durante la fase di addestramento del ML.
Dopo la pre-formazione di un LLM, è comune eseguire ulteriori iterazioni per perfezionare le istruzioni, utilizzando approcci come il “Reinforcement Learning from Human Feedback” (RLHF).
Snorkel Flow, che è utilizzato per casi d’uso non generativi di intelligenza artificiale, aiuta a classificare i dati attraverso l’etichettatura corretta. Tuttavia, per gli output generativi di IA, questo tipo di etichettatura non è adeguato, ed è qui che entra in gioco il nuovo servizio GenFlow.
GenFlow si occupa di fornire gli strumenti e le capacità di gestione necessari per fornire un feedback che aiuti a filtrare i punti dati di scarsa qualità, al fine di migliorare l’output dell’IA generativa.
Nonostante tutto il clamore che circonda l’IA generativa negli ultimi mesi, Ratner, fondatore di Snorkel AI, sostiene che a lungo termine il maggior valore aziendale dell’IA deriverà ancora dall’IA predittiva più tradizionale.
Ratner sottolinea che l’etichettatura dei dati rimane importante per attività predittive dell’IA, come la classificazione delle frodi. L’etichettatura dei dati rappresenta fondamentalmente un tipo di feedback che aiuta a migliorare un modello.
Con l’IA generativa, tuttavia, il feedback assume una forma diversa rispetto all’IA predittiva. Invece di etichettare qualcosa come “tipo A” o “tipo B”, il feedback riguarda la preferenza di un individuo per un riassunto o una risposta rispetto a un’altra.