Mostly AI, un’azienda austriaca specializzata nella generazione di dati sintetici, ha annunciato il lancio di una nuova funzionalità di testo sintetico. Questa innovazione è progettata per aiutare le aziende a superare una delle principali sfide nell’addestramento dell’intelligenza artificiale: l’accesso ai dati senza compromettere la privacy.
Con il nuovo strumento, le aziende possono generare versioni sintetiche delle loro informazioni proprietarie, escludendo dati identificabili come informazioni personali (PII) e affrontando le lacune di diversità. Questo consente ai team di addestrare modelli linguistici di grandi dimensioni (LLM) in modo più efficace, accelerando l’innovazione e migliorando il processo decisionale.
La formazione nell’ambito dell’IA sta raggiungendo un punto critico, e le aziende cercano nuove fonti di dati oltre a quelle pubbliche. I dati sintetici rappresentano un’alternativa quando i dati reali sono costosi, non disponibili o inutilizzabili. Secondo Gartner, entro il 2026, il 75% delle aziende utilizzerà l’IA generativa per creare dati sintetici, rispetto a meno del 5% nel 2023.
Tuttavia, i dati sintetici generati dall’IA potrebbero non avere il contesto specifico dell’organizzazione, limitando l’apprendimento dei modelli. Per questo motivo, Mostly AI offre una piattaforma che consente alle aziende di addestrare i propri generatori di IA, producendo dati sintetici direttamente dai loro dataset.
Mostly AI ha già abilitato la generazione di dati tabulari e ora si sta espandendo ai dati di testo, come e-mail e conversazioni di chatbot. Con la nuova funzionalità, gli utenti possono addestrare un generatore di IA usando il loro testo proprietario, creando versioni sintetiche che non contengono PII.
Questa tecnologia cattura le sfumature e le intuizioni del testo originale, supportata da dati strutturati aggiuntivi. Gli utenti possono anche scegliere tra diversi modelli linguistici, come Mistral-7B e Viking-7B, per addestrare il generatore.
Il testo sintetico generato può essere utilizzato per vari casi d’uso, come analisi e applicazioni di IA generativa. Sebbene il prodotto sia appena stato lanciato e non ci siano ancora applicazioni attive, Mostly AI sta valutando l’uso di coppie domanda-risposta, utili per l’addestramento di modelli per il servizio clienti.
La capacità di sfruttare il testo proprietario senza preoccupazioni sulla privacy rende questa funzionalità un’opzione interessante per le aziende che desiderano migliorare i loro sforzi nell’addestramento dell’IA. I risultati preliminari suggeriscono che l’uso di dati sintetici dalla piattaforma ha portato a un miglioramento delle prestazioni del 35% rispetto ai dati generati tramite modelli come GPT-4o-mini.
È importante notare che, sebbene i risultati siano promettenti, non esistono ancora parametri di riferimento che confrontino direttamente le prestazioni del generatore di testo sintetico di Mostly AI con quelli di altri strumenti come Gretel.
Tobias Hann, CEO di Mostly AI, ha dichiarato che la piattaforma ha dimostrato prestazioni superiori rispetto ad altre soluzioni nel mercato, garantendo qualità e privacy nei dati sintetici creati.