DataGen assicura investimenti per 18 milioni di dollari per creare dati sintetici per le intelligenze artificiali
La startup israeliana DataGen ha recentemente raccolto 18,5 milioni di dollari per finanziare la creazione di una piattaforma dedicata alla produzione di dati sintetici per le aziende di intelligenza artificiale.
Qualsiasi azienda di intelligenza artificiale deve affrontare la stessa sfida principale, raccogliendo i dati necessari per addestrare i propri modelli di intelligenza artificiale. La necessità di dati di formazione di alta qualità è così grande che ha portato a un intero sotto-settore dedicato a fornire alle aziende di intelligenza artificiale i dati di cui hanno bisogno per addestrare i loro modelli. AI e aziende adiacenti AI sono sempre alla ricerca di nuovi modi per ottenere i dati di cui hanno bisogno. Un modo per ottenere questi dati di addestramento è semplicemente fabbricare o generare i dati.
Come riportato da Fortune, DataGen è specializzato nell’utilizzo dei propri modelli di apprendimento automatico per creare dati sintetici per consentire ad altre aziende di addestrare i propri modelli, in particolare dati di immagini e video. I dati generati dall’azienda vengono quindi utilizzati dai clienti per addestrare i propri modelli di intelligenza artificiale. Secondo il CEO e fondatore di DataGen, Ofir Chakon, l’azienda può creare un set di dati sintetico completo per un’azienda cliente in poche ore. Questo è sostanzialmente più veloce del tempo normalmente necessario per preparare un set di dati per l’uso, che è spesso settimane o addirittura mesi di etichettatura dei dati.
Ci sono altri motivi per cui i dati sintetici sono attraenti per le aziende, a parte la relativa velocità con cui possono essere preparati. I dati sintetici non vengono forniti con i tipi di problemi di privacy dei dati reali. Man mano che vengono create più leggi per proteggere la privacy dei dati delle persone, diventa più interessante disporre di dati di formazione sintetici. Una stima fornita dalla società di analisi tecnologica Gartner prevede che entro il 2023 circa il 65% della popolazione mondiale avrà i propri dati protetti da un qualche tipo di legge sulla privacy dei dati.
Nonostante il fatto che i dati sintetici non siano basati su persone reali, possono comunque essere prevenuti. I dati generati da un modello di dati sintetico avranno gli stessi modelli dei dati di addestramento originali, il che significa che se un set di dati è distorto, tali pregiudizi saranno presenti nei dati appena generati. DataGen ha strategie per ridurre la distorsione dei dati nei dati generati. Un metodo per ridurre la distorsione nei dati sintetici è aumentare il tasso di occorrenza di eventi relativamente rari, il che significa che se una classe nel set di dati è sottorappresentata, la sua frequenza di occorrenza può essere aumentata fino a qualcosa di più uguale.
La tecnica per aumentare il verificarsi di eventi rari è incredibilmente importante quando si creano set di dati che coinvolgono scenari potenzialmente pericolosi. Considera un set di dati utilizzato per addestrare un veicolo autonomo. Il veicolo deve rispondere in modo affidabile a eventi rari, come una voragine che si apre sulla strada. Tuttavia, questi eventi sono molto rari e ottenere i dati di addestramento per questi eventi è difficile. Per questo motivo, spesso è necessario generare dati di addestramento per questi rari eventi.
Come ha spiegato Chakon tramite Fortune:
“I nostri clienti hanno il pieno controllo su tutti i parametri che entrano nei dati che creano. L’implicazione nel mondo reale è che, una volta implementato, puoi essere certo che funzionerà bene in diversi domini, con diverse etnie, in diverse località geografiche o in qualsiasi ambiente tu possa immaginare “.
DataGen utilizza i GAN (Generative Adversarial Network) per generare simulazioni realistiche di oggetti ed eventi del mondo reale. Chakon ha spiegato che l’azienda può generare in modo affidabile esempi realistici di tutto ciò che coinvolge gli ambienti interni o la percezione umana. Ad esempio, un set di dati immagine generato da DataGen potrebbe includere esempi di oggetti utilizzati per addestrare un braccio di prelievo robotico utilizzato per la logistica di magazzino, con le immagini generate che sembrano indistinguibili dall’oggetto reale. Il software di DataGen può generare oggetti 3D combinando un reticolo visivo con un sistema di simulazione fisica.
Gli investitori in DataGen includono una varietà di individui e società di alto profilo. Gli investitori includono i direttori della divisione di ricerca AI di Nvidia e il Max Plank Institute for Intelligent Systems, così come Anthony Goldbloom, CEO di Kaggle.