Tonic.ai, che sfrutta l’intelligenza artificiale per generare dati tabulari sintetici, raccoglie 35 milioni di dollari
Tonic.ai , una società che imita i dati di produzione con dati falsi che possono essere utilizzati per l’assicurazione della qualità e i test, ha annunciato oggi di aver raccolto 35 milioni di dollari in finanziamenti di serie B guidati da Insight Partners con la partecipazione di GGV Capital, Bloomberg Beta, William Smith di Investimenti CISO Octave, Heavybit e Silicon Valley. I fondi verranno utilizzati per migliorare le relazioni con gli sviluppatori e supportare lo sviluppo futuro della piattaforma, con particolare attenzione all’implementazione dell’apprendimento automatico e dell’intelligenza artificiale per sintetizzare i set di dati di test, secondo il CEO Ian Coe.
Il mercato dei dati sintetici sta crescendo rapidamente. Secondo un’analisi , delle 58 startup più grandi dello spazio, il 45% è stato creato negli ultimi due anni. Nel 2020, le società di venture capital hanno iniettato almeno 78 milioni di dollari in queste startup, un aumento del 78% rispetto al 2019, portando il segmento a oltre 210 milioni di dollari di valore.
Fondata nel 2018 e con uffici a San Francisco e Atlanta, Tonic fornisce strumenti aziendali per la deidentificazione, la sintesi, la creazione di sottoinsiemi e altro ancora. La piattaforma consente agli sviluppatori di creare versioni sintetiche dei propri dati da utilizzare nello sviluppo e nei test, adottando misure per proteggere la privacy dei clienti, afferma Coe.
“Andrew Colombi, Adam Kamor, Karl Hanson, [e io] eravamo diversi ingegneri dello sviluppo aziendale seduti in loco in un edificio vuoto che cercavano di eseguire il debug di un codice difettoso”, ha detto Coe a VentureBeat via e-mail. “Avevamo un grande e brillante team di sviluppo a Palo Alto desideroso di aiutarci, ma non avevano modo di inviare agli sviluppatori i dati che causavano tutti i problemi. I dati erano dati riservati del cliente contenenti una miriade di informazioni personali identificabili. [È stato allora che abbiamo] avuto l’idea di costruire una piattaforma che aiutasse a navigare intorno a questi problemi”.
Dati falsi
I dati sintetici sono informazioni annotate generate come alternativa ai dati del mondo reale. I dati sintetici rispecchiano da vicino i dati del mondo reale, matematicamente o statisticamente. E mentre la giuria è fuori dalla sua accuratezza, alcune ricerche suggeriscono che può essere utile per addestrare un modello rispetto a dati basati su oggetti, eventi o persone reali.
La piattaforma di Tonic sfrutta l’intelligenza artificiale per preservare rapporti, relazioni e dipendenze all’interno di determinati dati. Applica la privacy differenziale durante le trasformazioni dei dati per attutire l’impatto dei valori anomali e fornire garanzie matematiche di privacy. Inoltre, Tonic consente di collegare e partizionare le colonne tra tabelle o database per rispecchiare la complessità dei dati e garantire che gli input siano mappati agli stessi output. E contrassegna le informazioni sensibili per avvisare gli utenti di modifiche fino a decine di migliaia di righe di database e centinaia di tabelle.
“Utilizziamo le reti GAN (generative adversarial networks) quando applichiamo l’apprendimento automatico per automatizzare il processo di sintesi dei dati”, ha affermato Coe. “Gli sviluppatori hanno bisogno di dati di test per testare il software in ambienti di pre-produzione. Negli sviluppi software più grandi al mondo, i set di dati e gli schemi sono estremamente grandi e complicati. Ciò significa che la creazione di script o la creazione manuale di set di dati di test è quasi impossibile. L’utilizzo dei dati di produzione è illegale secondo leggi come HIPAA, PCI e GDPR.
Tonic, che compete con Delphix, Gretel.ai, Mostly AI e Hazy nel mercato emergente della generazione di dati sintetici, afferma di aver quadruplicato le dimensioni del suo team a 40 nell’ultimo anno, aumentando le entrate di oltre il 600%. La società conta attualmente eBay, The Motley Fool, Flexport, Dreambox ed Everlywell tra i suoi clienti, così come altri nei settori dell’assistenza sanitaria, dei servizi finanziari, dell’istruzione, della logistica e dell’e-commerce.
“Vogliamo promuovere l’adozione di massa di dati sintetici all’interno delle moderne pipeline CI/CD”, ha continuato Coe. “Tonic offre la possibilità di imitare i dati di produzione mantenendo l’utilità e il comportamento dei dati per sviluppatori, analisti e team DevOps”.
In un rapporto del giugno 2021 sui dati sintetici, Gartner ha previsto entro il 2030, la maggior parte dei dati utilizzati nell’IA sarà generata artificialmente da regole, modelli statistici, simulazioni o altre tecniche. Se la tendenza attuale regge e aziende come Tonic hanno la meglio, potrebbe essere così.