I dati sono preziosi, quindi è stato affermato; è diventato il bene più prezioso del mondo.
E quando si tratta di addestrare modelli di intelligenza artificiale (AI) e machine learning (ML), è assolutamente essenziale.
Tuttavia, a causa di vari fattori, i dati di alta qualità del mondo reale possono essere difficili, a volte persino impossibili, da trovare.
È qui che i dati sintetici diventano così preziosi.
I dati sintetici riflettono i dati del mondo reale, sia matematicamente che statisticamente, ma sono generati nel mondo digitale da simulazioni al computer, algoritmi, modelli statistici, regole semplici e altre tecniche. Ciò si oppone ai dati raccolti, compilati, annotati ed etichettati in base a fonti, scenari e sperimentazioni del mondo reale.
Il concetto di dati sintetici esiste dall’inizio degli anni ’90, quando il professore di statistica di Harvard Donald Rubin ha generato una serie di risposte anonime del censimento statunitense che rispecchiavano quella del set di dati originale (ma senza identificare gli intervistati per indirizzo di casa, numero di telefono o numero di previdenza sociale) .
I dati sintetici sono diventati più ampiamente utilizzati negli anni 2000, in particolare nello sviluppo di veicoli autonomi. Ora, i dati sintetici vengono sempre più applicati a numerosi casi d’uso di IA e ML.
Dati sintetici vs dati reali
I dati del mondo reale sono quasi sempre la migliore fonte di informazioni per i modelli di intelligenza artificiale e ML (perché, beh, sono reali). Detto questo, spesso può essere semplicemente non disponibile, inutilizzabile a causa di normative e vincoli sulla privacy, sbilanciato o costoso. Gli errori possono essere introdotti anche per bias.
A questo punto, Gartner stima che fino al 2022, l’85% dei progetti di intelligenza artificiale produrrà risultati errati.
“I dati del mondo reale sono casuali e non contengono tutte le permutazioni di condizioni o eventi possibili nel mondo reale”, ha affermato Alexander Linden, VP analista di Gartner, in una sessione di domande e risposte condotta dall’azienda.
I dati sintetici possono contrastare molte di queste sfide . Secondo esperti e professionisti, è spesso più veloce, più facile e meno costoso da produrre e non ha bisogno di essere pulito e mantenuto. Rimuove o riduce i vincoli nell’utilizzo di dati sensibili e regolamentati, può tenere conto dei casi limite, può essere adattato a determinate condizioni che altrimenti potrebbero essere irraggiungibili o non si sono ancora verificate e può consentire approfondimenti più rapidi. Inoltre, la formazione è meno ingombrante e molto più efficace, in particolare quando i dati reali non possono essere utilizzati, condivisi o spostati.
Come osserva Linden, a volte le informazioni iniettate nei modelli di intelligenza artificiale possono rivelarsi più preziose dell’osservazione diretta. Allo stesso modo, alcuni affermano che i dati sintetici sono migliori di quelli reali, persino rivoluzionari.
Le aziende applicano dati sintetici a una varietà di casi d’uso: test di software, marketing, creazione di gemelli digitali, test di sistemi di intelligenza artificiale per pregiudizi o simulazione del futuro, futuri alternativi o metaverso. Le banche e le istituzioni finanziarie utilizzano dati sintetici per esplorare i comportamenti di mercato, prendere decisioni di prestito migliori o combattere le frodi finanziarie, spiega Linden. I rivenditori, nel frattempo, fanno affidamento su di esso per sistemi di cassa autonomi, negozi senza cassiere e analisi dei dati demografici dei clienti.
“Quando combinati con dati reali, i dati sintetici creano un set di dati avanzato che spesso può mitigare i punti deboli dei dati reali”, afferma Linden.
Tuttavia, avverte che i dati sintetici presentano rischi e limiti. La sua qualità dipende dalla qualità del modello che lo ha creato, può essere fuorviante e portare a risultati inferiori e potrebbe non essere “sicuro al 100%” dal punto di vista della privacy.
Poi c’è lo scetticismo degli utenti: alcuni li hanno definiti “dati falsi” o “dati inferiori”. Inoltre, man mano che diventa più ampiamente adottato, i leader aziendali possono porre domande sulle tecniche di generazione dei dati, sulla trasparenza e sulla spiegabilità.
Crescita reale per i dati sintetici
In una previsione spesso citata da Gartner, entro il 2024 il 60% dei dati utilizzati per lo sviluppo di progetti di intelligenza artificiale e analisi sarà generato sinteticamente. In effetti, l’azienda ha affermato che modelli di IA di alta qualità e di alto valore semplicemente non sarebbero possibili senza l’uso di dati sintetici. Gartner stima inoltre che entro il 2030 i dati sintetici eclisseranno completamente i dati reali nei modelli di intelligenza artificiale.
“L’ampiezza della sua applicabilità lo renderà un acceleratore critico per l’IA”, afferma Linden. “I dati sintetici rendono possibile l’IA laddove la mancanza di dati rende l’IA inutilizzabile a causa di pregiudizi o incapacità di riconoscere scenari rari o senza precedenti”.
Secondo Cognilytica, il mercato per la generazione di dati sintetici era di circa 110 milioni di dollari nel 2021. La società di ricerca prevede che raggiungerà 1,15 miliardi di dollari entro il 2027. Grand View Research prevede che il mercato dei set di dati di formazione AI raggiungerà più di 8,6 miliardi di dollari entro il 2030, rappresentando un composto tasso di crescita annuo (CAGR) di poco superiore al 22%.
E man mano che il concetto cresce, crescono anche i contendenti.
Un numero crescente di startup sta entrando nello spazio dei dati sintetici e ricevendo in tal modo finanziamenti significativi. Questi includono Datagen , che ha recentemente chiuso una serie B da 50 milioni di dollari; Gretel.ai, con una serie B da 50 milioni di dollari; MostlyAI , con una serie B da 25 milioni di dollari; e Synthesis AI , con una serie A da 17 milioni di dollari.
Altre società nello spazio includono Sky Engine, OneView, Cvedia e la società leader di ingegneria dei dati Innodata, che ha recentemente lanciato un portale di e-commerce in cui i clienti possono acquistare set di dati sintetici on-demand e addestrare immediatamente i modelli. Sono inoltre disponibili diversi strumenti open source: Synner, Synthea, Synthetig e The Synthetic Data Vault.
Allo stesso modo, Google, Microsoft, Facebook, IBM e Nvidia stanno già utilizzando dati sintetici o stanno sviluppando motori e programmi per farlo.
Amazon, da parte sua, ha fatto affidamento su dati sintetici per generare e mettere a punto il suo assistente virtuale Alexa. L’azienda offre anche WorldForge, che consente la generazione di scene sintetiche, e ha appena annunciato alla conferenza re:MARS (Machine Learning, Automation, Robotics and Space) la scorsa settimana che il suo strumento SageMaker Ground Truth può ora essere utilizzato per generare immagini sintetiche etichettate dati.
“La combinazione dei dati del mondo reale con i dati sintetici aiuta a creare set di dati di addestramento più completi per l’addestramento dei modelli ML”, ha affermato Antje Barth, principale sostenitore degli sviluppatori di AI e ML presso Amazon Web Services (AWS) in un post sul blog pubblicato in collaborazione con re:MARTE.
Come i dati sintetici migliorano il mondo reale, migliorati
Barth ha descritto la costruzione di modelli ML come un processo iterativo che coinvolge la raccolta e la preparazione dei dati, l’addestramento del modello e la distribuzione del modello.
All’inizio, un data scientist potrebbe passare mesi a raccogliere centinaia di migliaia di immagini dagli ambienti di produzione. Un grosso ostacolo in questo è rappresentare tutti i possibili scenari e annotarli correttamente. L’acquisizione di variazioni potrebbe essere impossibile, come nel caso di rari difetti del prodotto. In tal caso, gli sviluppatori potrebbero dover danneggiare intenzionalmente i prodotti per simulare vari scenari.
Poi arriva il processo costoso, soggetto a errori e dispendioso in termini di tempo per etichettare manualmente le immagini o creare strumenti di etichettatura, sottolinea Barth.
AWS ha introdotto SageMaker Ground Truth, la nuova funzionalità del servizio di etichettatura dei dati di Amazon, per semplificare, snellire e migliorare questo processo. Il nuovo strumento crea immagini sintetiche e fotorealistiche.
Attraverso il servizio, gli sviluppatori possono creare un numero illimitato di immagini di un determinato oggetto in diverse posizioni, proporzioni, condizioni di illuminazione e altre variazioni, spiega Barth. Questo è fondamentale, osserva, poiché i modelli imparano meglio quando hanno un’abbondanza di immagini campione e dati di addestramento che consentono loro di calcolare numerose variazioni e scenari.
I dati sintetici possono essere creati tramite il servizio in enormi quantità con etichette “altamente accurate” per le annotazioni su migliaia di immagini. La precisione dell’etichetta può essere eseguita con una granularità fine, ad esempio a livello di suboggetto o pixel, e in tutte le modalità, inclusi riquadri di delimitazione, poligoni, profondità e segmenti. Gli oggetti e gli ambienti possono anche essere personalizzati con variazioni di elementi come illuminazione, texture, pose, colori e sfondo.
“In altre parole, puoi ‘ordinare’ il caso d’uso esatto per il quale stai addestrando il tuo modello ML”, afferma Barth.
Aggiunge che “se combini i tuoi dati del mondo reale con dati sintetici, puoi creare set di dati più completi ed equilibrati, aggiungendo una varietà di dati che potrebbe mancare ai dati del mondo reale”.
Qualsiasi scenario
In SageMaker Ground Truth, gli utenti possono richiedere nuovi progetti di dati sintetici, monitorarli in corso e visualizzare batch di immagini generate una volta che sono disponibili per la revisione.
Dopo aver stabilito i requisiti del progetto, un team di sviluppo del progetto AWS crea piccoli batch di test raccogliendo input tra cui foto di riferimento e fonti 2D e 3D, spiega Barth. Questi vengono quindi personalizzati per rappresentare qualsiasi variazione o scenario, come graffi, ammaccature e trame. Possono anche creare e aggiungere nuovi oggetti, configurare distribuzioni e posizioni di oggetti in una scena e modificare le dimensioni, la forma, il colore e la struttura della superficie degli oggetti.
Una volta preparati, gli oggetti vengono renderizzati tramite un motore fisico fotorealistico ed etichettati automaticamente. Durante tutto il processo, le aziende ricevono un rapporto sulla fedeltà e sulla diversità che fornisce statistiche a livello di immagine e oggetto per “aiutare a dare un senso” alle immagini sintetiche e confrontarle con immagini reali, ha affermato Barth.
“Con i dati sintetici”, ha detto, “hai la libertà di creare qualsiasi ambiente di immagini”.