Nel mondo dei dati, esistono “big data” e poi ci sono i “big data” veri e propri, dove ci sono trilioni di righe di informazioni. Questo è esattamente il terreno in cui opera Ocient, un’azienda con sede a Chicago che si specializza in tecnologie per data warehouse su larga scala.
Oggi, l’azienda ha presentato una serie di nuove funzionalità che ampliano la sua piattaforma di dati su vasta scala, rendendola ideale per l’analisi dei dati geospaziali, l’apprendimento automatico (ML) e l’intelligenza artificiale (AI). Integrata nel prodotto Hyperscale Data Warehouse di Ocient, la nuova funzionalità chiamata OcientGeo offre una vasta libreria di funzioni geospaziali e un indice spaziale ottimizzato a livello globale. Con OcientGeo, le aziende ora possono catturare ed elaborare enormi quantità di dati geospaziali, sia storici che in tempo reale, per generare informazioni di valore. Inoltre, l’integrazione di strumenti di ML consente alle aziende di accelerare le loro iniziative di intelligenza artificiale geospaziale.
Ocient promette di fornire un’elaborazione e uno storage altamente ottimizzati per gestire carichi di dati di scala gigantesca, senza la necessità di ricorrere alle GPU.
Chris Gladwin, CEO di Ocient, ha dichiarato a VentureBeat: “Ci concentriamo sui carichi di lavoro altamente scalabili, e in una query media di Ocient, che sia SQL, machine learning o geospaziale, il numero medio di elementi esaminati è probabilmente dell’ordine di un trilione di entità.”
Molte organizzazioni oggi utilizzano le GPU per migliorare le prestazioni in una varietà di casi d’uso che richiedono elaborazione accelerata. Tuttavia, Ocient sta seguendo una strada diversa per potenziare il proprio data warehouse.
L’elemento chiave per realizzare tutto ciò, secondo Gladwin, è una parallelizzazione estrema a tutti i livelli. Ha spiegato che, anche con algoritmi di ML per clustering, regressione e classificazione, le operazioni effettive sulla CPU spesso non costituiscono un collo di bottiglia. Invece, il vero problema risiede nella densità di elaborazione, poiché è necessaria una potenza di elaborazione significativa per ogni terabyte di dati.
La sfida principale è garantire un throughput adeguato in tutta la catena di elaborazione, compresi storage e memoria. È qui che Ocient si distingue, grazie a una tecnologia sviluppata per ottimizzare la memoria e i sistemi di archiviazione basati su unità a stato solido (SSD) veloci.
Il data warehouse di Ocient ha iniziato con query sui dati SQL, ma la stessa architettura che permette query di analisi veloci su enormi dataset è ora alla base di OcientML e delle funzionalità di OcientGeo.
Gladwin ha sottolineato che i vantaggi delle prestazioni altamente scalabili, l’analisi in tempo reale e il caricamento dei dati forniti da Ocient sono ora disponibili anche per il machine learning. OcientML consente ai clienti di eseguire l’apprendimento automatico su dataset con miliardi, centinaia di miliardi o trilioni di punti dati con un rapporto prezzo-prestazioni migliore rispetto alle alternative. Inoltre, offre funzionalità come la gestione del carico di lavoro per garantire un accesso equo alle risorse in diverse query e analisi su larga scala. OcientML integra direttamente lo stack ML nell’Ocient Hyperscale Data Warehouse, eliminando la necessità di estrarre, trasformare e caricare i dati su una piattaforma separata.
Tra i vantaggi di OcientML ci sono una maggiore precisione del modello grazie alla completa interazione con i dati storici e attuali, iterazioni più rapide grazie all’eliminazione delle fasi di movimentazione dei dati e operazioni semplificate grazie alla gestione congiunta di SQL e ML all’interno di un unico sistema.
La funzionalità OcientGeo segue una struttura simile a OcientML, essendo parte integrante dell’Ocient Hyperscale Data Warehouse e beneficiando della massiccia parallelizzazione della piattaforma. Con OcientGeo, i clienti possono condurre query, analisi e operazioni geospaziali su vasti dataset direttamente all’interno della piattaforma Ocient, evitando di dover estrarre grandi quantità di dati. Questo consente di effettuare query e analisi su trilioni di punti dati con componenti geospaziali su vasta scala in pochi secondi.
Chris Gladwin ha concluso: “Stiamo appena iniziando il percorso per abilitare nuovi utilizzi che possono essere resi possibili solo migliorando il prezzo e le prestazioni dell’analisi su vasta scala di almeno dieci volte o più.”