Il mondo dell’informatica ha recentemente visto l’emergere di un nuovo protagonista, Voltron Data, ispirato al celebre robot immaginario Voltron dell’omonimo spettacolo di fantascienza animato. Questa azienda ha fatto il suo sorprendente debutto nel 2022 con un finanziamento di 110 milioni di dollari e ha l’ambizioso obiettivo di unire la potenza di diverse tecnologie open source, tra cui Apache Arrow, Apache Parquet e Ibis, per migliorare l’accesso ai dati.
Oggi, Voltron Data sta facendo un passo avanti nel suo percorso annunciando il nuovo motore di query distribuito denominato “Theseus”. Questo motore è progettato per accelerare notevolmente le query di dati necessarie per carichi di lavoro AI sempre più impegnativi, sfruttando GPU e altri acceleratori hardware.
Josh Patterson, co-fondatore e CEO di Voltron Data, ha dichiarato in un’esclusiva intervista a VentureBeat: “Abbiamo creato Theseus seguendo gli stessi principi che ci hanno guidato nel supportare il mondo open source, con librerie modulari, componibili e accelerate che migliorano i sistemi di gestione dei dati. Questo rappresenta il nostro prossimo passo mentre continuiamo il nostro viaggio per diventare leader nella progettazione e costruzione di sistemi di gestione dati.”
Theseus è stato ottimizzato per eseguire query distribuite su set di dati di grandi dimensioni, raggiungendo fino a 10 terabyte o più. Questo motore è indirizzato alle aziende con esigenze di elaborazione dati su scala petabyte, tra cui aziende Fortune 500, agenzie governative, hedge fund, società di telecomunicazioni e aziende di intrattenimento multimediale.
Uno degli obiettivi principali di Theseus è accelerare le attività di ETL (estrazione, trasformazione, caricamento), l’ingegneria delle funzionalità e altre operazioni di preparazione dei dati, per alimentare più rapidamente i sistemi di analisi e intelligenza artificiale.
Patterson ha sottolineato che molte aziende stanno affrontando sfide nel fornire dati sufficienti e veloci ai loro sistemi di intelligenza artificiale, e Theseus è stato progettato per risolvere questo problema.
L’approccio di Theseus va oltre le tradizionali soluzioni basate su CPU, sfruttando tecnologie di calcolo accelerato, inclusi i processori grafici (GPU). Questa architettura “nativa dell’acceleratore” consente di eseguire query più velocemente rispetto ai tradizionali motori distribuiti basati su CPU come Apache Spark su larga scala.
Un caso d’uso particolarmente interessante per Theseus è l’iperottimizzazione dei parametri, che può aiutare le organizzazioni a migliorare i propri modelli più rapidamente attraverso l’ottimizzazione dei dati e delle funzionalità.
Theseus utilizza standard aperti come Apache Arrow, Apache Parquet e Ibis per garantire l’interoperabilità con altre soluzioni. Questo significa che è possibile interrogare dati da qualsiasi data Lake compatibile con Apache Arrow, rendendo Theseus un’opzione flessibile per una vasta gamma di strumenti e framework di machine learning, tra cui PyTorch, TensorFlow e vari tipi di database a grafo.
È importante notare che Theseus è un sistema di query distribuito e non dispone di una propria interfaccia utente front-end. Tuttavia, è progettato per essere facilmente integrato nei flussi di lavoro esistenti delle organizzazioni.
Voltron Data intende commercializzare Theseus attraverso partnership strategiche, e la prima di queste è con Hewlett Packard Enterprise (HPE). Questa collaborazione permette di offrire Theseus come parte della piattaforma cloud ibrida HPE GreenLake, fornendo un’infrastruttura per eseguire query su diversi motori dati utilizzando Ibis.
Guardando al futuro, Patterson ha dichiarato che Voltron Data prevede di espandere ulteriormente le partnership relative a Theseus e di aggiungere funzionalità personalizzabili per una più stretta integrazione nelle pipeline complete di data science. Il 2024 sarà un anno focalizzato su semplificare e accelerare l’integrazione con diverse fasi delle pipeline di scienza dei dati, dando così più potere agli utenti.