La startup OctoML, con sede a Seattle, ha annunciato oggi il lancio del suo nuovo servizio di infrastruttura auto-ottimizzante chiamato OctoAI. Questo servizio è stato progettato per aiutare le organizzazioni nella creazione e distribuzione di applicazioni di intelligenza artificiale generativa.
Fondata nel 2019 come spin-off dell’Università di Washington, OctoML ha sviluppato il proprio stack tecnologico basato sul framework di compilazione open source per il machine learning chiamato Apache TVM. Inizialmente, l’obiettivo dell’azienda era di aiutare le organizzazioni ad ottimizzare i modelli di machine learning per la loro implementazione. Questo sforzo ha permesso a OctoML di raccogliere un totale di 131,9 milioni di dollari in finanziamenti, inclusi 85 milioni di dollari in una serie C nel 2021. Nel giugno 2022, OctoML ha ampliato le sue capacità includendo la tecnologia per la trasformazione dei modelli di machine learning in funzioni software. Ora, l’azienda sta compiendo un ulteriore passo avanti con il servizio OctoAI, che si occupa di ottimizzare l’implementazione del machine learning sull’infrastruttura al fine di migliorare le prestazioni e gestire i costi.
Attraverso la sua nuova piattaforma, OctoML sta affrontando il problema dell’ultimo miglio nell’intelligenza artificiale, consentendo la distribuzione dei modelli in modo che gli utenti possano beneficiare della potenza dell’intelligenza artificiale generativa.
Inizialmente, OctoML si rivolgeva ai data scientist che costruivano sistemi di machine learning. Da allora, l’azienda si è evoluta in una piattaforma che fornisce un servizio di ottimizzazione del modello. Questo servizio prende in input il modello e lo ottimizza in pacchetti contenitore.
Tuttavia, nonostante l’ottimizzazione del modello, le organizzazioni dovevano ancora affrontare la sfida di trovare l’infrastruttura di hosting adeguata per l’implementazione. La nuova piattaforma OctoAI affronta questa sfida fornendo un servizio di calcolo completamente gestito.
Come parte di questo nuovo servizio, OctoML offre una libreria di popolari modelli di linguaggio open source che gli sviluppatori possono utilizzare per creare ed estendere le proprie applicazioni. Al momento del lancio, i modelli supportati includono Stable Diffusion 2.1, Dolly v2, LLaMA 65B, Whisper, FlanUL e Vicuna.
OctoML non è l’unico fornitore che sta cercando di aiutare gli sviluppatori nella distribuzione di modelli di linguaggio open source. Anyscale, il principale sponsor commerciale del framework open source per il ridimensionamento del carico di lavoro chiamato Ray ML, ha recentemente offerto servizi simili. Alla fine di maggio, Anyscale ha lanciato il proprio progetto open source chiamato Aviary, che aiuta gli sviluppatori nell’implementazione e nello scaling dei modelli di linguaggio open source.
Secondo le spiegazioni di Ceze, il cofondatore di OctoML, il servizio OctoAI non utilizza Ray per il ridimensionamento dei carichi di lavoro, ma ha sviluppato un proprio approccio proprietario. Il progetto Apache TVM continua a svolgere un ruolo fondamentale nel trasformare un modello in codice che viene eseguito in modo efficiente sulle infrastrutture GPU.
Il servizio OctoAI astrae anche l’infrastruttura cloud fisica su cui vengono eseguiti i modelli. Al momento del lancio, il servizio viene eseguito su Amazon Web Services (AWS), ma l’azienda ha l’intenzione di espandersi ad altri fornitori di servizi cloud. OctoML ha dichiarato che non desidera che gli utenti si debbano preoccupare della complessità sottostante nella scelta di un tipo specifico di processore o istanza cloud per l’esecuzione di un carico di lavoro.