Databricks ha annunciato una nuova funzionalità progettata per ottimizzare l’inferenza di modelli linguistici di grandi dimensioni (LLM) con il suo servizio Mosaic AI Model Serving. Questa innovazione consente alle organizzazioni di implementare in modo semplice e scalabile l’inferenza batch di LLM, migliorando notevolmente l’efficienza e la velocità di elaborazione dei dati non strutturati.
Grazie a questa nuova funzionalità, il servizio di modelli di Databricks supporta l’elaborazione batch, consentendo di gestire simultaneamente più richieste anziché elaborarle singolarmente. Ciò riduce la latenza, rendendo il sistema ideale per le applicazioni che richiedono risposte in tempo reale. Inoltre, il sistema è progettato per essere facile da usare, offrendo un’interfaccia intuitiva per configurare rapidamente i task di inferenza senza bisogno di complesse operazioni di codifica.
Il sistema si adatta dinamicamente al carico di lavoro, garantendo prestazioni ottimali durante i picchi di domanda. Integrato nella piattaforma Databricks, il servizio sfrutta i data lake esistenti e i notebook collaborativi per migliorare i flussi di lavoro di addestramento e distribuzione dei modelli. Inoltre, con il Unity Catalog, gli utenti possono gestire la governance dei dati in modo più efficiente, eseguendo l’inferenza batch senza dover esportare dati in formati come CSV.
Databricks ha rafforzato la sua posizione nel settore grazie a una partnership quinquennale con Amazon Web Services (AWS), che punta sull’uso dei chip Trainium AI di Amazon per ridurre i costi delle applicazioni generative. Questo accordo promette di rendere l’intelligenza artificiale più accessibile e conveniente per le imprese.
Con l’acquisizione di MosaicML nel 2023, Databricks ha espanso i suoi servizi di AI con l’obiettivo di democratizzare l’uso dell’intelligenza artificiale. La piattaforma Lakehouse di Databricks è ora uno dei punti di riferimento per l’implementazione di LLM, rendendo l’intelligenza artificiale accessibile a un’ampia gamma di settori. Il modello MPT-30B di MosaicML, con i suoi 30 miliardi di parametri, è presentato come una soluzione efficiente e conveniente rispetto ai modelli esistenti come GPT-3.