Databricks, una piattaforma di data lakehouse, ha rilasciato il codice open source per un modello di linguaggio di grandi dimensioni (LLM) chiamato Dolly. Il modello, che prende il nome dal primo mammifero clonato, può essere utilizzato dalle aziende per creare chatbot con funzionalità simili a quelle di ChatGPT. Secondo l’azienda, Dolly può essere addestrato su pochissimi dati e in poco tempo, utilizzando solo 30 dollari e un server in tre ore.
Databricks ha sottolineato che ci sono molte ragioni per cui un’azienda potrebbe preferire di costruire il proprio modello LLM piuttosto che inviare dati a un provider LLM centralizzato. Ad esempio, la consegna di dati sensibili a terzi potrebbe non essere un’opzione, mentre le organizzazioni potrebbero avere esigenze specifiche per quanto riguarda la qualità del modello, il costo e il comportamento desiderato.
Databricks ha scoperto che il modello Dolly, che ha solo 6 miliardi di parametri, può fornire qualità simili a ChatGPT, che ha 175 miliardi di parametri. L’azienda ha spiegato che gran parte dei guadagni qualitativi nei modelli all’avanguardia come ChatGPT possono essere dovuti a corpus mirati di dati di addestramento che seguono le istruzioni, piuttosto che a modelli di base più grandi o meglio sintonizzati.
Secondo Ali Ghodsi, CEO di Databricks, in futuro ci saranno molti più modelli LLM che diventeranno sempre più economici e non saranno nelle mani solo di poche aziende. Egli ha affermato che le società di dati e intelligenza artificiale che sfrutteranno questo tipo di tecnologia e avranno questi modelli saranno le aziende vincenti e leader in ogni settore.
Databricks ha dichiarato che ritiene che la maggior parte degli utenti di machine learning possa ottenere un servizio migliore a lungo termine possedendo direttamente i propri modelli. Questo approccio permette alle aziende di avere maggior controllo sulla qualità e sulla proprietà dei dati utilizzati per addestrare il modello, riducendo la necessità di affidarsi a fornitori di servizi terzi.
Inoltre, Databricks ha sottolineato che, nonostante il modello Dolly sia basato su un modello open source esistente, è stato possibile modificarlo per ottenere istruzioni che seguono funzionalità come il brainstorming e la generazione di testo non presenti nel modello originale, utilizzando i dati di Alpaca. Ciò suggerisce che ci sono molte opportunità per migliorare e personalizzare i modelli LLM esistenti in base alle esigenze specifiche di un’organizzazione.
In sintesi, Databricks ha rilasciato un modello di linguaggio di grandi dimensioni open source chiamato Dolly, che può essere utilizzato dalle aziende per creare chatbot con funzionalità simili a quelle di ChatGPT. La società ritiene che i modelli LLM diventeranno sempre più economici e diffusi in futuro e che le aziende che sfrutteranno questa tecnologia e avranno questi modelli saranno le aziende vincenti e leader in ogni settore.