Nucleus AI, una start-up con sede in California, composta da quattro membri con esperienza presso Amazon e Samsung Research, ha finalmente visto la luce del giorno con il lancio del suo primo prodotto: un modello linguistico di grandi dimensioni (LLM) con ben 22 miliardi di parametri.
Questo modello, disponibile con licenza MIT open source e licenza commerciale, si colloca tra i segmenti dei modelli da 13 miliardi e 34 miliardi di parametri e può essere ottimizzato per una vasta gamma di applicazioni e prodotti generativi. Nucleus sostiene che questo modello superi quelli di dimensioni simili e rappresenti un passo significativo verso il loro obiettivo di utilizzare l’intelligenza artificiale per rivoluzionare l’agricoltura.
Gnandeep Moturi, CEO dell’azienda, ha dichiarato a VentureBeat: “Iniziamo con il nostro modello da 22 miliardi di parametri, che è un modello di trasformazione. Tra circa due settimane, rilasceremo i nostri avanzati modelli RetNet, che offriranno significativi vantaggi in termini di costo ed efficienza nell’inferenza”.
Nucleus ha iniziato l’addestramento del modello da 22 miliardi di parametri circa tre mesi e mezzo fa, con il supporto di uno dei loro primi investitori, che ha fornito risorse di calcolo significative.
L’azienda ha sfruttato la ricerca esistente e le risorse open source per pre-addestrare il LLM su una lunghezza di contesto di 2.048 token, per poi addestrarlo su un trilione di token di dati. Questi dati comprendevano informazioni duplicate e sono stati accuratamente puliti e selezionati da fonti come il web, Wikipedia, Stack Exchange, arXiv e codice.
Questo ha creato una base di conoscenza estremamente completa per il modello, che comprende informazioni generali per la ricerca accademica e approfondimenti sulla codifica.
In futuro, Nucleus prevede di rilasciare ulteriori versioni del modello da 22 miliardi di parametri, addestrate su 350 miliardi e 700 miliardi di token, insieme a due modelli RetNet – uno con 3 miliardi di parametri e l’altro con 11 miliardi di parametri – che sono stati pre-addestrati sul modello più grande con una lunghezza di contesto di 4.096 token.
Questi modelli più piccoli combineranno le migliori caratteristiche delle architetture di rete neurale RNN e dei trasformatori, offrendo notevoli vantaggi in termini di velocità e costi. In esperimenti interni, Moturi ha affermato che questi modelli erano 15 volte più veloci e richiedevano solo un quarto della memoria GPU rispetto a modelli di trasformatori comparabili.
“Finora, c’era solo ricerca teorica su questa idea, ma nessuno aveva mai effettivamente costruito un modello e lo aveva reso pubblico”, ha aggiunto il CEO.
Nonostante questi modelli siano disponibili per applicazioni aziendali, Nucleus ha ambizioni più ampie nel campo dell’intelligenza artificiale.
A differenza di altre società LLM come OpenAI, Anthropic e Cohere, Moturi ha affermato che il loro obiettivo è utilizzare l’intelligenza artificiale per creare un sistema operativo intelligente per l’agricoltura, mirando a ottimizzare l’offerta e la domanda e a mitigare le incertezze per gli agricoltori.
“Abbiamo un’idea simile a quella di un mercato in cui la domanda e l’offerta saranno iper-ottimizzate per gli agricoltori, proprio come Uber ha fatto per i tassisti”, ha dichiarato.
Questo approccio potrebbe affrontare molte delle sfide attuali per gli agricoltori, tra cui quelle legate al cambiamento climatico, alla mancanza di conoscenza e all’ottimizzazione dell’offerta e della distribuzione.
“Attualmente, non stiamo competendo con gli algoritmi di nessun altro. Quando abbiamo avuto accesso alle risorse informatiche, stavamo cercando di sviluppare prodotti interni per il settore agricolo. Ma poi ci siamo resi conto che avevamo bisogno di modelli linguistici come nucleo centrale del nostro mercato e abbiamo iniziato a costruirli con il contributo della comunità open source”, ha spiegato Moturi.
Ulteriori dettagli sul sistema operativo orientato all’agricoltura e sui modelli RetNet saranno annunciati alla fine di questo mese.