Modelli LLM a contesto lungo: il caso di Gradient e Crusoe

In una recente collaborazione, la startup AI Gradient e la piattaforma di cloud computing Crusoe hanno esteso la “finestra di contesto” dei modelli Llama-3 fino a 1 milione di token. Questo parametro determina quanti token di input e output un modello LLM (Large Language Model) può gestire.

Le grandi aziende tecnologiche e i laboratori di intelligenza artificiale sono attivamente impegnati nella corsa per estendere le finestre di contesto dei loro modelli LLM. In meno di un anno, questi modelli sono passati dal supportare poche migliaia di token a più di un milione. Tuttavia, i modelli con finestre di contesto molto lunghe sono principalmente limitati a modelli privati come Anthropic Claude (200.000 token), OpenAI GPT-4 (128.000 token) e Google Gemini (1 milione di token).

La ricerca di modelli open source con finestre di contesto lunghe potrebbe rivoluzionare il mercato dei LLM e sbloccare applicazioni non possibili con modelli privati.

Gradient lavora con clienti aziendali per integrare LLM nei loro flussi di lavoro. Prima ancora dell’uscita di Llama-3, l’azienda stava affrontando sfide critiche di contesto nei progetti per i propri clienti, come ad esempio l’uso di modelli linguistici come assistenti nella programmazione, noti come “copiloti di codifica”.

Leo Pekelis, capo scienziato di Gradient AI, ha sottolineato l’importanza di estendere la capacità dei modelli di fare riferimento a intere basi di codice per migliorare la precisione e l’efficienza delle risposte.

Gradient ha sviluppato un modello open source con una finestra di contesto di un milione di token per consentire agli sviluppatori di superare le limitazioni dei modelli privati come Gemini o Claude, che sono utilizzati solo in ambienti specifici a causa di restrizioni sui dati.

L’azienda ha collaborato con Crusoe, una piattaforma di cloud computing specializzata, per esplorare e sviluppare modelli LLM a lungo contesto in modo economicamente vantaggioso. Questa collaborazione ha incluso l’utilizzo di cluster L40S di Nvidia per ottimizzare i costi di addestramento e implementare le più recenti tecniche di ricerca provenienti da università globali.

Pekelis ha evidenziato come la ricerca aperta abbia giocato un ruolo fondamentale nel progresso di Gradient, permettendo loro di migliorare continuamente i loro modelli e rispondere alle esigenze dei clienti con soluzioni innovative.

Il futuro dei LLM a contesto lungo potrebbe trasformare radicalmente le applicazioni aziendali, consentendo loro di manipolare grandi quantità di dati e migliorare la produttività attraverso l’automazione avanzata e la personalizzazione dei flussi di lavoro.

Questa innovazione non solo potrebbe accelerare lo sviluppo di nuove applicazioni, ma anche educare i team aziendali sulle potenzialità dei modelli linguistici avanzati, aprendo la strada a una nuova era di intelligenza artificiale integrata.

Modelli LLM a contesto lungo: il caso di Gradient e Crusoe

DiFantasy

Di Fantasy

Articoli correlati

Anthropic estende l’accesso promozionale a Claude Fable 5 fino al 19 luglio

I data center AI vengono progettati come campus tecnologici e musei contemporanei

Un Apple-1 funzionante della prima serie sarà venduto all’asta da Sotheby’s

Ultimi Post

Anthropic estende l’accesso promozionale a Claude Fable 5 fino al 19 luglio

I data center AI vengono progettati come campus tecnologici e musei contemporanei

Un Apple-1 funzionante della prima serie sarà venduto all’asta da Sotheby’s

Meta apre Muse Spark 1.1 agli sviluppatori con una nuova API per agenti e applicazioni di coding