Nomic AI ha rilasciato un modello di incorporamento del testo open source, “Nomic Embed”, che sfida il primato di “Text-Embedding-Ada-002” di OpenAI.
L’incorporamento del testo è una tecnica fondamentale per l’elaborazione del linguaggio naturale (NLP) che converte parole, frasi e documenti in vettori numerici. Questi vettori catturano il significato semantico e le relazioni tra i dati, aprendo la strada a una varietà di applicazioni, come la visualizzazione di dati, il recupero di informazioni, l’analisi del sentiment e la classificazione di documenti.
I modelli di incorporamento del testo sono cruciali per i Large Language Models (LLM) e l’Augmented Retrieval Generation (RAG). Tuttavia, finora, i modelli open source non sono riusciti a eguagliare le prestazioni dei modelli closed source come “Text-Embedding-Ada-002” di OpenAI.
Nomic Embed cambia le carte in tavola. Sviluppato con l’apprendimento contrastivo multilivello, questo modello open source vanta la stessa lunghezza del contesto di 8192 token di Ada-002 e supera le sue prestazioni in diversi benchmark chiave, tra cui MTEB, LoCo e Gina Long Context.
Come ci riesce? Nomic Embed combina diverse innovazioni:
- Apprendimento contrastivo multilivello: un processo di apprendimento più robusto che massimizza la capacità del modello di distinguere tra parole simili e non simili.
- Pre-addestramento su un’ampia raccolta di dati: Nomic Embed sfrutta risorse come BooksCorpus e il dump di Wikipedia del 2023 per acquisire una conoscenza approfondita del linguaggio.
- Funzionalità di attenzione avanzate: l’attenzione flash aiuta il modello a concentrarsi sugli aspetti più salienti di una sequenza di testo.
- Architettura di rete neurale efficiente: una rete binaria a 16 bit riduce l’utilizzo della memoria e aumenta la velocità di inferenza.
Nomic Embed rappresenta una svolta per l’NLP open source. Abbassando le barriere di accesso a modelli di incorporamento del testo di alta qualità, questo modello apre nuove possibilità per la ricerca e lo sviluppo in questo campo.
Ecco alcuni dei vantaggi di Nomic Embed:
- Migliori prestazioni: supera i modelli open source esistenti e rivaleggia con i modelli closed source come Ada-002.
- Open source: disponibile per tutti, senza restrizioni.
- Efficiente: ottimizzato per l’utilizzo in applicazioni reali.
- Trasparente: il codice e i dati di addestramento sono pubblicamente accessibili.
Nomic Embed è una pietra miliare per l’NLP open source. Con il suo potenziale per migliorare le prestazioni di LLM e RAG, questo modello è destinato a dare impulso a una nuova era di innovazione nel campo dell’elaborazione del linguaggio naturale.