Il Technology Innovation Institute (TII) di Abu Dhabi ha lanciato un nuovo modello open source chiamato Falcon Mamba 7B. Disponibile su Hugging Face, questo modello si distingue per la sua innovativa architettura Mamba State Space Language Model (SSLM), che offre un’alternativa ai tradizionali modelli di trasformatore, come Llama 3 8B e Mistral 7B di Meta.
Il Falcon Mamba 7B è il quarto modello rilasciato da TII, dopo Falcon 180B, Falcon 40B e Falcon 2, e il primo nella nuova categoria SSLM. Questa architettura si propone come una soluzione alternativa ai modelli linguistici basati su trasformatori, particolarmente quando si tratta di gestire testi lunghi.
I modelli basati su trasformatori, pur essendo molto potenti, possono incontrare difficoltà con testi più estesi a causa della loro esigenza di memoria e potenza di calcolo per gestire grandi finestre di contesto. Il Falcon Mamba 7B, invece, utilizza l’architettura SSLM che aggiorna continuamente uno “stato” mentre elabora il testo, permettendo una gestione più efficace delle lunghe sequenze di testo senza richiedere risorse aggiuntive.
Falcon Mamba 7B è progettato per svolgere una serie di compiti, tra cui traduzione automatica, riassunto di testi, visione artificiale e elaborazione audio. Secondo TII, il modello può adattarsi a sequenze più lunghe rispetto ai modelli basati su trasformatori, grazie alla sua capacità di elaborare testo token per token, potenzialmente gestendo lunghezze di contesto molto elevate.
In test comparativi, Falcon Mamba 7B ha dimostrato di superare modelli come Mistral 7B in termini di throughput, mantenendo una velocità costante e senza aumentare l’uso della memoria. Nei benchmark di settore, come Arc, TruthfulQA e GSM8K, il Falcon Mamba 7B ha ottenuto punteggi migliori rispetto a modelli come Llama 3 8B e Mistral 7B. Tuttavia, ha ottenuto risultati leggermente inferiori nei benchmark MMLU e Hellaswag.
TII prevede di ottimizzare ulteriormente il Falcon Mamba 7B per migliorare le sue prestazioni e ampliare gli scenari applicativi. Il dott. Hakim Hacid, ricercatore capo ad interim di TII, ha dichiarato che questo rilascio rappresenta un passo significativo verso l’innovazione nell’IA generativa, spingendo i confini sia dei modelli SSLM che dei trasformatori.
Nel complesso, i modelli linguistici Falcon di TII hanno ottenuto oltre 45 milioni di download, consolidando la loro posizione come una delle release LLM più di successo negli Emirati Arabi Uniti.