MiniMax, azienda tecnologica con sede a Singapore, ha recentemente presentato la serie MiniMax-01, una famiglia di modelli di linguaggio di grandi dimensioni (LLM) progettati per gestire contesti ultra-estesi e potenziare lo sviluppo di agenti AI. La serie comprende MiniMax-Text-01, un modello linguistico fondamentale, e MiniMax-VL-01, un modello multimodale visivo.
Ciò che distingue particolarmente MiniMax-Text-01 è la sua capacità di gestire fino a 4 milioni di token nel suo contesto, equivalente al contenuto di una piccola biblioteca. Il contesto rappresenta la quantità di informazioni che un LLM può elaborare in un singolo scambio di input/output, con parole e concetti rappresentati come “token”, un’astrazione matematica interna al modello. In precedenza, Google deteneva il primato con il suo modello Gemini 1.5 Pro, capace di gestire un contesto di 2 milioni di token; MiniMax ha sorprendentemente raddoppiato questa capacità.
In un post sul suo account ufficiale, MiniMax ha dichiarato: “MiniMax-01 elabora efficacemente fino a 4 milioni di token — una capacità da 20 a 32 volte superiore rispetto ad altri modelli leader. Riteniamo che MiniMax-01 sia pronto a supportare l’attesa crescita delle applicazioni legate agli agenti nel prossimo anno, poiché gli agenti richiedono sempre più capacità di gestione di contesti estesi e memoria sostenuta.”
I modelli sono attualmente disponibili per il download su piattaforme come Hugging Face e GitHub, sotto una licenza personalizzata MiniMax. Gli utenti possono provarli direttamente su Hailuo AI Chat, un concorrente di ChatGPT, Gemini e Claude, e attraverso l’API di MiniMax, che consente agli sviluppatori di integrare questi modelli nelle proprie applicazioni.
MiniMax offre API per l’elaborazione di testo e multimodale a tariffe competitive:
- $0,2 per 1 milione di token in input
- $1,1 per 1 milione di token in output
In confronto, l’API di GPT-4o di OpenAI costa $2,50 per 1 milione di token in input, risultando 12,5 volte più costosa.
Inoltre, MiniMax ha integrato un framework “mixture of experts” (MoE) con 32 esperti per ottimizzare la scalabilità. Questo design consente al modello di attivare dinamicamente solo una parte degli esperti per ogni input, migliorando l’efficienza computazionale e riducendo i costi operativi.