Immagine AI

Fractal, una compagnia indiana con sede a Mumbai, ha recentemente lanciato un modello linguistico di grandi dimensioni (LLM) che sta attirando l’attenzione per le sue prestazioni nel ragionamento matematico e per il suo approccio economico. Il modello, denominato Fathom-R1-14B, è un LLM open source con 14 miliardi di parametri, derivato dal modello cinese DeepSeek-R1-Distilled-Qwen-14B. Ciò che distingue Fathom-R1-14B è la sua capacità di eseguire ragionamenti complessi con una finestra di contesto di 16.000 token, raggiungendo prestazioni comparabili a modelli proprietari più costosi, come o4-mini, ma a un costo di addestramento post-produzione di soli 499 dollari.

Fathom-R1-14B è stato testato su esami di livello olimpico come AIME-25 e HMMT-25. Senza l’ausilio di risorse computazionali aggiuntive durante l’inferenza, ha raggiunto una precisione Pass@1 del 52,71% su AIME-25 e del 35,26% su HMMT-25. Quando è stato utilizzato un budget computazionale maggiore durante l’inferenza (cons@64), le prestazioni sono aumentate significativamente, con una precisione Pass@1 del 76,7% su AIME-25 e del 56,7% su HMMT-25.

Il modello è stato addestrato utilizzando tecniche avanzate come il fine-tuning supervisionato (SFT), l’apprendimento a curriculum e la fusione di modelli. Fractal ha anche sviluppato una variante del modello, Fathom-R1-14B-RS, che ha utilizzato una combinazione di apprendimento per rinforzo e SFT, con un costo di addestramento di 967 dollari. Entrambe le versioni hanno mostrato prestazioni simili nei test di ragionamento matematico.

Fathom-R1-14B è disponibile per il pubblico su piattaforme come Hugging Face, dove gli utenti possono testarlo direttamente. Il codice sorgente è ospitato su GitHub e il modello è rilasciato sotto la licenza MIT, insieme ai dataset e alle ricette di addestramento. Questo approccio open source consente a ricercatori e sviluppatori di esplorare, modificare e implementare il modello nelle loro applicazioni, promuovendo l’innovazione e la collaborazione nella comunità dell’IA.

Il lancio di Fathom-R1-14B rappresenta un passo significativo verso l’obiettivo dell’India di sviluppare modelli di ragionamento avanzati. Fractal ha proposto la creazione del primo grande modello di ragionamento dell’India come parte della missione IndiaAI, con l’intenzione di sviluppare tre modelli: uno piccolo, uno di dimensioni medie e uno grande con 70 miliardi di parametri. Fathom-R1-14B serve come prova di concetto per dimostrare che è possibile sviluppare modelli di alta qualità a costi contenuti, sfidando i modelli proprietari dominanti nel settore.

Di Fantasy