immagine AI

Nous Research, startup da tempo al centro del movimento open‑source nell’intelligenza artificiale, decide di alzare di nuovo l’asticella. In sordina, diffonde Hermes 4, una famiglia di modelli linguistici di grande dimensione che – dice l’azienda – può eguagliare le prestazioni dei sistemi proprietari, offrendo però un controllo utente senza precedenti e filtri ridotti al minimo.

Il rilascio di Hermes 4 non è un semplice aggiornamento: rappresenta un chiaro manifesto tecnologico. A differenza di OpenAI, Google e Anthropic, questi modelli sono “sganciati” dalle consuete salvaguardie – quei guard‑rail imposti per evitare contenuti potenzialmente problematici – e rispondono quasi a qualsiasi richiesta, riflettendo una fiducia estrema nella trasparenza e nella libertà d’uso.

Uno dei veri colpi di scena è rappresentato dalla modalità che Nous definisce “hybrid reasoning”. In questa configurazione, l’utente può scegliere tra risposte rapide o un ragionamento approfondito, che appare tra tag prima della risposta definitiva. Una novità che simula l’approccio dei modelli o1 di OpenAI, ma con la piena trasparenza sul “pensiero” interno.

Sul fronte dei risultati, Hermes 4 si dimostra un osso duro da battere. Il modello più grande (405 miliardi di parametri) raggiunge il 96,3 % nel benchmark MATH‑500 in modalità ragionamento e l’81,9 % nella AIME’24, una competizione di matematica ad alta difficoltà. Ancora più impressionante è il “RefusalBench”, nuovo test che misura quante volte un modello rifiuta di rispondere. Hermes 4 ottiene un sorprendente 57,1 % – contro il 17 % circa di GPT‑4o e Claude Sonnet 4.

Il salto qualitativo di Hermes 4 è reso possibile da due sistemi progettati internamente: DataForge, generatore di dati sintetici basato su grafi che trasforma testi (anche Wikipedia) in contenuti creativi come rap, generando poi domande e risposte ad hoc; e Atropos, framework RL open‑source che impiega centinaia di ambienti di addestramento specializzati (matematica, scrittura creativa, coding, ecc.), usando solo risposte corrette per alimentare l’apprendimento selettivo.

La visione di Nous Research è radicale: gli eccessivi filtri e le politiche aziendali di moderazione sono “annoying as hell” – se è open source e poi rifiuta qualunque cosa, diventa inutile, sostiene un investitore nel settore. In linea con questo pensiero, l’azienda offre materiali tecnici dettagliati, prestazioni valutate da tutti e persino i testi delle risposte nei test – un livello di trasparenza senza precedenti.

È sorprendente come una startup – dotata “solo” di 192 GPU Nvidia B200 e di circa 71.600 ore‑GPU di addestramento – possa competere con i giganti del tech, offrendo modelli all’avanguardia senza la struttura miliardaria di un hyperscaler. L’azienda, sostenuta da una raccolta fondi da 65 milioni di dollari (guidata da Paradigm) e impegnata nel creare nuove tecnologie decentralizzate come Psyche Network, dimostra che innovare non richiede per forza casse blindate.

Un dettaglio affascinante è la soluzione adottata per evitare loop di ragionamento infiniti: i modelli più piccoli, a 14 miliardi di parametri, tendevano a pensare finché non esaurivano il contesto. La risposta? Insegnargli di “fermarsi” a 30.000 token, diminuendo del 65‑79 % questi eccessi senza degradare le performance.

Hermes 4 è ora disponibile in più forme: i pesi del modello si possono scaricare su Hugging Face, e l’accesso via API è offerto tramite la nuova interfaccia di Nous Chat, oltre a piattaforme partner come Chutes, Nebius e Luminal. Per aziende o ricercatori che cercano elevata customizzazione o gestione di contenuti sensibili, può essere una valida alternativa ai costi tipicamente associati ai sistemi proprietari.

Di Fantasy