Nuove analisi pubbliche relative a Claude Mythos, il modello più avanzato sviluppato da Anthropic e finora descritto solo in modo limitato dall’azienda, suggeriscono che il sistema potrebbe essere stato addestrato utilizzando una quantità di risorse computazionali senza precedenti nel settore dell’intelligenza artificiale. Le ipotesi emergono dall’analisi di materiale presentato da Microsoft durante la conferenza Build e da successive elaborazioni effettuate da ricercatori e osservatori indipendenti del settore.
Al centro delle discussioni vi è un grafico mostrato durante una presentazione di Mustafa Suleyman, CEO di Microsoft AI, dedicata all’evoluzione delle tecniche di scalabilità dei modelli linguistici. Nel grafico, Claude Mythos appariva come uno dei sistemi associati ai più elevati livelli di potenza computazionale impiegata durante l’addestramento. Sebbene Microsoft non abbia pubblicato valori numerici ufficiali, alcuni analisti hanno tentato di stimare l’ordine di grandezza delle risorse utilizzate partendo dalla posizione relativa del modello all’interno della rappresentazione grafica.
Le stime più discusse collocano il carico computazionale di addestramento in una fascia compresa tra circa 3,37 × 10^26 e 1,46 × 10^27 FLOPs, valori che supererebbero ampiamente quelli generalmente attribuiti alla maggior parte dei modelli di frontiera attualmente conosciuti. Alcune interpretazioni iniziali avevano persino ipotizzato livelli superiori, nell’ordine di 6,1 × 10^27 FLOPs, ma tali cifre sono state successivamente considerate poco realistiche dagli stessi autori delle analisi.
Partendo da queste ipotesi, diversi osservatori hanno cercato di ricostruire le possibili caratteristiche architetturali del modello. I calcoli suggeriscono che Claude Mythos potrebbe utilizzare un’architettura estremamente ampia, con un numero totale di parametri stimato tra 7,5 e 15,6 trilioni. Le stesse elaborazioni indicano una possibile configurazione con parametri attivi compresi tra 375 e 780 miliardi e un volume di dati di addestramento che potrebbe raggiungere una fascia stimata tra 150 e 312 trilioni di token.
Le valutazioni tengono conto anche delle informazioni precedentemente emerse sull’infrastruttura utilizzata da Anthropic. Nell’ottobre scorso era stato infatti riferito che una delle nuove generazioni di modelli dell’azienda veniva addestrata utilizzando fino a 500.000 acceleratori AWS Trainium 2. Pur non esistendo conferme ufficiali che colleghino direttamente tale infrastruttura a Claude Mythos, il dato viene spesso utilizzato come riferimento per valutare la scala potenziale delle risorse disponibili durante lo sviluppo del modello.
Le stime suggeriscono inoltre che una parte significativa della capacità computazionale potrebbe essere stata destinata non soltanto al pre-addestramento tradizionale, ma anche a fasi estese di apprendimento per rinforzo e ottimizzazione delle capacità di ragionamento. Alcuni analisti ritengono che proprio questo investimento computazionale possa spiegare le prestazioni attribuite a Mythos nei compiti che richiedono pianificazione complessa, ragionamento multi-step e gestione di workflow agentici avanzati.
Un elemento particolarmente interessante riguarda il cambiamento di approccio che tali numeri sembrano suggerire. Anthropic è stata spesso associata a strategie orientate all’efficienza e all’ottimizzazione delle architetture, ma le stime relative a Mythos indicano un possibile spostamento verso una filosofia che combina innovazione algoritmica e disponibilità di enormi infrastrutture computazionali. In questo scenario, il vantaggio competitivo non deriverebbe esclusivamente dalla qualità degli algoritmi, ma anche dalla capacità di sostenere addestramenti su scala sempre più elevata.
Va sottolineato che tutte le cifre attualmente circolanti derivano da ricostruzioni indipendenti e non da documentazione tecnica pubblicata da Anthropic. L’azienda non ha infatti divulgato dettagli ufficiali relativi al numero di parametri, al volume dei dati utilizzati per l’addestramento o alla quantità di calcolo impiegata per Claude Mythos. Tuttavia, anche le stime più conservative indicano una scala di sviluppo che potrebbe collocare il modello tra i sistemi di intelligenza artificiale più costosi e complessi mai realizzati fino ad oggi.
