L’evoluzione dei Large Language Model (LLM) ha raggiunto un punto in cui il dibattito si sposta dalla mera scala del modello alla sua granularità di comprensione. Sebbene la maggior parte dei modelli di punta si basi sulla tokenization a livello di sub-parola, un approccio che segmenta il testo in unità che sono parole complete, frammenti o punteggiatura, questo metodo porta con sé un inconveniente significativo: il cosiddetto “tokenization bias”. Questo fenomeno si manifesta quando il modello incontra parole rare o non incluse nel suo vocabolario fisso (out-of-vocabulary), costringendolo a scomporle in frammenti spesso privi di senso, o quando gestisce lingue con scritture e strutture diverse, introducendo imprecisioni e riducendo l’universalità.
È in questo contesto di ricerca di maggiore robustezza e flessibilità che l’Allen Institute for AI (Ai2) ha introdotto Bolmo, una nuova famiglia di modelli linguistici che opera direttamente a livello di byte. La vera rivoluzione portata da Bolmo non risiede solo nel suo funzionamento privo di token, ma nel metodo innovativo utilizzato per la sua creazione, un processo che Ai2 ha definito “byteificazione”. Fino ad oggi, sviluppare modelli a livello di byte competitivi ha significato affrontare costi proibitivi, partendo da zero con cicli di pre-training estremamente lunghi. Bolmo, invece, dimostra che è possibile convertire, o “byteificare”, modelli di sub-parole pre-esistenti e già molto potenti, come la famiglia OLMo 3 di Ai2, riutilizzando gran parte della loro architettura e delle loro capacità di ragionamento.
Questa strategia di riuso rappresenta un’enorme conquista in termini di efficienza. Ai2 è riuscita a produrre Bolmo utilizzando meno dell’uno per cento del budget computazionale tipico necessario per l’addestramento di un LLM dalla base. L’architettura è stata ingegnerizzata con modifiche chiave, come l’introduzione di un encoder locale, un decoder locale e un predittore di confine, che risolvono la discrepanza tra la capacità espressiva dei precedenti modelli a livello di byte e quelli a livello di sub-parola. Questo design mirato consente a Bolmo di impiegare un obiettivo di “distillazione esatta”, trasferendo in modo efficace la conoscenza e le abilità di ragionamento dal modello di sub-parola sorgente al nuovo modello basato sui byte.
Il processo di addestramento è suddiviso in due fasi distinte: inizialmente, il nucleo Transformer del modello sorgente viene congelato, e vengono addestrati solo i nuovi strati locali necessari per interpretare i byte. Solo in un secondo momento, con un budget limitato, l’intero modello viene sottoposto a fine-tuning per allineare completamente le sue nuove capacità di gestione dei byte con l’intelligenza preesistente. Il risultato è un modello che non solo si dimostra superiore a tutti i precedenti LLM a livello di byte disponibili pubblicamente, come il BLT di Meta, ma che in alcune metriche specializzate, come la comprensione dei caratteri (CUTE benchmark) e le attività di codifica, riesce persino a superare il suo modello sorgente a sub-parole.
I vantaggi pratici di questa architettura “byteificata” sono molteplici e toccano il cuore della robustezza dell’IA. Essendo tokenizer-free, Bolmo elimina intrinsecamente il bias di tokenizzazione, migliorando l’accuratezza nella gestione di testo multilingue e caratteri rari. Inoltre, la sua struttura si presta naturalmente ad applicazioni multimodali, dove testo, immagini o altri dati possono essere trattati come sequenze di byte, senza la necessità di complessi adattamenti architetturali. In sintesi, Bolmo segna un passo avanti cruciale: non è solo un modello più intelligente, ma rappresenta un percorso praticabile, economico e veloce per creare modelli linguistici potenti, universali e robusti, abbassando notevolmente la barriera all’ingresso per chiunque voglia innovare nell’ambito degli LLM aperti.
