Meta ha recentemente introdotto una nuova architettura denominata Byte Latent Transformer (BLT), sviluppata in collaborazione con l’Università di Washington, che promette di rendere i modelli linguistici di grandi dimensioni (LLM) più efficienti e versatili.

Tradizionalmente, gli LLM operano su token, ossia sequenze predefinite di byte che rappresentano parole o parti di parole. Questo approccio, sebbene efficiente in termini di risorse computazionali, presenta limitazioni significative. I modelli basati su token possono mostrare bias quando incontrano parole o espressioni non incluse nel loro vocabolario predefinito, come termini rari, errori di ortografia o parole di lingue meno rappresentate nel web. Inoltre, l’aggiunta o la modifica del vocabolario richiede spesso un costoso processo di riaddestramento del modello.

Per affrontare queste sfide, BLT elimina completamente l’uso dei token, operando direttamente a livello di byte. Ciò consente al modello di gestire input arbitrari senza la necessità di un vocabolario fisso, aumentando la sua robustezza e flessibilità. Una caratteristica distintiva di BLT è la sua capacità di allocare dinamicamente le risorse computazionali in base al livello di informazione contenuto nei byte, ottimizzando così l’efficienza del modello.

I ricercatori hanno testato BLT su vari benchmark, dimostrando che può eguagliare le prestazioni dei modelli basati su token, superando al contempo le limitazioni associate alla tokenizzazione. Questo approccio innovativo apre la strada a modelli linguistici più scalabili e adattabili, capaci di gestire una gamma più ampia di input con maggiore efficienza.

Di Fantasy