Nel 2018, Google ha introdotto BERT (Bidirectional Encoder Representations from Transformers), un modello di linguaggio che ha rivoluzionato il campo dell’elaborazione del linguaggio naturale (NLP). Negli anni successivi, BERT è diventato un punto di riferimento per numerose applicazioni, grazie alla sua capacità di comprendere il contesto bidirezionale delle parole in una frase.
Recentemente, un consorzio composto da Hugging Face, NVIDIA, la Johns Hopkins University, Answer.AI e LightOn ha annunciato lo sviluppo di ModernBERT, un successore di BERT che promette miglioramenti significativi sia in termini di velocità che di accuratezza.
Una delle innovazioni più rilevanti di ModernBERT è l’aumento della lunghezza del contesto, portata a 8.000 token rispetto ai 512 token dei modelli encoder tradizionali. Questo ampliamento consente al modello di gestire testi molto più lunghi, aprendo la strada a nuove applicazioni precedentemente inaccessibili, come la ricerca di codice su larga scala e funzionalità avanzate negli ambienti di sviluppo integrati (IDE).
ModernBERT è stato addestrato su un vasto corpus di 2 trilioni di token, includendo una quantità significativa di codice sorgente. Questa caratteristica lo rende particolarmente adatto per applicazioni che richiedono la comprensione e l’elaborazione del codice, oltre che per compiti tradizionali di NLP.
I benchmark pubblicati indicano che ModernBERT supera diversi modelli encoder-only in una varietà di task, dimostrando prestazioni altamente efficienti anche su hardware consumer come la NVIDIA RTX 4090. Questo risultato evidenzia l’ottimizzazione del modello, che offre elevate prestazioni senza richiedere risorse computazionali eccessive.
Nonostante l’ascesa dei modelli decoder-only, come GPT, che hanno dominato la scena negli ultimi anni, ModernBERT rappresenta un ritorno all’interesse per i modelli encoder-only, soprattutto per applicazioni di information retrieval (IR). Questi modelli sono particolarmente efficaci nell’elaborazione di documenti su larga scala per attività di recupero informazioni, mantenendo un’efficienza computazionale che li rende ideali per l’implementazione in sistemi su larga scala.