Hugging Face ha reso disponibile un nuovo dataset open source chiamato “FineWeb”, creato per migliorare l’addestramento dei modelli linguistici di grandi dimensioni (LLM). Questo dataset, basato sui dati di scansione del web di Common Crawl, contiene 15 trilioni di token e occupa 44 terabyte di spazio su disco.
Una delle caratteristiche distintive di FineWeb è il suo rigoroso processo di deduplicazione, che elimina i dati ridondanti per migliorare l’efficienza dell’apprendimento dei modelli. Inoltre, sono stati applicati filtri avanzati per rimuovere contenuti di bassa qualità, come testo non inglese e contenuti per adulti.
Oltre a FineWeb, Hugging Face ha creato anche “FineWeb-Edu”, un sottoinsieme specifico per contenuti educativi. Questo sottoinsieme è stato ottenuto utilizzando annotazioni sintetiche generate dal modello Rama-3-70B-Instruction e un classificatore addestrato per filtrare i contenuti non didattici.
FineWeb e FineWeb-Edu sono stati testati su diversi benchmark, dimostrando prestazioni superiori rispetto ad altri dataset web open source, in particolare per quanto riguarda i contenuti educativi.
Questo nuovo dataset rappresenta un importante contributo di Hugging Face alla comunità dell’intelligenza artificiale, fornendo uno strumento prezioso per migliorare l’addestramento dei modelli linguistici e promuovere lo sviluppo di applicazioni AI più efficaci e accurate.