Hugging Face lancia il dataset FineWeb

DiFantasy

Giu 4, 2024

Hugging Face ha reso disponibile un nuovo dataset open source chiamato “FineWeb”, creato per migliorare l’addestramento dei modelli linguistici di grandi dimensioni (LLM). Questo dataset, basato sui dati di scansione del web di Common Crawl, contiene 15 trilioni di token e occupa 44 terabyte di spazio su disco.

Una delle caratteristiche distintive di FineWeb è il suo rigoroso processo di deduplicazione, che elimina i dati ridondanti per migliorare l’efficienza dell’apprendimento dei modelli. Inoltre, sono stati applicati filtri avanzati per rimuovere contenuti di bassa qualità, come testo non inglese e contenuti per adulti.

Oltre a FineWeb, Hugging Face ha creato anche “FineWeb-Edu”, un sottoinsieme specifico per contenuti educativi. Questo sottoinsieme è stato ottenuto utilizzando annotazioni sintetiche generate dal modello Rama-3-70B-Instruction e un classificatore addestrato per filtrare i contenuti non didattici.

FineWeb e FineWeb-Edu sono stati testati su diversi benchmark, dimostrando prestazioni superiori rispetto ad altri dataset web open source, in particolare per quanto riguarda i contenuti educativi.

Questo nuovo dataset rappresenta un importante contributo di Hugging Face alla comunità dell’intelligenza artificiale, fornendo uno strumento prezioso per migliorare l’addestramento dei modelli linguistici e promuovere lo sviluppo di applicazioni AI più efficaci e accurate.

Hugging Face lancia il dataset FineWeb

DiFantasy

Di Fantasy

Articoli correlati

OpenAI Gumdrop: una minaccia reale per lo smartphone o una nuova visione dell’interazione con l’intelligenza artificiale?

CES 2026: Razer presenta Project AVA, la segretaria olografica 3D che porta l’AI fuori dallo schermo

CES 2026: Lenovo porta l’era dei super agenti ai al Tech World

Ultimi Post

OpenAI Gumdrop: una minaccia reale per lo smartphone o una nuova visione dell’interazione con l’intelligenza artificiale?

CES 2026: Razer presenta Project AVA, la segretaria olografica 3D che porta l’AI fuori dallo schermo

CES 2026: Lenovo porta l’era dei super agenti ai al Tech World

CES 2026: Acer porta nei Copilot+ PC i processori AMD Ryzen AI 400 Series