VIDIA ha recentemente rilasciato HelpSteer2, un nuovo set di dati open source progettato per l’addestramento di modelli di ricompensa avanzati al fine di allineare i grandi modelli linguistici (LLM) alle preferenze umane. Il set di dati, concesso in licenza CC-BY-4.0 permissiva, comprende 10.681 coppie di risposte rapide annotate su cinque attributi su scala Likert. Queste annotazioni sono state raccolte da oltre 1.000 annotatori negli Stati Uniti.
HelpSteer2 ha raggiunto un’eccezionale precisione del 92,0% nel dataset primario di RewardBench, quando utilizzato per addestrare un modello di ricompensa basato sul modello 340B Nemotron-4 di NVIDIA. Questo risultato pone il modello NVIDIA sopra tutti gli altri modelli, sia open che proprietari, fino al 12 giugno 2024. Inoltre, il set di dati è altamente efficiente, richiedendo solo 10.000 coppie di risposte anziché milioni, riducendo così significativamente i costi computazionali.
L’obiettivo di HelpSteer2 è di addestrare modelli di ricompensa capaci di allineare efficacemente i grandi modelli linguistici come Llama 3 70B, per eguagliare o superare le prestazioni di altri modelli su importanti parametri di allineamento. Introduce anche SteerLM 2.0, un nuovo approccio di allineamento del modello che sfrutta le previsioni di ricompensa multi-attributo per addestrare gli LLM su istruzioni complesse e multi-requisito.
Zhilin Wang, ricercatore senior di NVIDIA, ha sottolineato l’importanza di dati sulle preferenze di alta qualità per allineare l’intelligenza artificiale ai valori umani, criticando l’attuale mancanza di set di dati aperti e coerenti. HelpSteer2 rappresenta quindi una soluzione aperta e permissiva per uso commerciale e accademico.
Il set di dati HelpSteer2 è disponibile sull’hub Hugging Face, mentre il codice è open source sul repository NeMo-Aligner GitHub di NVIDIA. Questo strumento non solo addestra e guida i modelli per riflettere le preferenze umane, ma è anche cruciale per l’analisi del sentiment e altre applicazioni aziendali che cercano di comprendere e rispondere efficacemente alle opinioni dei clienti.
In aggiunta, esistono molti altri modelli di analisi del sentiment con applicazioni diverse, come i dati di prodotto Amazon, i set di dati sul sentiment multidominio e Sentiment140, che continuano a guidare l’innovazione nei campi dell’AI e dell’analisi dei dati.