Dal rilascio di GPT-4, i ricercatori di intelligenza artificiale hanno utilizzato i risultati del modello per addestrare i propri modelli linguistici e set di dati per i risultati di benchmark. Ecco un riassunto dei principali set di dati addestrati sull’output di GPT-4, che hanno rivoluzionato il mondo della ricerca sull’intelligenza artificiale:
- LIMA: Un piccolo set di dati con 1000 esempi, svelato dai ricercatori di Meta AI. LIMA ha dimostrato di aiutare lo sviluppo di modelli LLM competenti, come dimostrato da un modello LLaMA 65B allenato solo su questi esempi, raggiungendo prestazioni competitive rispetto a ChatGPT.
- MiniGPT4: Introdotto dai ricercatori di Vision-CAIR, questo modello è allineato con Vicuna-7B e ha mostrato una significativa riduzione del consumo di memoria GPU. Con un totale di 3500 coppie di immagini e testo generate attraverso il modello stesso e ChatGPT, MiniGPT4 ha dato vita a un set di dati compatto e di alta qualità.
- Dolly: Un progetto open source di Databricks, Dolly è capace di trasformare un LLM preesistente e obsoleto in un sistema simile a ChatGPT in soli 30 minuti di addestramento su una singola macchina. Dolly 2.0, con solo 6 miliardi di parametri, è stato lodato dalla comunità open source.
- Code Alpaca: Questo progetto mira a costruire e distribuire un modello LLaMA di Meta AI specificamente per la generazione di codice. Utilizzando Alpaca di Stanford e tecniche ispirate al documento Self-Instruct, il set di dati è stato perfezionato per modelli LLaMA 7B e 13B.
- GPT-4-LLM: Questo progetto si concentra sulla condivisione di dati prodotti da GPT-4 per la messa a punto di LLM tramite tecniche di apprendimento supervisionato e di rinforzo, spingendo i confini della messa a punto delle istruzioni nel mondo LLM.
- LLaVA-Instruct-150K: Una raccolta di dati multimodali che seguono istruzioni, generati utilizzando GPT-4. Questo set di dati si focalizza sulla messa a punto delle istruzioni visive per modelli multimodali avanzati.
- Ultrachat: Un’ampia raccolta di dialoghi open source, multi-round e basati su API ChatGPT Turbo. La raccolta è stata effettuata garantendo la protezione della privacy e utilizzando un approccio dual API per la generazione del dialogo.
- GPTeacher: Una collezione di set di dati modulari creati da GPT-4, utili per diversi scopi come l’insegnamento e la generazione di codice.
- ShareGPT: Una raccolta di 70.000 conversazioni condivise dagli utenti tramite API pubbliche, utilizzata come base per Vicuna-13B, un chatbot open source.
- HC3: Un vasto set di dati che include circa 40.000 domande e risposte generate dagli utenti di ChatGPT, utilizzato per analizzare e confrontare le risposte di ChatGPT con quelle generate dall’uomo.
Questi set di dati hanno contribuito in modo significativo all’avanzamento della ricerca nell’intelligenza artificiale e nella creazione di modelli linguistici sempre più sofisticati.