Google AI presenta Flan-T5, un nuovo modello di linguaggio open source
I ricercatori hanno rilasciato pubblicamente i checkpoint Flan-T5, che ottengono ottime prestazioni con pochi colpi rispetto al modello molto più grande di PaLM 62B
La messa a punto dei modelli linguistici su un gruppo di set di dati formulati come istruzioni è stata importante nel migliorare la generalizzazione e le prestazioni del modello su attività invisibili. Nel tentativo di portare avanti questo avanzamento, Google AI ha rilasciato un nuovo modello di linguaggio open source: Flan-T5 , che è in grado di risolvere circa 1800 attività diverse.
Il primo autore del documento ” Scaling Instruction-Finetuned Language Models “, Hyung Won Chung, ha dato la notizia in un thread su Twitter:
Il documento esplora principalmente la messa a punto delle istruzioni di aree come il ridimensionamento del numero di attività e la dimensione del modello e i dati della catena di pensiero. Il documento recita: “Troviamo che la messa a punto delle istruzioni con gli aspetti di cui sopra migliora notevolmente le prestazioni su una varietà di classi di modelli ( PaLM , T5 , U-PaLM), richiedendo configurazioni (zero-shot, pochi-shot, CoT) e benchmark di valutazione (MMLU, BBH, TyDiQA, MGSM, generazione a tempo indeterminato).”
Il team ha rilasciato pubblicamente i checkpoint Flan-T5, che ottengono ottime prestazioni con pochi colpi
rispetto al modello molto più grande di PaLM 62B. Inoltre, la messa a punto dell’istruzione è un metodo generale utilizzato per migliorare le prestazioni e l’usabilità dei modelli linguistici pre-addestrati. Con Flan-T5, i ricercatori affermano che il nuovo modello porterà a un miglioramento delle capacità di suggerimento e di ragionamento in più fasi.