È noto che i ricercatori nel campo dell’elaborazione del linguaggio naturale, tra cui il professor Aaron Mueller della Johns Hopkins University, stanno conducendo un esperimento per sviluppare un modello linguistico per bambini pre-addestrati con parole familiari ai bambini di età inferiore ai 13 anni.
Secondo il New York Times del 30 (ora locale), questi studiosi hanno raccolto circa 100 milioni di parole a cui i tredicenni possono accedere su Github a gennaio e le hanno presentate come un set di dati, che è una sfida per sviluppare un modello linguistico basato su questo ha suggerito la “Baby LM Challenge”. È un programma per inviare i modelli candidati e determinare il vincitore dopo la valutazione.
Questo esperimento è iniziato con il presupposto che se la quantità di dati utilizzati per l’addestramento del modello linguistico viene drasticamente ridotta mentre l’efficienza viene aumentata, è possibile garantire prestazioni paragonabili a quelle di un modello linguistico di grandi dimensioni (LLM).
I set di dati di addestramento LLM esistenti utilizzavano fino a 1 trilione di parole. Il “GPT-3” di Open AI ha raggiunto i 200 miliardi e il “Chinchilla” di Deep Mind ha raggiunto i 1 trilione.
È vero che l’intelligenza artificiale (AI) è capace solo quanto la dimensione del set di dati che utilizza per l’addestramento. Ma man mano che i modelli linguistici diventano sempre più grandi, la loro dipendenza da giganti specifici aumenta.
Il professor Mueller e altri hanno proposto una sfida con l’intenzione di sviluppare un modello di facile accesso riducendo le dimensioni e funzionalmente equivalente a un modello di grandi dimensioni.