Google ha svelato Gecko, un modello di incorporamento di testo compatto e versatile alimentato dalla vasta conoscenza dei modelli linguistici di grandi dimensioni (LLM).
I modelli di incorporamento di testo trasformano il linguaggio naturale in vettori densi, organizzando testi semanticamente simili in uno spazio di incorporamento. In altre parole, fungono da traduttori per i computer, convertendo il testo in numeri comprensibili per le macchine.
Queste rappresentazioni numeriche, chiamate incorporamenti, catturano le informazioni semantiche sulle parole o frasi nel testo. Consentono ai computer di comprendere il linguaggio naturale e vengono utilizzate per svolgere una vasta gamma di compiti, come il recupero di documenti, la similitudine tra frasi, la classificazione e il clustering.
Piuttosto che creare modelli di incorporamento separati per ciascun compito, Google ha sviluppato un unico modello in grado di supportare molte attività, sfruttando la vasta conoscenza racchiusa nei LLM.
Il processo di distillazione in due fasi di Google per la creazione di Gecko inizia con la generazione di dati sintetici accoppiati utilizzando un LLM. Successivamente, viene migliorata ulteriormente la qualità dei dati recuperando passaggi candidati per ciascuna query e rietichettando i passaggi positivi e negativi utilizzando lo stesso LLM.
In pratica, il team parte da un vasto corpus di passaggi senza etichetta e utilizza un LLM per generare un’attività rilevante e una query per ogni passaggio. Quindi, incorporano l’attività concatenata e la query usando un modello di incorporamento preaddestrato per ottenere i passaggi più vicini, e utilizzano un LLM per riclassificare i passaggi, ottenendo così passaggi positivi e negativi.
Questo approccio ha permesso a Gecko di ottenere ottime prestazioni di recupero. Addestrato su un set di dati sintetici generati da un LLM e contenente solo passaggi classificati positivamente e negativamente, Gecko-1B ha raggiunto le migliori prestazioni sul popolare benchmark MTEB. Competendo con modelli molto più grandi, ha dimostrato un punteggio medio di 66,31, anche con dimensioni di incorporamento e del modello compatibili.