OpenAI ha introdotto gli incorporamenti, un nuovo endpoint nell’API OpenAI, per assistere nella ricerca semantica, nel clustering, nella modellazione degli argomenti e nella classificazione.
Gli incorporamenti di OpenAI superano i modelli di punta in tre benchmark standard, incluso un miglioramento relativo del 20% nella ricerca del codice. Gli incorporamenti sono davvero utili per lavorare con il linguaggio naturale e il codice.
Gli incorporamenti numericamente simili sono anche semanticamente simili. Ad esempio, il vettore di incorporamento di “compagni canini dicono” sarà più simile al vettore di incorporamento di “woof” rispetto a “miagolio”. Il nuovo endpoint di OpenAI utilizza modelli di rete neurale per mappare testo e codice su una rappresentazione vettoriale, “incorporandoli” in uno spazio ad alta dimensione. Ogni dimensione cattura alcuni aspetti dell’input.
L’azienda ha rilasciato tre famiglie di modelli di incorporamento per diverse funzionalità, tra cui la somiglianza del testo, la ricerca del testo e la ricerca del codice. I modelli accettano testo o codice come input e restituiscono un vettore di incorporamento.
Modelli di somiglianza del testo
I modelli di somiglianza del testo forniscono incorporamenti che catturano la somiglianza semantica di parti di testo. Questi modelli sono utili per molte attività, tra cui il clustering, la visualizzazione dei dati e la classificazione.
Modelli di ricerca testuale
I modelli di ricerca di testo forniscono incorporamenti che consentono attività di ricerca su larga scala, come la ricerca di un documento pertinente in una raccolta di documenti a cui viene data una query di testo. Il modello incorpora prima i documenti e produce query separatamente, quindi la somiglianza del coseno viene utilizzata per confrontare la somiglianza tra la query e ciascun documento. Tale ricerca basata sull’incorporamento si generalizza meglio delle tecniche di sovrapposizione di parole utilizzate nella ricerca di parole chiave classica, poiché cattura il significato semantico del testo ed è anche meno sensibile a frasi o parole esatte.
Modelli di ricerca del codice
I modelli di ricerca del codice forniscono incorporamenti di codice e testo per le attività di ricerca del codice. Data una raccolta di blocchi di codice, il compito è trovare il blocco di codice rilevante per una query in linguaggio naturale.