Sin dal rilascio di ChatGPT, le persone sono rimaste affascinate dal chatbot LLM. Sia gli utenti che gli sviluppatori nel campo dell’intelligenza artificiale hanno cercato di creare la propria versione, sia utilizzando modelli open source che tentando di migliorarli imitando i sistemi proprietari come ChatGPT. Tuttavia, un recente studio condotto dai ricercatori dell’UC Berkeley intitolato “The False Promise of Imitating Proprietary LLMs” ha messo in discussione l’efficacia di questo approccio di imitazione.
Il documento evidenzia varie preoccupazioni legali ed etiche riguardanti l’uso dei modelli linguistici proprietari per la formazione di modelli open source. Inoltre, secondo lo studio, l’imitazione di modelli più forti come ChatGPT non apporta un miglioramento significativo alle capacità linguistiche dei modelli più deboli. La principale fonte di miglioramento per un modello linguistico è la pre-formazione, e pertanto la messa a punto su output di modelli proprietari non modifica sostanzialmente le conoscenze di base del modello, ma solo il suo stile.
Inoltre, cercando di imitare la conoscenza e le capacità dei modelli di grandi dimensioni come ChatGPT, i modelli più deboli finiscono per ereditare i loro difetti e pregiudizi. Questo approccio di imitazione limita anche la possibilità di migliorare direttamente le decisioni di progettazione delle aziende che detengono i modelli proprietari, come ChatGPT, rendendo i modelli ancora più limitati in aspetti cruciali come l’accuratezza dei contenuti e la risoluzione dei problemi.
Le grandi aziende che dispongono di modelli di base di grandi dimensioni, come GPT-4 o PaLM di Google, non devono preoccuparsi dell’imitazione, poiché c’è un enorme divario tra questi modelli e quelli che cercano di imitarli. Le aziende che possiedono grandi quantità di dati e risorse computazionali manterranno il loro vantaggio competitivo.
Al contrario, le aziende più piccole che cercano di costruire un proprio ecosistema utilizzando modelli open source come LLaMa o altre offerte simili sono più esposte al rischio di imitazione. Come sottolineato precedentemente, la messa a punto di questi modelli utilizzando i dati di ChatGPT non contribuisce significativamente al miglioramento delle capacità linguistiche, ma l’azienda stessa dovrebbe concentrarsi sulla creazione e miglioramento dei dati di pre-formazione.
Tuttavia, aziende come OpenAI non hanno mai divulgato apertamente i dati utilizzati per l’addestramento dei loro modelli, quindi è difficile affermare con certezza che siano dati proprietari anziché dati di origine pubblica. Il documento dell’UC Berkeley ha sollevato dubbi sulla legalità e l’accuratezza di tali dati.
Il documento giunge a diverse conclusioni, ma va notato che non tiene conto degli sviluppi attuali nel campo del software open source. Prima del rilascio di LLaMa, si credeva che le dimensioni del modello influenzassero le sue prestazioni, ma vari modelli costruiti su modelli più piccoli, come LLaMa, stanno superando modelli come GPT-4 e PaLM.
In un documento trapelato di Google, viene affermato che né Google né OpenAI hanno un “fossato” nell’intelligenza artificiale. Il documento elogia la comunità open source e, in particolare, LLaMa di Meta. Anche se Google e OpenAI non hanno diritti di proprietà sui dati utilizzati per l’addestramento, il futuro dei modelli linguistici potrebbe cambiare in modo significativo.
Recentemente, Mark Cuban, imprenditore americano e appassionato di intelligenza artificiale, ha suggerito che la prossima evoluzione dei chatbot basati su modelli linguistici come LLM per le grandi aziende sia quella di utilizzare dati privati esclusivi per costruire modelli di conoscenza più potenti, anziché affidarsi ai modelli standard. Questi modelli esclusivi avrebbero prestazioni migliori e rappresenterebbero un fossato per le aziende, poiché nessun altro avrebbe accesso a tali dati.
Un esempio di questa tendenza è Elon Musk, che ha impedito ad OpenAI di accedere ai suoi dati e ha minacciato azioni legali contro OpenAI e Microsoft per l’uso dei suoi dati. Musk ha ora rilasciato il suo nuovo chatbot, che probabilmente è stato addestrato sui dati di Twitter e non è accessibile all’open source.
Ciò che ciò significa per l’open source è che se gli sviluppatori si basano su modelli linguistici standard come LLaMa, non saranno in grado di migliorarli utilizzando dati provenienti dalle grandi aziende.
Attualmente non ci sono problemi legali o etici nell’utilizzare dati come ChatGPT o Bard per il perfezionamento di modelli, poiché questi dati non appartengono esclusivamente alle aziende. Tuttavia, se Cuban ha ragione e le aziende iniziano ad acquisire diritti esclusivi sui dati, la comunità open source potrebbe essere seriamente compromessa.
Queste aziende potrebbero non voler permettere a nessuno di competere e, con la crescita dell’open source, limitare l’accesso ai dati potrebbe diventare una mossa cruciale per loro. Attualmente, l’abilità dei modelli più piccoli di adattarsi a specifici casi d’uso è un aspetto importante. Ma se le grandi aziende acquisiscono diritti esclusivi sui dati di altre società e li tengono privati, potrebbero superare facilmente i modelli più piccoli.
Nessuno rivelerebbe o pubblicherebbe la loro fonte dati, ma è evidente che provengano dall’Internet. Se questi giganti iniziano ad acquisire diritti di proprietà intellettuale sui dati provenienti da altre aziende, diventeranno i modelli più informati e la comunità open source potrebbe andare in declino.