L’avvento di ChatGPT alla fine del 2022 ha scatenato una corsa competitiva tra le aziende di intelligenza artificiale e i giganti della tecnologia, tutti desiderosi di dominare il prospero mercato delle applicazioni Large Language Model (LLM). Questa competizione ha portato la maggior parte delle aziende a offrire i propri modelli linguistici come servizi proprietari, vendendo l’accesso API senza svelare i dettagli del modello sottostante o le specifiche dei dati e delle metodologie di addestramento.
Tuttavia, nonostante questa tendenza verso i modelli privati, il 2023 ha visto un notevole aumento nell’ecosistema LLM open source. Questo è caratterizzato dal rilascio di modelli che possono essere scaricati, eseguiti sui server e personalizzati per applicazioni specifiche. L’ecosistema open source è rimasto al passo con i modelli privati e ha consolidato la sua posizione cruciale nell’ambito aziendale LLM.
In precedenza, si credeva comunemente che per migliorare le prestazioni degli LLM fosse necessario aumentare le dimensioni del modello. Modelli open source come BLOOM e OPT, comparabili al GPT-3 di OpenAI con i suoi 175 miliardi di parametri, erano esempi di questa filosofia. Tuttavia, pur essendo accessibili al pubblico, questi modelli richiedevano enormi risorse computazionali e competenze specialistiche per funzionare in modo efficace.
Il paradigma è cambiato nel febbraio 2023, quando Meta ha lanciato Llama, una famiglia di modelli con dimensioni variabili da 7 a 65 miliardi di parametri. Llama ha dimostrato che modelli linguistici più piccoli possono competere con successo con i LLM più grandi. Il successo di Llama si è basato sull’addestramento su un corpus di dati significativamente più ampio rispetto a GPT-3, con modelli di Llama addestrati su un set di dati contenente fino a 1,4 trilioni di token. Questa strategia di addestramento di modelli più compatti su un set di dati token esteso ha rappresentato una svolta, sfidando l’idea che le dimensioni fossero l’unico determinante dell’efficacia degli LLM.
L’attrattiva di Llama risiedeva nella sua capacità di funzionare su una singola o poche GPU e nella sua natura open source. Ciò ha permesso alla comunità di ricerca di sviluppare rapidamente scoperte e architetture personalizzate. Il lancio di Llama ha catalizzato la creazione di numerosi LLM open source, ciascuno dei quali contribuendo con nuove prospettive all’ecosistema open source.
Tra questi emergono modelli come Cerebras-GPT di Cerebras, Pythia di EleutherAI, MPT di MosaicML, X-GEN di Salesforce e Falcon di TIIUAE.
Meta ha rilasciato Llama 2 a luglio, che è diventato rapidamente la base per molti modelli derivati. Mistral.AI ha ottenuto un notevole impatto con il rilascio di due modelli, Mistral e Mixtral, con quest’ultimo particolarmente lodato per le sue capacità e il suo costo-efficacia.
“Dal lancio dell’originale Llama di Meta, gli LLM open source hanno visto una crescita accelerata dei progressi, e l’ultimo LLM open source, Mixtral, è classificato come il terzo LLM più utile nelle valutazioni umane, subito dietro a GPT-4 e Claude,” ha dichiarato Jeff Boudier, responsabile del prodotto e della crescita di Hugging Face, a VentureBeat.
Altri modelli come Alpaca, Vicuna, Dolly e Koala sono stati sviluppati sopra questi modelli di base, ottimizzati per applicazioni specifiche.
Secondo i dati di Hugging Face, un hub per modelli di machine learning, gli sviluppatori hanno creato migliaia di fork e versioni specializzate di questi modelli.
Ci sono oltre 14.500 risultati per “Llama”, 3.500 per “Mistral” e 2.400 per “Falcon” su Hugging Face. Mixtral, nonostante il suo rilascio a dicembre, è già diventato la base per 150 progetti.
La natura open source di questi modelli non solo semplifica la creazione di nuovi modelli, ma consente anche agli sviluppatori di combinare diverse configurazioni, migliorando così la versatilità e l’utilità degli LLM nelle applicazioni pratiche.
Mentre i modelli proprietari avanzano e competono, la comunità open source rimarrà un contendente costante. Questa dinamica è riconosciuta anche dai giganti della tecnologia, che sempre più integrano modelli open source nei loro prodotti.
Microsoft, principale finanziatore di OpenAI, ha non solo rilasciato due modelli open source, Orca e Phi-2, ma ha anche migliorato l’integrazione dei modelli open source sulla sua piattaforma Azure AI Studio. In modo simile, Amazon, uno dei principali investitori di Anthropic, ha introdotto Bedrock, un servizio cloud progettato per ospitare sia modelli proprietari che open source.
Nel 2023, la maggior parte delle aziende è stata colta di sorpresa dalle capacità degli LLM grazie all’introduzione e al successo di ChatGPT. Ognuna di esse stava cercando di definire i casi d’uso dell’IA generativa, sperimentando e creando rapidamente applicazioni proof of concept utilizzando API a modello chiuso.
Tuttavia, la dipendenza da API esterne comporta rischi significativi, tra cui l’esposizione del codice sorgente sensibile e dei dati dei clienti. Questa non è una strategia sostenibile a lungo termine per le aziende che danno priorità alla privacy e alla sicurezza dei dati.
L’ecosistema open source in crescita offre una soluzione unica per le aziende che desiderano integrare l’IA generativa, affrontando al contempo altre esigenze di sicurezza e privacy.
“Poiché l’intelligenza artificiale è il nuovo modo di costruire tecnologia, dovrà essere creata e gestita internamente, con tutte le garanzie di privacy, sicurezza e conformità richieste dalle informazioni e dalle normative sui clienti,” ha affermato Boudier. “E, se il passato è un’indicazione, ciò significa abbracciare l’open source.”