Quando i codici di LLaMA di Meta sono trapelati su GitHub, si è aperto un nuovo mondo per i ricercatori di tutto il mondo: il primo Large Language Model (LLM) di livello GPT era finalmente accessibile. Da allora, abbiamo assistito a una serie di LLM che hanno dato all’IA open source una nuova dimensione. LLaMA ha posto le basi per l’arrivo di modelli come Alpaca e Vicuna-13B di Stanford, affermandosi come un campione open source nel campo.
Tuttavia, sembra che ora ci sia un nuovo contendente sul mercato, chiamato Falcon. Sviluppato dal Technology Innovation Institute (TII) di Abu Dhabi, negli Emirati Arabi Uniti, Falcon offre prestazioni superiori rispetto a LLaMA, con tre varianti: 1B, 7B e 40B.
Secondo l’istituto, FalconLM è attualmente il modello di linguaggio open source più potente mai sviluppato. La variante più grande, Falcon 40B, con i suoi 40 miliardi di parametri, è relativamente più piccola rispetto a LLaMA, che ne aveva 65 miliardi. Faisal Al Bannai, segretario generale dell’Advanced Technology Research Council (ATRC), crede che il rilascio di Falcon interromperà l’accesso ai LLM, aprendo la strada a ricercatori e imprenditori per sviluppare casi d’uso ancora più innovativi.
Due varianti di FalconLM, Falcon 40B Instruct e Falcon 40B, si posizionano al primo posto nella classifica Hugging Face OpenLLM, mentre LLaMA di Meta si piazza al terzo posto. Hugging Face valuta i modelli sulla base di quattro benchmark popolari: AI2 Reasoning Challenge, HellaSwag, MMLU e TruthfulQA.
Sebbene il documento sul LLM non sia ancora stato pubblicato, sappiamo finora che Falcon 40B è stato sottoposto a un’intensa fase di addestramento su un enorme set di dati di 1 trilione di token provenienti dal web. I ricercatori hanno dedicato grande attenzione al filtraggio e alla selezione di dati di alta qualità e pertinenza. È noto che i LLM sono sensibili alla qualità dei dati di addestramento, motivo per cui è stato realizzato un notevole sforzo nella creazione di una pipeline di dati in grado di elaborare efficientemente decine di migliaia di core della CPU. Questa pipeline è stata progettata per estrarre i migliori contenuti dal Web, utilizzando ampie tecniche di filtraggio e deduplicazione.
Il set di dati web raffinato rilasciato dal TII si è dimostrato altamente efficace, grazie al meticoloso filtraggio e alla deduplicazione dei dati. I modelli addestrati esclusivamente su questo set di dati sono in grado di competere o addirittura superare i modelli addestrati su corpora attentamente curati, dimostrando la loro eccezionale qualità e impatto.
I modelli Falcon presentano anche funzionalità multilingue, supportando l’inglese, il tedesco, lo spagnolo e il francese, e offrono capacità limitate in alcune lingue europee come l’olandese, l’italiano, il rumeno, il portoghese, il ceco, il polacco e lo svedese. Inoltre, Falcon-40B rappresenta il secondo modello veramente open source, dopo il rilascio del modello di H2O.ai. Tuttavia, valutare entrambi i modelli diventa difficile poiché H2O.ai non ha confrontato altri modelli in questa classifica.
Nonostante i codici di LLaMA siano disponibili su GitHub, i suoi pesi non sono mai stati resi open source, limitando così le sue possibilità di utilizzo commerciale. Inoltre, tutte le varianti di LLaMA dipendevano dalla licenza originale, rendendole poco adatte per applicazioni commerciali su piccola scala.
Al contrario, Falcon utilizza una licenza Apache modificata, consentendo l’ottimizzazione e l’uso dei modelli per scopi commerciali. Falcon si distingue come il primo modello di linguaggio di grandi dimensioni open source che supera i confini della ricerca. Inizialmente, la licenza prevedeva il pagamento di una royalty predefinita del 10% sui ricavi superiori a un milione di dollari. Tuttavia, è stato successivamente annunciato che Falcon è passato a una licenza Apache 2.0, eliminando l’obbligo di pagare royalty.
Falcon offre significativi miglioramenti delle prestazioni rispetto a GPT-3, utilizzando solo il 75% del budget di calcolo per l’addestramento e richiedendo solo un quinto del calcolo necessario durante l’inferenza. Inoltre, il modello sfrutta il 75% del calcolo di addestramento di GPT-3, il 40% di Chinchilla e l’80% di PaLM-62B, utilizzando in modo efficiente le risorse computazionali disponibili.
Anche se GPT-4 rappresenta l’LLM più avanzato fino ad oggi, essendo proprietario, OpenAI non ha fornito dettagli sull’architettura del modello, le sue dimensioni, l’hardware utilizzato, il calcolo di addestramento, la costruzione del set di dati, il metodo di addestramento, e così via. Ciò impedisce ai ricercatori e agli sviluppatori di comprendere i dettagli tecnici e il funzionamento interno del modello.
L’intelligenza artificiale open source promuove la collaborazione, la trasparenza e l’innovazione nel settore. I modelli open source consentono una maggiore collaborazione e condivisione delle conoscenze, favorendo progressi e innovazioni più rapidi, come dimostrato dal lancio di LLaMA. La disponibilità di LLaMA ha permesso ai ricercatori e agli sviluppatori di accedere a potenti modelli linguistici senza dover investire in soluzioni proprietarie o costose risorse cloud. LLaMA ha offerto un’alternativa ai modelli chiusi, che sono stati oggetto di critiche da parte di alcuni esperti per la mancanza di trasparenza e i potenziali pregiudizi presenti.