La scorsa sera, Meta ha sorprendentemente rilasciato Llama 2, una versione aggiornata del suo potente modello di linguaggio chiamato LLaMa, in collaborazione con Microsoft. Questa nuova versione sarà presto disponibile sul catalogo di Microsoft Azure e Amazon SageMaker, consentendo agli utenti di utilizzare il modello sia per scopi di ricerca che commerciali attraverso una licenza.
Una delle principali novità riguarda l’introduzione dei modelli pre-addestrati e perfezionati 7B, 13B e 70B, che hanno visto un aumento significativo del 40% dei dati pre-addestrati. Ciò significa che LLaMa 2 ha utilizzato dati di contesto più ampi per l’addestramento e ha sfruttato GQA (Generalised Question-Answering) per migliorare le capacità di inferenza del modello più grande.
Nel frattempo, diverse aziende hanno lanciato i propri modelli di linguaggio simili a LLaMa negli ultimi due mesi. Questi includono Falcon di TII, Alpaca e Vicuna-13B di Stanford, Claude 2 di Anthropic e altri ancora. Prima che la tua timeline venga sommersa da post come “ChatGPT è solo la punta dell’iceberg, Llama è qui” o “Meta è il nuovo preferito di Microsoft”, andiamo direttamente al sodo e scopriamo come funzionano realmente questi modelli.
Llama 2-Chat è stato sviluppato attraverso il tuning e l’apprendimento per rinforzo con il feedback umano. È stato raccolto un insieme di dati sulle preferenze e sono stati addestrati modelli di ricompensa, inclusa una nuova tecnica chiamata Ghost Attention (GAtt). Inoltre, è stato addestrato utilizzando gli output di GPT-4. Meta ha condotto uno studio umano per valutare l’utilità di Llama 2, utilizzando 4.000 suggerimenti. La metrica “win rate” è stata utilizzata per confrontare i modelli, seguendo un approccio simile al benchmark di Vicuna. Lo studio confronta i modelli Llama 2-Chat con modelli open source e closed source come ChatGPT e PaLM, utilizzando prompt sia singoli che multipli.
Il modello Llama 2-Chat da 70B si comporta all’incirca allo stesso livello di GPT-3.5-0301 e supera Falcon, MPT e Vicuna. In termini di utilità dei prompt sia singoli che multipli, i modelli Llama 2-Chat superano i modelli open source. Hanno una percentuale di vittoria del 36% e una percentuale di pareggio del 31,5% rispetto a ChatGPT. Inoltre, superano il modello di chat MPT-7B nel 60% dei prompt. Il modello Llama 2-Chat 34B ha una percentuale di vittoria complessiva superiore al 75% rispetto ai modelli Vicuna-33B e Falcon-40B di dimensioni simili. Inoltre, il modello da 70B supera nettamente il modello di chat PaLM-bison.
Tuttavia, Llama-2 ha un punto debole nella codifica. Non supera il livello di GPT-3.5 (48.1) o GPT-4 (67) quando si tratta di compiti di codifica. Nonostante un buon risultato nel benchmark MMLU (Massive Multitask Language Understanding), HumanEval ha dimostrato che le capacità di codifica sono leggermente inferiori rispetto a modelli come StarCoder (33.6) o molti altri modelli specificamente progettati per la codifica. Tuttavia, considerando che Llama-2 è un modello in continua evoluzione, è molto probabile che migliori significativamente nel tempo.
D’altra parte, Claude-2 eccelle nella codifica, nella matematica e nel pensiero logico, inclusa la capacità di comprendere i PDF, un compito in cui GPT-4 continua a faticare. Ha ottenuto un impressionante punteggio del 71,2% nel Codex HumanEval, una valutazione specificamente progettata per testare le capacità di programmazione in Python.
Anche quando si tratta di scrittura, Llama-2 e GPT-4 sono molto diversi. Ad esempio, quando sono stati chiesti di scrivere una poesia, entrambi hanno adottato approcci diversi. ChatGPT sembra fare scelte di parole più intenzionali, concentrandosi sull’effetto sonoro delle parole, come un poeta sofisticato con un vasto vocabolario. Al contrario, Llama-2 utilizza parole che fanno rima in modo più ovvio, come una poesia scritta da un adolescente.
Nonostante Llama-2 sia addestrato su una scala molto più piccola, ha ottenuto risultati lodevoli secondo diversi utenti che hanno avuto accesso alla versione beta. Inizialmente, Meta ha utilizzato dati disponibili pubblicamente, ma successivamente ha raccolto dati di alta qualità, ottenendo risultati migliori con meno esempi. Inoltre, hanno osservato l’impatto delle diverse piattaforme e fornitori sulle prestazioni del modello, rilevando che gli output del modello sono comparabili alle annotazioni umane.
La creazione di LLaMA ha probabilmente comportato una spesa di oltre 20 milioni di dollari per Meta. Anche se viene pubblicizzato come open source, vi è una condizione: Meta sta aiutando la comunità open source rilasciando il modello con una licenza commerciale.
Se Llama 2 raggiunge oltre 700 milioni di utenti attivi mensili, sarà necessaria l’autorizzazione di Meta per continuare a utilizzare i diritti concessi. A causa della fuga non autorizzata online del modello iniziale di Llama destinato alla ricerca, è stata creata una versione con licenza per semplificare l’uso di Llama 2. Tuttavia, altri modelli LLM, come GPT-4 e Claude 2, non sono open source ma sono accessibili tramite API.
La nuova partnership tra Microsoft e Meta è stata una sorpresa. Dopo aver investito in una partnership decennale con OpenAI, Satya Nadella sembra essere alla ricerca di nuove opportunità. Nel frattempo, Meta’s Threads ha ottenuto una registrazione incredibile di 10 milioni di utenti in sole sette ore dal suo debutto. Tuttavia, ChatGPT ha registrato un calo senza precedenti del 9,7% a giugno, segnando il primo calo dal suo lancio a dicembre.
Quando OpenAI ha pubblicato il documento su GPT-4, il creatore di ChatGPT ha ricevuto molte critiche perché mancava di dettagli cruciali sull’architettura, le dimensioni del modello, l’hardware, il calcolo di addestramento, la costruzione del set di dati e il metodo di addestramento. I ricercatori ritengono che l’approccio di OpenAI minacci i principi di divulgazione, perpetui i pregiudizi e non riesca a fornire prove valide delle prestazioni di GPT-4 negli esami umani.
D’altra parte, il white paper di Meta è considerato un capolavoro. Esso spiega tutta la ricetta, inclusi i dettagli del modello, le fasi di addestramento, l’hardware, la pipeline dei dati e il processo di annotazione. Ad esempio, è inclusa un’analisi sistematica dell’effetto di RLHF con bellissime visualizzazioni.
Secondo Percy Liang, direttore del Center for Research on Foundation Models di Stanford, Llama-2 rappresenta una minaccia considerevole per OpenAI. Il documento di ricerca di Meta riconosce che esiste ancora un grande divario nelle prestazioni tra LLaMA 2 e GPT-4. Pertanto, anche se LLaMA 2 non può competere con GPT-4 su tutti i parametri, ha il potenziale per migliorare ulteriormente. “Far diventare Llama-2 la principale alternativa open source a OpenAI sarebbe una grande vittoria per Meta”, afferma Steve Weber, professore all’Università della California, Berkeley.”