Il regno dei Large Language Models è vasto e in continua espansione, con ogni nuovo modello che spinge i confini di ciò che è possibile. La natura open source degli LLM discussi in questo blog non solo mette in mostra lo spirito collaborativo della comunità AI, ma apre anche la strada a future innovazioni.

Questi modelli, dalle straordinarie capacità di chatbot di Vicuna alle metriche delle prestazioni superiori di Falcon, rappresentano l’apice dell’attuale tecnologia LLM. Mentre continuiamo ad assistere a rapidi progressi in questo campo, è chiaro che i modelli open source giocheranno un ruolo cruciale nel plasmare il futuro dell’IA.

Che tu sia un ricercatore esperto, un appassionato di intelligenza artificiale in erba o qualcuno curioso del potenziale di questi modelli, non c’è momento migliore per tuffarsi ed esplorare le vaste possibilità che offrono. Per questo, esploreremo alcuni dei migliori LLM open source che stanno facendo scalpore nella comunità dell’IA, ognuno dei quali mette in campo i suoi punti di forza e le sue capacità uniche.

Llama 2. Meta’s Llama 2 è un’aggiunta rivoluzionaria alla loro gamma di modelli AI. Questo non è solo un altro modello; è progettato per alimentare una gamma di applicazioni all’avanguardia. I dati di addestramento di Llama 2 sono vasti e vari, il che lo rende un progresso significativo rispetto al suo predecessore. Questa diversità nella formazione assicura che Llama 2 non sia solo un miglioramento incrementale, ma un passo monumentale verso il futuro delle interazioni guidate dall’IA. La collaborazione tra Meta e Microsoft ha ampliato gli orizzonti di Llama 2. Il modello open source è ora supportato su piattaforme come Azure e Windows, con l’obiettivo di fornire a sviluppatori e organizzazioni gli strumenti per creare esperienze generative guidate dall’IA. Questa partnership sottolinea l’impegno di entrambe le società nel rendere l’IA più accessibile e aperta a tutti. Llama 2 non è solo un successore del modello Llama originale; rappresenta un cambio di paradigma nell’arena dei chatbot. Sebbene il primo modello Llama fosse rivoluzionario nella generazione di testo e codice, la sua disponibilità era limitata per evitare abusi. Llama 2, invece, è destinato a raggiungere un pubblico più ampio. È ottimizzato per piattaforme come AWS, Azure e la piattaforma di hosting di modelli AI di Hugging Face. Inoltre, con la collaborazione di Meta con Microsoft, Llama 2 è pronto a lasciare il segno non solo su Windows ma anche su dispositivi basati sul sistema su chip Snapdragon di Qualcomm. La sicurezza è al centro del design di Llama 2. Riconoscendo le sfide affrontate dai precedenti modelli di linguaggio di grandi dimensioni come GPT, che a volte producevano contenuti fuorvianti o dannosi, Meta ha adottato misure estese per garantire l’affidabilità di Llama 2. Il modello è stato sottoposto a un rigoroso addestramento per ridurre al minimo “allucinazioni”, disinformazione e pregiudizi. Caratteristiche principali di LLaMa 2:

  • Diversi dati di allenamento: i dati di allenamento di Llama 2 sono sia ampi che vari, garantendo una comprensione e prestazioni complete.
  • Collaborazione con Microsoft: Llama 2 è supportato su piattaforme come Azure e Windows, ampliando il suo ambito di applicazione.
  • Disponibilità aperta: a differenza del suo predecessore, Llama 2 è disponibile per un pubblico più ampio, pronto per la messa a punto su più piattaforme.
  • Design incentrato sulla sicurezza: Meta ha enfatizzato la sicurezza, assicurando che Llama 2 produca risultati accurati e affidabili riducendo al minimo le uscite dannose.
  • Versioni ottimizzate: Llama 2 è disponibile in due versioni principali: Llama 2 e Llama 2-Chat, quest’ultima appositamente progettata per conversazioni bidirezionali. Queste versioni variano in complessità da 7 miliardi a 70 miliardi di parametri.
  • Addestramento migliorato: Llama 2 è stato addestrato su due milioni di gettoni, un aumento significativo rispetto ai 1,4 trilioni di gettoni del Llama originale.

Claude 2. L’ultimo modello di intelligenza artificiale di Anthropic, Claude 2, non è semplicemente un aggiornamento, ma rappresenta un progresso significativo nelle capacità dei modelli di intelligenza artificiale. Con le sue metriche delle prestazioni migliorate, Claude 2 è progettato per fornire agli utenti risposte estese e coerenti. L’accessibilità di questo modello è ampia, disponibile sia tramite un’API che il suo sito Web beta dedicato. Il feedback degli utenti indica che le interazioni con Claude sono intuitive, con il modello che offre spiegazioni dettagliate e dimostra una capacità di memoria estesa. In termini di capacità accademiche e di ragionamento, Claude 2 ha mostrato risultati notevoli. Il modello ha ottenuto un punteggio del 76,5% nella sezione a scelta multipla dell’esame di avvocato, segnando un miglioramento rispetto al 73,0% ottenuto da Claude 1.3. Quando confrontato con gli studenti universitari che si preparano per i corsi di laurea, Claude 2 ha ottenuto risultati superiori al 90° percentile negli esami di lettura e scrittura GRE, indicando la sua competenza nella comprensione e nella generazione di contenuti complessi. La versatilità di Claude 2 è un’altra caratteristica degna di nota. Il modello può elaborare input fino a 100.000 token, consentendogli di rivedere documenti estesi che vanno dai manuali tecnici ai libri completi. Inoltre, Claude 2 ha la capacità di produrre senza problemi documenti estesi, dalle comunicazioni ufficiali alle narrazioni dettagliate. Anche le capacità di codifica del modello sono state migliorate, con Claude 2 che ha ottenuto un punteggio del 71,2% sul Codex HumanEval, una valutazione della codifica Python, e dell’88,0% su GSM8k, una raccolta di sfide matematiche per le scuole elementari. La sicurezza rimane una preoccupazione fondamentale per Anthropic. Gli sforzi si sono concentrati per garantire che Claude 2 sia meno suscettibile alla generazione di contenuti potenzialmente dannosi o inappropriati. Attraverso meticolose valutazioni interne e l’applicazione di metodologie di sicurezza avanzate, Claude 2 ha dimostrato un miglioramento significativo nella produzione di risposte benigne rispetto al suo predecessore. Panoramica delle caratteristiche principali:

  • Miglioramento delle prestazioni: Claude 2 offre tempi di risposta più rapidi e offre interazioni più dettagliate.
  • Punti di accesso multipli: è possibile accedere al modello tramite un’API o tramite il suo sito Web beta dedicato, claude.ai .
  • Eccellenza accademica: Claude 2 ha mostrato risultati encomiabili nelle valutazioni accademiche, in particolare nei segmenti di lettura e scrittura GRE.
  • Funzionalità estese di input/output: Claude 2 può gestire input fino a 100.000 token ed è in grado di produrre documenti estesi in una singola sessione.
  • Competenza nella codifica avanzata: le capacità di codifica del modello sono state perfezionate, come evidenziato dai suoi punteggi nella codifica e nelle valutazioni matematiche.
  • Protocolli di sicurezza: sono state impiegate valutazioni rigorose e tecniche di sicurezza avanzate per garantire che Claude 2 produca risultati positivi.
  • Piani di espansione: mentre Claude 2 è attualmente disponibile negli Stati Uniti e nel Regno Unito, ci sono piani per espandere la sua disponibilità a livello globale nel prossimo futuro.

MPT-7B. MosaicML Foundations ha dato un contributo significativo a questo spazio con l’introduzione di MPT-7B, il loro ultimo LLM open source. MPT-7B, acronimo di MosaicML Pretrained Transformer, è un modello di trasformatore solo decodificatore in stile GPT. Questo modello vanta numerosi miglioramenti, tra cui implementazioni di layer ottimizzate per le prestazioni e modifiche all’architettura che garantiscono una maggiore stabilità dell’addestramento. Una caratteristica distintiva di MPT-7B è la sua formazione su un ampio set di dati comprendente 1 trilione di token di testo e codice. Questa formazione rigorosa è stata eseguita sulla piattaforma MosaicML nell’arco di 9,5 giorni. La natura open source di MPT-7B lo posiziona come uno strumento prezioso per le applicazioni commerciali. Possiede il potenziale per avere un impatto significativo sull’analisi predittiva e sui processi decisionali di aziende e organizzazioni. Oltre al modello di base, MosaicML Foundations sta anche rilasciando modelli specializzati su misura per attività specifiche, come MPT-7B-Instruct per seguire istruzioni in forma abbreviata, MPT-7B-Chat per la generazione di dialoghi e MPT-7B-StoryWriter-65k+ per la creazione di storie di lunga durata. Il percorso di sviluppo di MPT-7B è stato completo, con il team MosaicML che ha gestito tutte le fasi dalla preparazione dei dati alla distribuzione in poche settimane. I dati provenivano da diversi repository e il team ha utilizzato strumenti come GPT-NeoX di EleutherAI e il tokenizer 20B per garantire un mix di formazione vario e completo. Panoramica delle caratteristiche principali di MPT-7B:

  • Licenza commerciale: MPT-7B è concesso in licenza per uso commerciale, il che lo rende una risorsa preziosa per le aziende.
  • Dati di addestramento estesi: il modello vanta un addestramento su un vasto set di dati di 1 trilione di token.
  • Gestione di input lunghi: MPT-7B è progettato per elaborare input estremamente lunghi senza compromessi.
  • Velocità ed efficienza: il modello è ottimizzato per l’addestramento e l’inferenza rapidi, garantendo risultati tempestivi.
  • Codice open source: MPT-7B viene fornito con un efficiente codice di formazione open source, che promuove la trasparenza e la facilità d’uso.
  • Eccellenza comparativa: MPT-7B ha dimostrato la superiorità rispetto ad altri modelli open source nella gamma 7B-20B, con la sua qualità che corrisponde a quella di LLaMA-7B.

Falcon LLM. Falcon LLM, è un modello che è rapidamente salito al vertice della gerarchia LLM. Falcon LLM, in particolare Falcon-40B, è un LLM fondamentale dotato di 40 miliardi di parametri ed è stato addestrato su un impressionante trilione di token. Funziona come un modello di solo decodificatore autoregressivo, il che significa essenzialmente che prevede il token successivo in una sequenza basata sui token precedenti. Questa architettura ricorda il modello GPT. In particolare, l’architettura di Falcon ha dimostrato prestazioni superiori a GPT-3, raggiungendo questa impresa con solo il 75% del budget di calcolo per l’addestramento e richiedendo un calcolo significativamente inferiore durante l’inferenza. Il team del Technology Innovation Institute ha posto una forte enfasi sulla qualità dei dati durante lo sviluppo di Falcon. Riconoscendo la sensibilità degli LLM all’addestramento della qualità dei dati, hanno costruito una pipeline di dati scalabile fino a decine di migliaia di core della CPU. Ciò ha consentito un’elaborazione rapida e l’estrazione di contenuti di alta qualità dal Web, ottenuta attraverso processi di filtraggio e deduplicazione estesi. Oltre al Falcon-40B, TII ha introdotto anche altre versioni, tra cui il Falcon-7B, che possiede 7 miliardi di parametri ed è stato addestrato su 1.500 miliardi di token. Esistono anche modelli specializzati come Falcon-40B-Instruct e Falcon-7B-Instruct, progettati su misura per compiti specifici. L’addestramento del Falcon-40B è stato un processo lungo. Il modello è stato addestrato sul set di dati RefinedWeb, un enorme set di dati web inglese costruito da TII. Questo set di dati è stato creato sulla base di CommonCrawl ed è stato sottoposto a rigorosi filtri per garantire la qualità. Una volta preparato, il modello è stato convalidato rispetto a diversi benchmark open source, tra cui EAI Harness, HELM e BigBench. Panoramica delle caratteristiche principali di Falcon LLM:

  • Parametri estesi: Falcon-40B è dotato di 40 miliardi di parametri, garantendo apprendimento e prestazioni completi.
  • Autoregressive Decoder-Only Model: questa architettura consente a Falcon di prevedere i token successivi in ​​base a quelli precedenti, in modo simile al modello GPT.
  • Prestazioni superiori: Falcon supera GPT-3 utilizzando solo il 75% del budget di calcolo per l’addestramento.
  • Pipeline di dati di alta qualità: la pipeline di dati di TII garantisce l’estrazione di contenuti di alta qualità dal Web, fondamentali per l’addestramento del modello.
  • Varietà di modelli: oltre al Falcon-40B, TII offre Falcon-7B e modelli specializzati come Falcon-40B-Instruct e Falcon-7B-Instruct.
  • Disponibilità open source: Falcon LLM è stato open source, promuovendo l’accessibilità e l’inclusività nel dominio dell’IA.

Vicuna-13B. LMSYS ORG ha lasciato un segno significativo nel regno degli LLM open source con l’introduzione di Vicuna-13B. Questo chatbot open source è stato meticolosamente addestrato perfezionando LLaMA sulle conversazioni condivise dagli utenti provenienti da ShareGPT. Le valutazioni preliminari, con GPT-4 in qualità di giudice, indicano che Vicuna-13B raggiunge una qualità superiore al 90% rispetto a modelli rinomati come OpenAI ChatGPT e Google Bard. Sorprendentemente, Vicuna-13B supera altri modelli degni di nota come LLaMA e Stanford Alpaca in oltre il 90% dei casi. L’intero processo di addestramento per Vicuna-13B è stato eseguito a un costo di circa $ 300. Per coloro che sono interessati ad esplorare le sue capacità, il codice, i pesi e una demo online sono stati resi pubblicamente disponibili per scopi non commerciali. Il modello Vicuna-13B è stato messo a punto con 70.000 conversazioni ChatGPT condivise dagli utenti, consentendogli di generare risposte più dettagliate e ben strutturate. La qualità di queste risposte è paragonabile a ChatGPT. La valutazione dei chatbot, tuttavia, è un’impresa complessa. Con i progressi in GPT-4, c’è una crescente curiosità sul suo potenziale come framework di valutazione automatizzato per la generazione di benchmark e le valutazioni delle prestazioni. I risultati iniziali suggeriscono che GPT-4 può produrre classifiche coerenti e valutazioni dettagliate quando si confrontano le risposte dei chatbot. Valutazioni preliminari basate su GPT-4 mostrano che Vicuna raggiunge il 90% della capacità di modelli come Bard/ChatGPT. Panoramica delle caratteristiche principali di Vicuna-13B:

  • Open-Source Nature: Vicuna-13B è disponibile per l’accesso pubblico, promuovendo la trasparenza e il coinvolgimento della comunità.
  • Dati di addestramento estesi: il modello è stato addestrato su 70.000 conversazioni condivise dagli utenti, garantendo una comprensione completa delle diverse interazioni.
  • Prestazioni competitive: le prestazioni di Vicuna-13B sono alla pari con leader del settore come ChatGPT e Google Bard.
  • Formazione conveniente: l’intero processo di formazione per Vicuna-13B è stato eseguito a un costo contenuto di circa $ 300.
  • Messa a punto su LLaMA: il modello è stato messo a punto su LLaMA, garantendo prestazioni e qualità di risposta migliorate.
  • Disponibilità demo online: una demo online interattiva è disponibile per gli utenti per testare e sperimentare le capacità di Vicuna-13B.

Di Fantasy