Due nuovi modelli linguistici di grandi dimensioni (LLM) sono stati svelati venerdì da Stability AI, una società all’avanguardia nell’intelligenza artificiale per la generazione di immagini di Stable Diffusion. I nomi di questi nuovi modelli, FreeWilly1 e FreeWilly2, susciteranno sicuramente ricordi nei cuori dei bambini degli anni ’90.
I creatori di questi LLM, basati sulle versioni open source dei modelli LLaMA e LLaMA 2 di Meta, hanno fatto un passo avanti nell’innovazione. Infatti, i due modelli sono stati addestrati su un set di dati completamente nuovo e più piccolo, che include dati sintetici. Questa scelta ha permesso loro di eccellere nel ragionamento intricato, nelle sottigliezze linguistiche e di rispondere a domande complesse in vari domini specializzati come il diritto e la matematica.
È interessante notare che CarperAI, una sussidiaria di Stability, ha rilasciato i FreeWillys con una “licenza non commerciale”, che ne vieta l’uso a scopo di guadagno o affari. Questi modelli sono piuttosto finalizzati a promuovere l’accesso aperto nella comunità dell’intelligenza artificiale e a spingere avanti la ricerca.
I nomi dei modelli sono un omaggio alla metodologia di formazione AI “Orca” sviluppata da ricercatori di Microsoft. Essa permette ai modelli “più piccoli”, esposti a dati più limitati, di ottenere prestazioni paragonabili a quelle di modelli più grandi addestrati su set di dati più massicci. Inoltre, i FreeWilly1 e FreeWilly2 hanno avuto un addestramento con 600.000 punti dati, appena il 10% delle dimensioni del set di dati Orca originale, utilizzando istruzioni tratte da quattro set di dati creati da Enrico Shippole.
Questo approccio ha dimostrato di essere meno costoso e più rispettoso dell’ambiente, utilizzando meno energia e riducendo l’impronta di carbonio, ma senza compromettere le prestazioni dei modelli, che sono paragonabili e, in alcuni casi, addirittura superiori a quelle del noto modello ChatGPT su GPT-3.5.
Con la proliferazione degli LLM, un’importante domanda sorge spontanea: cosa accade quando vengono generati più contenuti utilizzando questi modelli? Gli aggiornamenti futuri dei modelli e di quelli successivi verranno addestrati su dati generati dall’intelligenza artificiale stessa?
Un documento ad accesso aperto ha descritto un fenomeno chiamato “collasso del modello”, in cui gli LLM addestrati su quantità crescenti di dati generati dall’IA hanno mostrato prestazioni scarse rispetto ai modelli addestrati su dati generati dall’uomo. Tuttavia, Stability AI ha affrontato questo problema durante l’addestramento dei FreeWilly utilizzando altri due LLM per generare esempi sintetici, dimostrando che questa tecnica può essere una soluzione per evitare il collasso del modello e per garantire l’uso di dati non protetti da copyright o proprietari.
In sintesi, Stability AI prevede che i nuovi modelli FreeWilly stabiliscano nuovi standard nel campo degli LLM ad accesso aperto. Grazie a queste innovazioni, la comprensione del linguaggio naturale potrà fare passi avanti significativi, aprendo la strada a compiti sempre più complessi.
Il team di Stability AI ha espresso la loro entusiasmo riguardo alle innumerevoli possibilità che questi modelli offriranno alla comunità dell’intelligenza artificiale e alle nuove applicazioni che potranno essere sviluppate. Hanno esteso la loro gratitudine ai ricercatori, ingegneri e collaboratori la cui dedizione ha reso possibile questo importante traguardo.
I ricercatori e gli sviluppatori possono accedere ai pesi per FreeWilly2 così come sono, mentre i pesi di FreeWilly1 verranno rilasciati come delta rispetto al modello originale.