I veri detentori del trionfo dell’IA generativa

Negli ultimi mesi abbiamo assistito ad una rivoluzione nell’Intelligenza Artificiale (IA) generativa open source (OS), in particolare nei modelli linguistici (LM). Questo ha portato molte persone a credere, anche a causa di angosciate ammissioni interne, che tale progresso costituisca una minaccia per giganti storici come Google e Microsoft, e per laboratori leader come OpenAI e Anthropic.

È vero, molti di noi apprezzano l’idea di un’intelligenza artificiale open source che potrebbe destabilizzare il potere concentrato nelle mani delle grandi aziende, nonostante i rischi potenziali. L’open source ha un fascino irresistibile, non tanto per un rifiuto delle grandi aziende, ma perché ci affascina l’idea che “il popolo” possa sfidare i potenti.

Tuttavia, questa sensazione di vittoria anticipata è ingannevole. L’intelligenza artificiale open source sta vivendo un periodo di crescita, ma è ancora lontana dal poter minacciare la leadership detenuta dai modelli proprietari e non dispone delle risorse per farlo in futuro.

Questo articolo è un estratto da The Algorithmic Bridge, una newsletter educativa che mira a colmare il divario tra l’intelligenza artificiale, gli algoritmi e le persone.

La forza dell’IA open source non deve essere trascurata

Nel marzo scorso, Meta ha diffuso online LLaMA, il primo Linguistic Model open source decente. Gli sviluppatori open source hanno accettato questo dono e hanno iniziato a cercare di replicare il successo di OpenAI. Questa diffusione ha portato alla nascita di quello che Simon Willison ha definito “un momento di diffusione stabile” per i Linguistic Models – una ondata di ricerca innovativa e sviluppo creativo che sembrava poter competere con ChatGPT.

Tuttavia, un documento diffuso dalla società di consulenza Semianalysis ha evidenziato come un ingegnere di Google abbia sostenuto che il vero concorrente di Google non sia OpenAI, ma la comunità open source. Questo perché senza un dominio esclusivo, nessuna delle due parti potrebbe resistere “al valore di un intero pianeta di lavoro”. Il documento suggerisce infine di abbracciare l’open source per evitarne la minaccia.

Nonostante queste osservazioni, credo che la conclusione non sia giustificata dalle premesse. Di seguito, esporrò tre motivi per cui, sebbene l’intelligenza artificiale open source sia una forza da non sottovalutare, è ancora lontana dal costituire una minaccia per i giganti dell’industria o le startup ricche.

La promessa illusoria di imitare i modelli linguistici proprietari

Il primo problema risiede negli algoritmi.

Se consideriamo i migliori modelli linguistici open source (quelli che si propongono come rivali di ChatGPT), ci imbattiamo in una tecnica proposta per la prima volta nel documento Self-Instruct: migliorare i modelli affinandoli sui propri output (o su quelli di modelli migliori). Due dei più noti modelli linguistici open source – Alpaca e Vicuna – hanno applicato questa tecnica a GPT-3.5 e ChatGPT rispettivamente.

Tuttavia, un recente studio della UC Berkeley ha scoperto che “esiste un divario significativo tra i modelli linguistici open source e quelli proprietari”. Nonostante gli sforzi di affinamento, i modelli open source adottano lo stile del modello che cercano di imitare, ma non migliorano in termini di “fattualità”. Di conseguenza, Alpaca e Vicuna non riescono veramente a competere con GPT-3.5 e ChatGPT.

Questo rappresenta un duro colpo per la comunità dell’IA open source. Per attirare utenti con chatbot economici, personalizzabili e sufficientemente capaci, dovranno affrontare l’immenso compito di pre-addestrare un modello linguistico all’avanguardia. Attualmente, questo sembra molto improbabile; l’unica ragione per cui tutto ciò è avvenuto è la perdita del modello da parte di Meta: la comunità open source ha fatto ciò che poteva con ciò che le era stato lasciato.

I limiti dell’inferenza on-device per i modelli linguistici

Il secondo problema riguarda l’hardware.

Creare modelli linguistici personalizzati, piccoli ed economici ha senso solo se si vuole eseguirli in modo locale e privato sui propri dispositivi, come un computer o uno smartphone. Tuttavia, esistono limiti a quanto possano essere efficaci.

Dylan Patel ha scritto un eccellente articolo per Semianalysis sul problema della memoria e del riutilizzo dei dati per l’inferenza dei modelli linguistici sul dispositivo. Generare un token (ad esempio, una parola restituita da ChatGPT) è un processo computazionalmente costoso. I modelli linguistici ospitati su server possono essere parallelizzati per ridurre al minimo i costi. Tuttavia, se sei l’unico utente del tuo chatbot – come si presuppone – non puoi sfruttare questo vantaggio. Presto i costi diventano proibitivi per i modelli linguistici di alta qualità.

A causa delle limitazioni hardware e dei compromessi inevitabili, la migliore risorsa dell’IA open source – modelli privati, economici e personalizzabili – ha un limite superiore fisso. Non possono eguagliare le prestazioni dei modelli proprietari ospitati su server (come quelli di Google o OpenAI), indipendentemente dalle innovazioni che possono essere apportate al livello algoritmico.

Il fossato dei giganti tecnologici in azione

C’è un ultimo punto da considerare, riguardante il lato commerciale: se vincere significa raggiungere il maggior numero di utenti, i giganti tecnologici non hanno alcuna concorrenza.

Contrariamente a quanto affermato nel documento trapelato, Google e Microsoft dispongono di un notevole vantaggio competitivo. Non si tratta solo di denaro, talento, risorse, influenza e potere. Il loro vero vantaggio risiede nel fatto che progettano, costruiscono, producono e vendono i prodotti che usiamo.

E stanno implementando una strategia spietata per sfruttare al massimo questo vantaggio. Microsoft ha potenziato Bing, Edge, 365 e ora Windows. Google ha migliorato la Ricerca e Workspace (che include Gmail e Docs). Altri giganti tecnologici stanno facendo lo stesso. Adobe Firefly, che ora potenzia Generative Fill su Photoshop, ne è un esempio chiaro. Dal punto di vista hardware, Nvidia – leader indiscusso del settore – ha ottimizzato il suo top di gamma H100 per l’inferenza dei modelli linguistici.

Il dilemma dell’innovatore descrive i giganti tecnologici come vulnerabili: gli sfidanti con una forte volontà di perseguire l’innovazione rischiosa potrebbero, nelle giuste circostanze, rovesciarli. Ma dobbiamo essere realistici; non viviamo in tali condizioni ideali. L’IA generativa si integra perfettamente con le suite di prodotti già offerte da Google, Microsoft, Adobe e Nvidia. Questi giganti creano il substrato su cui l’IA generativa viene implementata.

OpenAI e DeepMind non hanno mai avuto l’opportunità di competere efficacemente. La comunità open source ancora meno. Non possono offrire prodotti che le persone preferirebbero utilizzare rispetto a quelli di Google e Microsoft. Questo è un fattore ancora più decisivo di quanto sembri. Anche se Google e Microsoft rendessero open source la loro migliore intelligenza artificiale e permettessero alla comunità open source di prosperare sulla base di innovazioni liberamente condivise, manterrebbero comunque il vantaggio competitivo definitivo: chi crea e vende i prodotti possiede il mondo.

In definitiva, l’IA generativa è solo un nuovo ingranaggio nella complessa macchina che governa le nostre vite digitali e sta lentamente diventando un’estensione dell’egemonia delle grandi aziende tecnologiche.

Di ihal