Negli ultimi mesi, la competizione tra Google e OpenAI nel campo dell’intelligenza artificiale è diventata sempre più serrata. Mentre OpenAI si è guadagnata l’attenzione con il lancio del modello o1, Google sta lavorando in silenzio su un progetto che potrebbe rivoluzionare il settore: Gemini 2.

Secondo Logan Kilpatrick, responsabile dei prodotti Google per AI Studio e Gemini API, Gemini 2 sarà un modello multimodale in grado di comprendere non solo testo, ma anche video di grandi dimensioni. Questo rappresenta un passo avanti rispetto ai modelli attuali, che si concentrano principalmente sull’elaborazione del linguaggio naturale. Kilpatrick ha dichiarato che il nuovo modello offrirà una qualità di ragionamento superiore e una finestra di contesto notevolmente estesa, potenzialmente fino a miliardi o trilioni di token. Questo significa che Gemini 2 sarà in grado di elaborare informazioni molto più complesse e articolate, aprendo nuove possibilità applicative.

La rivalità tra Google e OpenAI non è una novità. Nel 2017, Google ha pubblicato il documento “Attention Is All You Need”, introducendo il concetto di Transformer, una delle basi su cui OpenAI ha poi sviluppato i suoi modelli. Da allora, le due aziende si sono costantemente sfidate nel miglioramento delle tecnologie AI. Sam Altman, CEO di OpenAI, ha recentemente criticato le altre aziende di ricerca, accusandole di copiare le sue innovazioni, ma questa affermazione è stata messa in discussione da molti esperti del settore.

OpenAI ha ottenuto grandi risultati con il suo modello o1, che ha introdotto la tecnica del “Chain of Thought” (CoT), migliorando la capacità dei modelli di affrontare compiti complessi tramite la generazione di processi di pensiero graduali. Tuttavia, Google ha risposto con il documento “Chain of Thought Empowers Transformers to Solve Inherently Serial Problems”, sostenendo che un aumento della lunghezza della catena di pensiero possa rendere i trasformatori molto più espressivi e capaci di risolvere una nuova classe di problemi.

Google DeepMind, il laboratorio di ricerca AI di Google, ha sviluppato tecniche di apprendimento per rinforzo che permettono ai modelli di autocorreggersi in modo più efficace rispetto al passato. Questo approccio è stato descritto nel documento “Training Language Models to Self-Correct via Reinforcement Learning”, in cui si afferma che il metodo tradizionale di training supervisionato (SFT) non è sufficiente per insegnare ai modelli a correggere i propri errori. In risposta, Google ha sviluppato un metodo di apprendimento per rinforzo online multi-turn, che potrebbe superare le capacità di autocorrezione del modello o1 di OpenAI.

Inoltre, Google ha annunciato che YouTube integrerà nei prossimi mesi nuovi strumenti di intelligenza artificiale generativa per i creatori di contenuti, utilizzando i modelli Veo e Imagen 3. Questi strumenti, sotto il nome di Dream Screen, permetteranno di generare contenuti video in modo completamente nuovo, superando le soluzioni attuali.

La competizione tra Google e OpenAI continua a intensificarsi, e mentre OpenAI ha guadagnato terreno con il lancio di o1, Google sembra avere un piano ben definito per recuperare il terreno perso e forse superare il concorrente. Con Gemini 2 all’orizzonte, Google potrebbe introdurre innovazioni che cambieranno il panorama dell’intelligenza artificiale per gli anni a venire.

Di Fantasy