Gemini di Google DeepMind

Google DeepMind è in procinto di lanciare il modello di base altamente anticipato, chiamato Gemini, il prossimo mese. Demis Hassabis, capo di DeepMind, ha recentemente rivelato che il team di ingegneri sta impiegando le tecniche di AlphaGo per sviluppare Gemini, che si prevede diventerà una potente controparte nell’ambito dell’intelligenza artificiale (AI), ed è stato persino oggetto di scherzi durante l’evento I/O di Google. Hassabis ha sottolineato che Gemini supererà le capacità del GPT-4 di OpenAI.

“Guardandolo in modo globale, Gemini incorpora alcune delle caratteristiche di successo di sistemi come AlphaGo, insieme alle straordinarie abilità linguistiche dei modelli di grandi dimensioni”, ha condiviso Hassabis. “Inoltre, abbiamo introdotto nuove innovazioni che promettono di essere estremamente interessanti”, ha aggiunto.

Nell’aprile precedente, Google ha unito i reparti Google Brain e DeepMind in un’unica entità denominata Google DeepMind. Questa sorprendente fusione, voluta da Sundar Pichai, aveva l’obiettivo di migliorare l’efficienza, sfruttando le risorse di calcolo virtualmente illimitate di Google e la meticolosa ricerca di DeepMind per sviluppare sistemi di AI più avanzati, che rappresentano la prossima frontiera in questa corsa all’IA.

In precedenza, entrambe le entità avevano sviluppato risposte separate a sfide come ChatGPT. Mentre DeepMind aveva lanciato il Project Goodall, impiegando un modello segreto chiamato Chipmunk, Google aveva introdotto Bard basandosi sui modelli di Google Brain. Nonostante una competizione iniziale tra i team, DeepMind ha abbandonato il progetto Goodall per unirsi agli sforzi su Gemini.

Va notato, tuttavia, che va dimenticato il fatto che i modelli PaLM e PaLM 2 non sono stati creati da DeepMind. Gemini potrebbe essere uno dei primi modelli ampiamente adottati a livello commerciale, che non rimarrà limitato alla ricerca come alcuni modelli precedenti, come Gato e altri.

Nonostante si trovi ancora nelle fasi iniziali di sviluppo, Google ha riportato progressi notevoli nelle capacità multimodali di Gemini, superando i modelli precedenti. Un aspetto degno di nota è che Gemini è stato progettato da zero con un approccio poliedrico, che gli conferisce la capacità di elaborare e comprendere diverse tipologie di dati, oltre a garantire efficienza attraverso strumenti e integrazioni API. L’architettura di Gemini è stata inoltre pensata per agevolare futuri sviluppi, tra cui la memoria e la pianificazione.

Le implicazioni di questi progressi sono considerevoli, poiché suggeriscono una comprensione e un’interazione migliorate con vari tipi di dati. Mentre il GPT-4 eccelle nella comprensione e generazione di testo conversazionale, Gemini andrà oltre, potendo elaborare input diversificati come testo, immagini e video, oltre a generare output in forma di testo, video, audio, musica e immagini. Inoltre, possiederà capacità di ragionamento e faciliterà la traduzione in diverse lingue e formati di input.

Ciò suscita anche dibattiti interni tra i dipendenti di Google sulle possibili applicazioni di Gemini. Queste spaziano dall’analisi di grafici alla produzione di grafici con descrizioni testuali, fino al controllo di software tramite comandi testuali o vocali.

Google punta su Gemini per alimentare un’ampia gamma di servizi, dall’assistente virtuale Bard, che sfida il ChatGPT di OpenAI, alle piattaforme aziendali come Google Docs e Slides. Nella sua ricerca, Google prevede di mettere a disposizione di sviluppatori esterni l’accesso a Gemini attraverso la divisione di noleggio server Google Cloud. Attualmente, Google Cloud offre accesso a modelli di intelligenza artificiale di Google meno avanzati tramite Vertex AI. Con l’integrazione di queste nuove funzionalità, Google cerca di ridurre il divario con Microsoft, che ha già integrato nuove capacità AI nella sua suite Office 365, includendo i modelli di OpenAI nelle sue applicazioni.

Google ha dimostrato di poter applicare i suoi modelli di intelligenza artificiale in scenari medici. Ha introdotto un’IA chiamata Med-PaLM 2, che può rispondere a domande mediche. Questo prodotto è attualmente in fase di prova presso istituzioni mediche rinomate, tra cui la Mayo Clinic.

Questi sforzi potrebbero essere amplificati attraverso Gemini, con la possibilità di utilizzarlo per chatbot medici o applicazioni di robotica per supportare interventi chirurgici o procedure mediche.

Inoltre, Google potrebbe cercare di incorporare le sue conoscenze dalla creazione di Gato di DeepMind, un sistema “generale” in grado di completare 604 compiti diversi attraverso una formazione multimodale e multi-task, compresi sottotitoli per immagini, dialoghi, impilamento di blocchi con braccia robotiche, gioco e navigazione in ambienti 3D. L’aspetto distintivo di Gato è la sua varietà di compiti e l’approccio di formazione basato su una rete neurale trasformatore e diverse modalità di dati, come testo, immagini e azioni. Durante l’uso, Gato elabora prompt e osservazioni per generare sequenze di azioni.

Analogamente, il recente lancio di RT-2, basato sull’architettura Transformer e addestrato su testo e immagini provenienti dal web, consente di generare direttamente azioni robotiche. Questa innovazione si basa su modelli di linguaggio visivo (VLM) come PaLI-X e PaLM-E, utilizzando token di azione nel suo output per controllare efficacemente il comportamento dei robot.

Inoltre, con il recente lancio di RT-2, successore del modello Robotics Transformer, Google DeepMind ha fatto un notevole passo avanti anche nel campo della robotica. RT-2 si basa sull’architettura Transformer ed è stato addestrato su testo e immagini web, abilitandolo a generare direttamente azioni robotiche. Questa innovazione è supportata dai modelli di linguaggio visivo (VLM) come PaLI-X e PaLM-E, che incorporano token di azione nell’output per guidare il comportamento dei robot in modo efficiente. Similmente ai modelli linguistici, RT-2 apprende dai dati web per guidare il comportamento dei robot.

Mentre Gato di DeepMind è stato visto come un passo avanti verso l’intelligenza artificiale generale (AGI) grazie alla sua capacità di affrontare compiti diversi, Gemini potrebbe rappresentare un autentico progresso verso una maggiore sensibilità.

La collaborazione tra Google Brain e DeepMind potrebbe creare sfide per OpenAI e altri concorrenti. Inoltre, personalità influenti come l’ex presidente di Google, Sergey Brin, si sono unite per rafforzare le capacità di intelligenza artificiale dell’azienda.

Sam Altman, a capo di OpenAI, sostiene che l’addestramento basato su video rappresenti la prossima frontiera dell’IA. Tuttavia, Google gode di un vantaggio grazie alla sua vasta raccolta di video su YouTube, la più grande al mondo.

Gemini è addestrato utilizzando video provenienti da YouTube, rendendolo il primo modello multimodale addestrato su video, oltre che su testo (o, nel caso di GPT-4, testo e immagini). Questo posizionerebbe Gemini in una posizione di vantaggio rispetto a GPT-4. Inoltre, va ricordato che Gemini ha accesso a quasi l’intera Rete, dato che Google ha recentemente adottato una politica sulla privacy più aperta.

Ci sono anche segnalazioni secondo cui Gemini viene addestrato con il doppio del numero di token rispetto a GPT-4 e addirittura dieci volte rispetto a PaLM 2. Questa maggiore capacità di calcolo renderebbe Gemini significativamente più intelligente e meno incline a generare risultati distorti. Considerando anche le tensioni tra OpenAI e Microsoft negli ultimi tempi, Google potrebbe sorprendere tutti e diventare il primo ad avvicinarsi all’AI generale (AGI) o a un modello simile all’AGI.

L’associazione tra Google Brain e DeepMind sembra indicare che ci saranno implicazioni significative per OpenAI e altri competitori. Questo partenariato potrebbe consentire a Google di fare progressi significativi nel campo dell’IA.

Inoltre, Google ha un vantaggio rispetto alla formazione basata su video, in quanto possiede la piattaforma di condivisione video più grande al mondo: YouTube.

Gemini viene addestrato su una vasta gamma di dati, tra cui video da YouTube, rendendolo uno dei primi modelli multimodali addestrati su video oltre che su testo e immagini. Questo vantaggio potrebbe consentire a Gemini di superare il GPT-4 in termini di competenze. Va anche notato che Google ha recentemente adottato una politica sulla privacy più aperta, ottenendo un accesso maggiore ai dati web.

Inoltre, ci sono segnalazioni che indicano che Gemini viene addestrato con un numero di token doppio rispetto al GPT-4 e addirittura dieci volte rispetto a PaLM 2. Questo aumento nella capacità di calcolo potrebbe rendere Gemini notevolmente più intelligente e meno incline a generare risultati distorti. Considerando anche le tensioni recenti tra OpenAI e Microsoft, Google potrebbe avere l’opportunità di superare gli altri e raggiungere l’obiettivo dell’IA generale (AGI) o di un modello simile prima degli altri.

In sintesi, il lancio imminente di Gemini da parte di Google DeepMind promette di segnare una svolta nell’ambito dell’IA. Con un approccio multimodale, addestramento su video e una capacità di calcolo avanzata, Gemini potrebbe superare i modelli precedenti e offrire nuove opportunità per l’interazione e l’apprendimento automatico. La collaborazione tra Google Brain e DeepMind, insieme al vasto accesso ai dati e alle risorse di Google, potrebbe davvero mettere Google in una posizione di vantaggio nella corsa all’AI generale.

Gemini di Google DeepMind

DiFantasy

Di Fantasy

Articoli correlati

OpenAI smentisce ogni legame con i token criptovalutari emessi da Robinhood: un avvertimento agli investitori

Baidu rivoluziona il suo motore di ricerca con l’AI Search Paradigm

Lovable, la startup svedese di vibe coding, conquista l’Europa con una crescita esplosiva e una valutazione di 1,8 miliardi di dollari

You missed

OpenAI smentisce ogni legame con i token criptovalutari emessi da Robinhood: un avvertimento agli investitori

Baidu rivoluziona il suo motore di ricerca con l’AI Search Paradigm

Lovable, la startup svedese di vibe coding, conquista l’Europa con una crescita esplosiva e una valutazione di 1,8 miliardi di dollari

KT annuncia il rilascio open source del modello linguistico avanzato Believe:um 2.0