Il flusso incessante di notizie sulle nuove tecnologie di intelligenza artificiale generativa sembra non diminuire di intensità. Dopo l’espansione di OpenAI di Code Interpreter a tutti gli utenti di ChatGPT Plus e l’annuncio di Anthropic riguardante Claude 2, è ora Google a tornare sotto i riflettori con due importanti novità nel campo dell’intelligenza artificiale questa settimana. La prima è un’imponente aggiornamento del suo prodotto Bard (LLM) Large Language Model, che permette agli utenti di caricare immagini e ottenere analisi da parte di Bard. Il secondo è il lancio di Google NotebookLM, un servizio di appunti basato sull’intelligenza artificiale, attualmente disponibile in modo limitato.
Inizialmente, Google sembrava essere in ritardo rispetto ad OpenAI nel campo dell’intelligenza artificiale, dopo il lancio di ChatGPT da parte di quest’ultima nel novembre 2022. Tuttavia, la conferenza annuale di Google I/O nel maggio 2023 ha completamente cambiato la situazione. Durante la presentazione di due ore, il CEO Sundar Pichai e altri dirigenti e relatori hanno menzionato più di 140 volte l’espressione “IA generativa”, come se fosse una sorta di formula magica per il successo aziendale.
Era evidente che il gigante delle ricerche e del web abbracciava a pieno la tendenza tecnologica che stava spazzando la Silicon Valley e l’industria tecnologica globale. Sebbene Bard non abbia raggiunto lo stesso numero di utenti di ChatGPT sin dal suo ampio lancio durante l’evento I/O, recentemente ha registrato una crescita significativa, e gli ultimi aggiornamenti annunciati oggi potrebbero ulteriormente alimentare questa tendenza.
In un post sul blog di Google pubblicato oggi, Jack Krawczyk, responsabile del prodotto Bard, e Amarnag Subramanya, vicepresidente dell’ingegneria di Bard, hanno presentato una serie di nuove funzionalità per il modello linguistico, tra cui:
Disponibilità in “gran parte del mondo” e supporto per prompt degli utenti in 40 lingue, tra cui arabo, cinese, tedesco, hindi e spagnolo. Bard è ora accessibile anche in nuove località come Brasile ed Europa. Bard può pronunciare le sue risposte in 40 lingue, il che può essere particolarmente utile per l’apprendimento della pronuncia.
Sono state introdotte cinque nuove modalità che consentono agli utenti di selezionare il tipo di risposte desiderate da Bard: semplice, lunga, breve, professionale o casuale. Google ha fornito l’esempio seguente per spiegare la differenza: “Puoi chiedere a Bard di aiutarti a creare un elenco di mercato per una poltrona vintage e poi abbreviare la risposta utilizzando il menu a discesa”. Questa funzione è attualmente disponibile solo in inglese, ma Google ha dichiarato che presto verranno supportate anche altre lingue.
Sono state introdotte quattro nuove funzionalità per migliorare la produttività: gli utenti possono ora fissare e rinominare le conversazioni con Bard, esportare il codice Python su Replit e Google Colab, condividere le risposte con la propria rete attraverso link condivisibili e utilizzare immagini nei prompt grazie all’integrazione di Google Lens. In particolare, questa ultima caratteristica sembra essere molto utile, in quanto consente agli utenti di salvare le risposte selezionate dalle conversazioni con Bard sulla parte sinistra dell’interfaccia per un facile accesso successivo, anziché doverle cercare scorrendo su e giù.
Inoltre, in seguito a una promessa fatta durante l’I/O, Bard è ora integrato con Google Lens, la tecnologia di riconoscimento delle immagini del colosso tecnologico. Ciò permette agli utenti di includere immagini nei loro prompt. Se hanno bisogno di ulteriori informazioni sull’immagine o necessitano di assistenza per creare una didascalia, Bard può analizzare l’immagine caricata per fornire aiuto. Attualmente, questa funzionalità è disponibile solo in inglese, ma Google ha l’intenzione di espanderla presto ad altre lingue. In effetti, un utente su Reddit ha già utilizzato con successo Bard per risolvere un CAPTCHA di Google basato su un’immagine (“seleziona tutte le piazze con semaforo”), aggiungendo un’interessante sfumatura a un mondo in cui la distinzione tra umanità e intelligenza artificiale sta diventando sempre più sfumata.
Google ha anche svelato ieri che un altro annuncio fatto durante l’I/O è ora disponibile in modo limitato dopo essere stato sviluppato internamente. Originariamente presentato come “Project Tailwind”, il servizio è stato rinominato Google NotebookLM (LM sta per “language model”). Questo nome rispecchia meglio l’obiettivo del servizio: reinventare l’antica pratica di prendere appunti.
Il team di Google che si occupa di NotebookLM afferma che è possibile migliorare il processo di prendere appunti rispetto ai tradizionali scarabocchi su carta o alla digitazione su app come Apple Notes, analizzando e individuando automaticamente connessioni tra diverse note e documenti, e riepilogandoli in modo chiaro e leggibile. Tuttavia, NotebookLM va oltre e risponde alle domande degli utenti relative alle loro note e ai loro documenti in uno stile colloquiale, o addirittura aiuta gli utenti a creare nuovi contenuti.
“Nel corso delle nostre conversazioni con studenti, professori e professionisti della conoscenza, abbiamo notato che uno dei maggiori ostacoli consiste nel sintetizzare fatti e idee da diverse fonti”, hanno scritto Raiza Martin, product manager di Google Labs, e Steven Johnson, direttore editoriale di Google Labs, nel post sul blog di Google che spiega il servizio. “Molto spesso, le informazioni necessarie sono disponibili, ma richiede tempo mettere insieme tutti i pezzi del puzzle.”
La soluzione proposta da Google consiste nell’offrire un “assistente virtuale di ricerca” personalizzato per l’utente, basato su un insieme selezionato di documenti. NotebookLM analizza tali documenti, elabora le informazioni e le presenta all’utente. A questo punto, l’utente può formulare domande o richieste specifiche nel campo di testo, simile a quanto avviene con Bard, per ottenere ulteriori informazioni su un aspetto particolare o generare idee creative basate sui contenuti sottostanti.
Come spiegato nel post sul blog di Google: “Un laureando in medicina potrebbe caricare un articolo scientifico sulle neuroscienze e chiedere a NotebookLM di ‘creare un glossario dei termini chiave relativi alla dopamina’. Un autore impegnato nella scrittura di una biografia potrebbe caricare le proprie note di ricerca e richiedere un riassunto delle interazioni tra Houdini e Conan Doyle”.
Inoltre, questa caratteristica potrebbe rappresentare un vantaggio per i creatori di contenuti di YouTube e gli influencer di TikTok. “Un content creator potrebbe caricare le proprie idee per nuovi video e chiedere: ‘Genera una sceneggiatura per un breve video su questo argomento'”, afferma Google.
Attualmente, NotebookLM è disponibile solo negli Stati Uniti e richiede una registrazione in lista d’attesa.