Nuovo aggiornamento del riconoscimento delle immagini di Bard: 8 casi d’uso

Da quando Google ha integrato i poteri di Google Lens in Bard consentendo agli utenti di chiedere al chatbot informazioni su un’immagine o creare didascalie descrittive, il gioco di riconoscimento delle immagini ha subito un enorme restyling. Non solo può identificare le cose nell’immagine, ma anche estrarre il testo e dare un senso all’immagine. Anche GPT-4 è multimodale, ma è ancora in fase di ricerca. Diversi utenti si sono rivolti a Twitter per esprimere il loro entusiasmo per il nuovo aggiornamento.

Diamo un’occhiata ad alcuni casi d’uso interessanti dello stesso.

Leggere e comprendere le immagini.
Iniziamo con le basi. Bard è ora in grado di comprendere e spiegare un’immagine. Abbiamo caricato una foto del capolavoro di Salvador Dalì “La persistenza della memoria” e abbiamo chiesto a Bard di spiegarne il significato. Il chatbot ha fornito rapidamente descrizioni dettagliate dei dipinti e della storia dietro di essi e ci ha anche detto che può essere interpretato in modi diversi. Un altro utente ha fornito l’immagine di un carlino che indossa un berretto da laurea e ha chiesto a Bard cosa stesse succedendo. Ha fornito tre potenziali esempi di come il cucciolo potrebbe diplomarsi alla scuola di obbedienza o al programma di terapia e altro ancora.

Crea un sito Web da Sketch.
Aggiungi un’immagine del tuo schizzo con l’opzione ‘+’ e fornisci il tuo suggerimento, ad esempio, “Componi uno script HTML/JS conciso per trasformare questo mock-up in un sito Web vivace, in cui le battute sono sostituite con due autentiche battute”. Poiché il risultato iniziale potrebbe non soddisfare le aspettative degli utenti, Bard offre ulteriori scelte selezionando “Visualizza altre bozze”. In alternativa, è possibile rigenerare l’output. Se si desiderano modifiche specifiche, è possibile effettuare un’altra richiesta in un prompt separato. Per eseguire lo script, il codice HTML deve essere copiato in un editor di testo o salvato come file di testo.

Comprendere i grafici complessi.
Un altro utente ha utilizzato la funzione di input delle immagini di Google Bard per leggere testo e grafici sulle diapositive dimostrative GPT-4 ed eseguire calcoli, in giapponese. Hanno spiegato che si affidavano a ChatGPT o Perplexity per i loro compiti, ma ora Bard è diventato uno strumento potente per loro, a seconda dell’applicazione specifica.

Cucinare diventa più facile.
Ti sei imbattuto in una foto di pasta nel tuo feed e ora ne hai voglia? Bene, ora puoi caricare l’immagine di un pasto e chiedere una ricetta completa. Bard lo farà per te. Questo è ciò che ha fatto l’influencer AI Rowan Cheung.

Crea un’app per iPhone da uno screenshot.
Ammar Barshi, il responsabile del design di Brex, ha utilizzato Bard per replicare un’applicazione timer di base per iPhone in soli 4 minuti da uno screenshot senza alcun segnale esplicito sulla funzionalità dell’app. Bard ha generato il codice necessario, sebbene abbia commesso alcuni errori, ma sono stati facilmente corretti.

Diagnosi TC cerebrale.
Un altro utente ha aggiunto l’immagine di una TAC e ha chiesto a Bard di capirla. L’utente ha fornito input in giapponese. Bard è stato in grado di elencare le potenziali cause nonostante la mancanza di competenze specialistiche nel campo.

Didascalia sui social media.
Bard è anche un ottimo amico se vuoi avere fantastiche didascalie per i tuoi post sui social media. Può generare didascalie secondo le tue esigenze.

Responsabile delle spese personali.
Se devi compilare le tue spese per una nota spese ma hai troppe fatture da gestire, ora puoi utilizzare il riconoscimento delle immagini di Bard per scattare foto delle ricevute e inserirle nel chatbot. Bard organizza le ricevute in una tabella con dettagli come data, ora, categoria, descrizione e importo e questa tabella può essere esportata in Fogli Google, eliminando la necessità di app note spese separate.

Nuovo aggiornamento del riconoscimento delle immagini di Bard: 8 casi d’uso

DiFantasy

Di Fantasy

Articoli correlati

I computer di Jurassic Park erano workstation realmente funzionanti per un valore attuale di oltre 4 milioni di dollari

USA, le coppie iniziano a inserire clausole sulle relazioni con l’intelligenza artificiale nei contratti prematrimoniali

Alibaba presenta Qwen 3.8, modello multimodale da 2.400 miliardi di parametri

Ultimi Post

I computer di Jurassic Park erano workstation realmente funzionanti per un valore attuale di oltre 4 milioni di dollari

USA, le coppie iniziano a inserire clausole sulle relazioni con l’intelligenza artificiale nei contratti prematrimoniali

Alibaba presenta Qwen 3.8, modello multimodale da 2.400 miliardi di parametri

Kanana Pet Letter: Kakao trasforma le foto degli animali domestici in lettere vocali create dall’intelligenza artificiale