Captioning AI di LG AI Research

LG AI Research Institute ha presentato per la prima volta “Captioning AI”, che descrive le immagini, alla più grande conferenza mondiale sulla visione artificiale “CVPR (Computer Vision and Pattern Recognition) 2023” a Vancouver, in Canada.

Captioning AI, un servizio di commercializzazione dell’intelligenza artificiale generativa (AI) rilasciato per la prima volta al mondo esterno, è “l’intelligenza artificiale che può spiegare anche le prime immagini viste come esseri umani nel linguaggio naturale” e metadati come frasi e parole chiave, che sono informazioni che possono essere utilizzate per la ricerca di immagini.

LG AI Research Institute ha applicato la tecnologia “Zero-shot Image Captioning” in modo che l’IA possa comprendere e spiegare oggetti o scene che vede per la prima volta come esseri umani utilizzando esperienze e conoscenze precedenti.

La didascalia delle immagini a scatto zero è una tecnologia che consente all’intelligenza artificiale di riconoscere vari elementi e caratteristiche nelle immagini, come sfondi, persone e azioni, e di comprendere e spiegare le loro relazioni sulla base di grandi quantità di dati di immagini e testo appresi in precedenza.

Viene spiegato che i sottotitoli AI possono aumentare l’efficienza e la produttività del lavoro per le aziende che devono gestire grandi quantità di immagini. Dipende dalla lunghezza e dal numero di frasi o parole, ma in media genera 5 frasi e 10 parole chiave in 10 secondi. Se la gamma di immagini viene ampliata a 10.000, il lavoro può essere completato entro due giorni, consentendo di costruire un sistema di ricerca e gestione delle immagini personalizzato in un breve periodo di tempo.

Captioning AI è frutto della collaborazione con Shutterstock. Shutterstock è la più grande società di piattaforme al mondo che aggiunge centinaia di migliaia di nuovi contenuti visivi come immagini e video ogni giorno e dispone di esperti esperti nell’analisi e nell’elaborazione dei contenuti.

LG AI Research Institute ha lavorato con Shutterstock, che ha un vasto know-how sulla didascalia delle immagini, come la lunghezza delle frasi adatte per l’uso nella classificazione e ricerca delle immagini e come esprimerle, dall’apprendimento dei dati allo sviluppo del servizio per migliorare la completezza. In particolare, al fine di sviluppare un modello di IA pratico e affidabile, è stata condotta una verifica etica dell’IA come la parzialità e la selettività dei dati di apprendimento ed è stata garantita anche la trasparenza del diritto d’autore.

LG AI Research Institute ha anche tenuto un workshop con la Seoul National University AI Graduate School e Shutterstock sul tema della didascalia delle immagini zero-shot, la tecnologia di base della didascalia AI. Al seminario, che è iniziato con un discorso di apertura del professore Kyung-Moo Lee, presidente della Seoul National University, hanno partecipato Cordelia Schmid, direttore della ricerca presso l’Istituto di ricerca sull’intelligenza artificiale dell’LG AI Research Institute, il professor Hong-Rak Lee dell’Università del Michigan, National Institute of Computer Science e ricercatore presso Google Research, Jack Hessel Allen, ricercatore presso l’Allen Institute for Artificial Intelligence, e Hamid Pallan. Esperti di fama mondiale nel campo dei sottotitoli delle immagini, come Microsoft Research Senior Researcher and Professor presso la Washington University e Ana Rohrbach, UC Berkeley Researcher, hanno partecipato a un’approfondita discussione sulle ultime tendenze della ricerca, le prospettive future e l’impatto di tecnologia, come l’etica dell’IA, sulla società. proceduto

Nel frattempo, presso il workshop, si è svolta anche la cerimonia di premiazione LG Global AI Challenge, che si è tenuta nella prima metà dell’anno. Un totale di 142 team di ricerca hanno partecipato all’AI Challenge”, un concorso che valuta la capacità di comprensione delle immagini dei modelli di intelligenza artificiale sviluppati internamente.

Anche i partecipanti della Nanjing University of Science and Technology e KAIST, che si sono classificati primi e secondi nella sfida, hanno presentato i loro risultati di ricerca al workshop.

“Questo workshop è più significativo perché è collegato all’annuncio di ‘sottotitoli AI’, il primo servizio commercializzato”, ha affermato Kim Seung-hwan, capo del Vision Lab dell’LG AI Research Institute. Intendiamo continuare a sviluppare nuovi indicatori di valutazione e ricerca sulle nuove tecnologie stabilendo un sistema cooperativo.

Inoltre, durante la conferenza, che durerà fino al 22, l’LG AI Research Institute lavorerà con i principali affiliati di LG, come LG Electronics, LG Innotek, LG Energy Solutions e LG U+, per garantire talenti IA globali eccezionali.

Allo stand LG Integrated, LG Electronics utilizzerà il sistema di monitoraggio del conducente, una tecnologia che rileva sonnolenza e disattenzione riconoscendo il viso e lo sguardo del conducente in base alla tecnologia di ispezione visiva, cambiamenti nella freschezza del cibo nel frigorifero o cambiamenti nelle condizioni di alimenti nel forno in base al processo di cottura. Presentazione della tecnologia AI che implementa visivamente.

Inoltre, LG Innotek ha sviluppato la tecnologia digital twin che consente agli utenti di testare i prodotti in anticipo in uno spazio digitale prima della produzione di massa, e LG Energy Solutions ha sviluppato Anomaly Detection, una tecnologia di ispezione basata sulla visione che rileva i difetti nelle celle della batteria prodotte in centinaia di migliaia al giorno. ), LG U+ introdurrà la tecnologia AI che estrae metadati che esprimono varie informazioni come persone, azioni, luoghi, situazioni e personaggi nelle scene video in modo che i clienti possano trovare facilmente la scena che desiderano nei contenuti multimediali.

Captioning AI di LG AI Research

DiFantasy

Di Fantasy

Articoli correlati

Ampere collabora con Qualcomm per sviluppare chip di inferenza AI per data center

Sony Music minaccia azioni legali contro aziende AI per l’uso non autorizzato di musica

Stability AI pensa di vendere?

You missed

Ampere collabora con Qualcomm per sviluppare chip di inferenza AI per data center

Sony Music minaccia azioni legali contro aziende AI per l’uso non autorizzato di musica

Stability AI pensa di vendere?

Galaxy Tab vs iPad: Samsung risponde al video Crush di Apple con UnCrush