KT ha recentemente rivelato una nuova tecnologia per i chatbot di intelligenza artificiale (AI) che migliora la comprensione del contesto delle immagini fornite dagli utenti, migliorando la personalizzazione e la memoria a lungo termine. Sebbene i dettagli specifici siano ancora scarsi, sembra che KT stia preparando un servizio di chatbot personalizzato.
Il Mark Tech Post ha annunciato il 15 (ora locale) che KT e il Korea Advanced Institute of Science and Technology (KAIST) hanno introdotto il modello di conversazione multimodale “Ultron 7B” insieme al set di dati “Stark”, un ampio e lungo set di dati per l’addestramento. È degno di nota l’uso di Areum dal film “Iron Man”.
Una delle sfide principali per l’interazione uomo-computer (HCI), o chatbot AI, è stata la difficoltà nel mantenere interazioni personalizzate a lungo termine con gli utenti. I chatbot esistenti spesso avevano problemi nella comprensione delle immagini e nella gestione di conversazioni continue.
Per superare queste limitazioni, i ricercatori hanno sviluppato un nuovo framework chiamato “MCU” (Multimodal Contextualization Unit), che utilizza il modello “ChatGPT” insieme a un selettore di immagini per creare un chatbot multimodale con memoria a lungo termine. MCU crea inizialmente attributi di personalità sociale basati su dati demografici, seguiti dalla creazione di un volto umano virtuale e dalla generazione di conoscenza di buon senso personale. Questo approccio consente di creare conversazioni multimodali che integrano testo e immagini, migliorando il contesto e la coerenza della conversazione.
Inoltre, è stato creato il set di dati “Stark”, che include immagini di eventi e persone dal 2021 al 2024, insieme a oltre 500.000 conversazioni correlate. Questo set di dati aiuta il modello Ultron 7B a comprendere e ricordare meglio le immagini e il contesto presentati dagli utenti durante le conversazioni, migliorando ulteriormente la personalizzazione e la continuità.
Ultron 7B è stato addestrato con successo utilizzando Stark e ha dimostrato risultati visivi impressionanti, superando altri set di dati in termini di qualità complessiva delle conversazioni multimodali, coerenza e naturalezza del flusso della conversazione.
I ricercatori hanno rilasciato il codice sorgente di Ultron 7B e il set di dati Stark come open source, promuovendo la collaborazione e l’innovazione nel campo dell’IA.