Sicuramente hai visto le immagini strabilianti generate recentemente dall’intelligenza artificiale, come un astronauta a cavallo o un avocado sulla sedia del terapista. Queste immagini spettacolari sono il risultato di modelli di intelligenza artificiale che traducono il testo in rappresentazioni visive. Ma quanto sono davvero efficaci questi sistemi nel comprendere i nostri suggerimenti, come sembrerebbero suggerire questi esempi sorprendenti?
Un nuovo studio condotto da Google DeepMind esamina i limiti nel modo in cui valutiamo attualmente le prestazioni di questi modelli di intelligenza artificiale, passando dal testo alle immagini. Il team di DeepMind ha introdotto un nuovo approccio chiamato “Gecko”, che promette di offrire una valutazione più completa e affidabile di questa tecnologia in rapida espansione.
Secondo i ricercatori di DeepMind, i modelli generativi che convertono il testo in immagini potrebbero non sempre produrre immagini che corrispondono esattamente al prompt dato. Questo solleva dubbi sulla completezza delle valutazioni attuali basate su dataset e metriche automatiche, e sull’accuratezza delle valutazioni umane su piccola scala.
Per affrontare questi problemi, i ricercatori hanno creato Gecko, una nuova suite di benchmark che sfida i modelli testo-immagine con 2.000 messaggi di testo diversi, esplorando una vasta gamma di abilità e complessità. Questi suggerimenti vengono suddivisi in sotto-competenze specifiche per individuare esattamente i punti deboli dei modelli.
Gecko non solo offre un dataset di riferimento completo basato sulle competenze, ma raccoglie anche un vasto insieme di valutazioni umane su immagini generate dai modelli leader. Questo aiuta a identificare se le lacune nelle prestazioni sono dovute ai limiti dei modelli, a suggerimenti ambigui o a metodi di valutazione incoerenti.
Inoltre, Gecko presenta una nuova metrica di valutazione automatica basata sulla risposta alle domande, più vicina ai giudizi umani rispetto alle metriche esistenti. Questa combinazione ha rivelato differenze precedentemente non rilevate nei punti di forza e di debolezza dei modelli all’avanguardia.
I ricercatori sperano che Gecko aiuti a comprendere meglio le capacità e i limiti dei modelli di intelligenza artificiale, e renderanno il codice e i dati di Gecko liberamente disponibili per stimolare ulteriori progressi. Questo lavoro dimostra l’importanza di utilizzare diversi benchmark e approcci di valutazione per valutare l’intelligenza artificiale prima di implementarla nel mondo reale.
In sintesi, anche se le immagini generate dall’intelligenza artificiale possono sembrare sorprendenti, è necessario condurre test rigorosi per valutare accuratamente le capacità di questi modelli. Gecko offre un modo per ottenere una visione più chiara di cosa possono fare davvero.