La commercializzazione di Dall-E e degli strumenti di conversione da testo a immagine sono diventati così commercializzati

In che modo gli strumenti di conversione da testo a immagine sono diventati così commercializzati
È interessante notare che Google, come OpenAI, ha recentemente affermato che la società non rilascerà il suo strumento di generazione di immagini Imagen al pubblico a causa dei rischi di uso improprio.

Sette anni fa, nel 2015, l’innovazione dell’IA è stata caratterizzata da un importante sviluppo: la didascalia automatizzata delle immagini. Gli algoritmi ML potrebbero essere utilizzati per etichettare oggetti in set di dati di immagini che potrebbero essere ulteriormente trasformati in descrizioni in linguaggio naturale utilizzando i sottotitoli automatici delle immagini. Questa funzione è solitamente rivolta a persone con problemi di vista.

Questa ricerca ha suscitato una certa curiosità nella comunità di ricerca. Un gruppo di scienziati dell’Università di Toronto ha fatto un passo avanti e ha deciso di capovolgere il processo per rispondere alla domanda: e se invece queste descrizioni in linguaggio naturale potessero essere utilizzate per generare immagini?

Il compito era molto più complesso rispetto alla produzione di testo da set di dati di immagini. Il modello è stato addestrato su un set di dati su larga scala chiamato Microsoft COCO e potrebbe anche generalizzare oltre il set di formazione per produrre immagini completamente nuove. Le immagini erano basate su didascalie che era altamente improbabile che si verificassero in situazioni di vita reale e assomigliavano a questa.

Fonte: documento di ricerca

Le immagini potrebbero non essere state di alta qualità, ma la svolta stessa ha aperto la strada a un futuro promettente. Con il rilascio di DALL.E di OpenAI e del successore DALL.E 2 di quest’anno, il futuro è finalmente arrivato.

Nell’aprile di quest’anno, il capo di OpenAI Sam Altman ha annunciato il lancio di DALL.E 2 e ha invitato i follower a dare i suggerimenti più casuali e surreali che potessero immaginare. Altman ha pubblicato su Twitter i risultati fotogenici che rappresentavano fedelmente le istruzioni per ooh e aahs.

Una rivoluzione nella generazione di immagini AI
DALL.E 2 è stato il punto di partenza per quella che ora è diventata una rivoluzione nella generazione da testo a immagine all’interno dell’IA. In un rapporto di Wired , un dottorando alla Penn State, Vipul Gupta , che ha ricevuto l’accesso anticipato allo strumento, ha osservato: “Ciò che la gente pensava potesse richiedere dai cinque ai 10 anni, ci siamo già. Siamo nel futuro”.

Inizialmente, OpenAI ha menzionato nel suo blog che DALL.E 2 non era ancora pronto per l’uso commerciale, ma alla fine potrebbe essere utilizzato in campi come l’arte, il marketing e l’istruzione. La società ha affermato che DALL.E 2 potrebbe certamente sfornare immagini sessiste, razziste e che potrebbero essere odiose per natura. L’azienda ha formato un “team rosso” composto da esperti esterni che hanno iniziato a guardare da vicino i pregiudizi dello strumento. DALL.E 2 è stato aperto solo a 400 persone che erano principalmente dipendenti OpenAI o Microsoft .

A questo, una grossa fetta di utenti di Twitter ha espresso la propria delusione riguardo alla decisione. Sviluppatori e designer non vedevano l’ora di metterci le mani sopra. Alcuni si sono lamentati del fatto che l’esclusività di OpenAI abbia creato un senso di “elite” nell’IA, e molti altri erano semplicemente impazienti. La giustificazione dell’azienda non sembrava abbastanza buona.

Fonte: Huggingface.co

Ambiente competitivo
Divenne presto evidente che il mondo non poteva aspettare abbastanza a lungo. Il 6 giugno, Hugging Face ha notato che l’utilizzo del suo strumento di generazione di immagini AI, DALL.E Mini , aveva scattato fino a circa 50.000 immagini generate in un giorno. L’app è stata sviluppata da Boris Dayma , un consulente indipendente di ML che ha replicato DALL.E in un hackathon organizzato da Hugging Face e Google nel luglio dello scorso anno. Dayma ha affermato di essersi interessato profondamente allo strumento dopo aver studiato il documento di ricerca DALL.E.

Le immagini generate da DALL.E Mini erano di qualità molto inferiore rispetto allo strumento originale di OpenAI, ma era open source. Si è scoperto che era già abbastanza per far appassionare le persone. Persone normali, inclusi i non sviluppatori, hanno iniziato a utilizzare DALL.E Mini per esercitare la propria immaginazione. Laddove DALL.E 2 stava essenzialmente facendo il lavoro di un artista, la disponibilità di DALL.E Mini aveva trasformato quello che era concettualmente uno strumento simile in un generatore di meme. Tutti ora possono avere un pezzo del futuro. Le persone hanno iniziato a pubblicare queste immagini e “meme” che avevano creato utilizzando DALL.E Mini Twitter e Reddit. La qualità dell’immagine è migliorata. Ironia della sorte, DALL.E Mini è diventato così popolare che recentemente a Dayma è stato chiesto di cambiare il nome dello strumento (ora si chiama Craiyon).

Nell’arco di pochi mesi, gli strumenti di generazione da testo a immagine sono ora una dozzina. Alcuni strumenti come Midjourney producono immagini di alta qualità, altri non tanto. Ma la maggior parte sono gratuiti per tutti. Questo, nonostante il fatto che questi strumenti abbiano prodotto immagini con pregiudizi simili come DALL.E 2. È interessante notare che Google , come OpenAI, ha recentemente affermato che la società non rilascerà il suo strumento di generazione di immagini Imagen al pubblico a causa dei rischi di uso improprio. L’ancora più recente Make-a-Scene , il generatore di immagini incentrato sull’arte creativa rilasciato da Meta , ha anche notato che sarebbe aperto esclusivamente a specifici artisti di intelligenza artificiale.

Paura delle critiche per uso improprio
La differenza è chiara: importanti società tecnologiche, inclusa OpenAI supportata da Microsoft, sono state abbastanza caute da evitare le critiche che potrebbero derivare dai pericoli legati all’utilizzo di questi strumenti. Le immagini di DALL.E 2 erano abbastanza buone da essere utilizzate per essere allegate, ad esempio, a notizie false. Non era per dire che questi stessi problemi non potevano essere dovuti ad altri strumenti di copia, ma le aziende meno importanti non avevano il peso della loro reputazione da portare.

Tuttavia, l’improvvisa concorrenza tra i generatori di immagini sembra aver costretto OpenAI a muoversi più velocemente verso l’apertura di DALL.E 2, per timore che perdesse la sua posizione di leader del settore. La società ha annunciato oggi che amplierà l’accesso allo strumento in un blog attraverso una versione beta. OpenAI mira ad accelerare il processo della lista d’attesa e aggiungere fino a un milione di utenti entro le prossime settimane. Lo strumento, fino ad ora gratuito, avrà una tariffa basata sul credito. DALL.E 2 ora si rivolgerà anche agli artisti che potrebbero non essere in grado di permetterselo fornendo sussidi.

“L’espansione dell’accesso è una parte importante della nostra implementazione responsabile dei sistemi di intelligenza artificiale perché ci consente di saperne di più sull’uso nel mondo reale e continuare a ripetere i nostri sistemi di sicurezza”, ha spiegato OpenAI nel blog . Nel frattempo, ha continuato a lavorare sui pregiudizi dello strumento e ha introdotto una tecnica che renderebbe le immagini più inclusive in termini di razza e genere.

Nel bene e nel male, l’arte generata dall’IA è diventata più o meno democratizzata. Si potrebbe obiettare che l’arte (anche se non è così buona) dovrebbe essere accessibile a tutti, proprio come l’IA. Ma quanto sia grande questa decisione, solo il tempo lo dirà.

La commercializzazione di Dall-E e degli strumenti di conversione da testo a immagine sono diventati così commercializzati

Diihal

Di ihal

Articoli correlati

KT DS lancia Codebox-BTS, l’assistente alla programmazione AI per ambienti sicuri e isolati

Vibe Coding: nonno di 91 anni crea un’app per la Chiesa con Claude e Replit

Partnership tra Replit e Microsoft per il coding aziendale con l’AI tramite Azure

You missed

Rendering neurale: arriva NVIDIA DiffusionRenderer per video realistici

Salesforce presenta GTA1, agente GUI che supera OpenAI CUA nei benchmark

Meta acquisisce PlayAI per potenziare l’AI vocale nel suo Superintelligence Lab

Anthropic propone un quadro di trasparenza per l’AI avanzata tra sicurezza, responsabilità e flessibilità