Sommario
Quali sono i pericoli delle IA generative?
I risultati delle IA generative possono essere distinti dalle immagini reali?
Cosa sono le architetture generative? 
Quali sono le sfide politiche dell’IA generativa? 
Le aziende di giochi per computer utilizzano l’IA generativa? 
In che modo i leader di mercato utilizzano l’IA generativa? 
E le startup di IA generativa? 
C’è qualcosa che l’IA generativa non può fare? 
Molti algoritmi di intelligenza artificiale (AI) vengono utilizzati per classificare, organizzare o ragionare sui dati. Gli algoritmi generativi creano dati utilizzando modelli del mondo per sintetizzare immagini, suoni e video che spesso sembrano sempre più realistici. Gli algoritmi iniziano con modelli di come deve essere un mondo e poi creano un mondo simulato che si adatta al modello. 

Le IA generative si trovano spesso in vari ruoli di creazione di contenuti. Sono usati dai cineasti per colmare le lacune narrative o, a volte, per trasportare gran parte della trama. Alcune testate giornalistiche generano brevi frammenti o addirittura intere storie su eventi, in particolare rapporti sportivi o finanziari altamente strutturati. 


 

Non tutti gli algoritmi generativi producono contenuto. Alcuni algoritmi vengono implementati nelle interfacce utente per migliorare lo schermo o le interfacce utente. Altri aiutano i ciechi generando descrizioni audio. In molte applicazioni, le tecniche aiutano piuttosto che essere al centro della scena. 

Gli algoritmi sono ora abbastanza comuni da consentire agli sviluppatori di prendere decisioni artistiche sui loro obiettivi. Alcuni mirano al risultato più realistico e lo giudicano da quanto indistinguibili le persone o gli animali possano essere dalle riprese fotografiche di creature reali. Altri pensano come artisti o animatori e vogliono produrre un prodotto più stilizzato che ovviamente non sia reale ma più simile a un cartone animato. 

 

Quali sono i pericoli delle IA generative?
Alcuni algoritmi di IA generativa sono abbastanza buoni da ingannare. Questi risultati, a volte chiamati ” falsi profondi “, possono essere usati per mascherarsi da un’altra persona e commettere ogni sorta di frode in loro nome. Alcuni potrebbero provare a imitare una persona e prelevare denaro da una banca. Altri possono provare a mettere le parole nella bocca di un’altra persona per incastrarla per un crimine come diffamazione, calunnia o altro.

Un approccio particolarmente osceno riguarda la generazione di materiale pornografico che sembra includere un’altra persona. Questi risultati possono essere utilizzati per ricatti, coercizione, estorsioni o vendette. 

Leggi anche: Intelligenza artificiale “Sentient”: abbiamo raggiunto il picco dell’hype dell’IA?

I risultati delle IA generative possono essere distinti dalle immagini reali?
I risultati degli algoritmi moderni sono spesso molto realistici, ma un occhio allenato può solitamente individuare piccole differenze. Questo è più difficile con alcuni dei migliori algoritmi che si trovano spesso nella migliore computer grafica per i film di Hollywood con budget elevati. 

Le differenze sono spesso visibili perché le immagini generate sono troppo perfette. Il tono della pelle può seguire un gradiente costante. I peli possono piegarsi e ondeggiare tutti nella stessa quantità con gli stessi periodi. I colori potrebbero essere troppo coerenti. 

Un progetto di ricerca al MIT ha suggerito di esaminare queste aree per incongruenze che potrebbero indicare il lavoro di un’IA generativa:

Guance e fronte: le rughe in queste aree sono spesso inesistenti. Se ci sono rughe che vengono aggiunte, non si muovono in modo realistico. 
Ombre: Nelle zone del contorno occhi, del naso e della bocca aperta, le ombre sono spesso poco formate. Potrebbero non seguire l’illuminazione della scena mentre la testa cambia posizione. 
Occhiali: la posizione e l’angolazione di qualsiasi riflesso luminoso sulle lenti dovrebbe spostarsi correttamente mentre la testa si muove rispetto alle luci. 
Barbe e baffi: si muovono con il viso? Sono tutti simili nell’ombreggiatura e nella colorazione, cosa rara nella vita reale?
Lampeggiante: gli occhi sbattono? Sbattono le palpebre troppo spesso? O non abbastanza? 
Labbra: si muovono sempre allo stesso modo per tutti i fonemi? Le dimensioni e la forma sono coerenti con il resto del viso? Gli algoritmi deep fake cercano di generare nuove posizioni delle labbra per ogni parola che viene pronunciata e questo lascia molte opportunità di rilevamento. Se il processo è troppo regolare e ripetitivo, i movimenti delle labbra possono essere generati da un algoritmo. 
Il progetto di ricerca al MIT offre anche ai lettori la possibilità di esplorare vari falsi profondi e tentare di rilevarli. 

Cosa sono le architetture generative? 
L’area della creazione di immagini, suoni e trame realistiche è nuova e al centro di molte ricerche attive. Gli approcci sono vari e tutt’altro che fissi. Ancora oggi gli scienziati stanno scoprendo nuove architetture e strategie. 

Un approccio comune è chiamato Generative Adversarial Networks (GAN) perché dipende da almeno due diversi algoritmi di intelligenza artificiale in competizione tra loro e poi convergenti su un risultato. 

Un algoritmo, spesso una rete neurale, è responsabile della creazione di una bozza di una soluzione. Si chiama “rete generativa”. Un secondo algoritmo, solitamente anch’esso una rete neurale, valuta la qualità della soluzione confrontandola con altre risposte realistiche. Questa è spesso chiamata la “rete dei discriminatori”. A volte possono esserci più versioni del generatore o del discriminatore. 

L’intero processo si ripete un certo numero di volte e ogni lato dell’algoritmo aiuta ad addestrare l’altro. Il generatore apprende quali risultati sono più accettabili. Il discriminatore apprende quali parti dei risultati hanno maggiori probabilità di indicare realismo. 

Un’altra soluzione, a volte chiamata Transformers, evita l’approccio contraddittorio. Un’unica rete è formata per produrre le soluzioni più realistiche. Microsoft ne ha uno, noto come GPT-n per General, Pre-trained Network, che è stato addestrato nel corso degli anni utilizzando grandi blocchi di testo raccolti da Wikipedia e da Internet in generale. L’ultima versione, GPT-3, è closed source e concessa in licenza direttamente per molte attività, inclusa l’IA generativa. Si dice che abbia più di 175 miliardi di parametri. Diversi altri modelli simili includono LaMDA (Language Model for Dialogue Applications) di Google e Wu Dao 2.0 cinese. 

Una terza varietà è talvolta chiamata “Variational Auto-Encoder”. Queste soluzioni dipendono da algoritmi di compressione progettati per ridurre i file di dati utilizzando alcuni dei modelli e delle strutture all’interno. Questi algoritmi funzionano al contrario, utilizzando valori casuali per guidare la creazione. 

Quali sono le sfide politiche dell’IA generativa? 
La narrazione e la narrativa sono vecchie tradizioni ben comprese e generalmente innocue. Anche la generazione di immagini, video o registrazioni audio false per vantaggi politici è una vecchia tradizione, ma è tutt’altro che innocua. 

Il pericolo maggiore è che l’IA generativa venga utilizzata per creare notizie false per influenzare le decisioni politiche di leader e cittadini. Storie di atrocità, crimini e altre forme di comportamento scorretto sono facili da inventare. Quando l’IA è in grado di generare prove false, diventa difficile o addirittura impossibile per le persone prendere decisioni informate. La verità diventa impossibile da accertare. 

Per questo motivo, molti credono che le IA generative di successo rappresentino un pericolo molto grave per le fondamenta filosofiche delle nostre vite politiche e personali. 

Leggi anche: Report: 5 tendenze chiave per il futuro dell’IA

Le aziende di giochi per computer utilizzano l’IA generativa? 
Molti dei leader nella creazione di scene visive e audio simulate sono aziende di giochi per computer. Le aziende specializzate in computer grafica hanno trascorso gli ultimi decenni a creare versioni della realtà più elaborate e sempre più realistiche. Ci sono dozzine di buoni esempi di giochi per computer che consentono al giocatore di immaginare di essere in un altro regno.

Gli scienziati dell’IA generativa spesso prendono in prestito molte delle idee e delle tecniche dalla computer grafica e dai giochi. Tuttavia, molti fanno una distinzione tra l’IA generativa e il mondo dei giochi per computer. 

Uno dei motivi per cui le società di giochi di solito non vengono menzionate è perché hanno fatto molto affidamento su artisti umani per creare gran parte di ciò che vediamo sullo schermo. Sebbene siano stati leader nella creazione di algoritmi grafici estesi per il rendering delle scene, la maggior parte dei dettagli è stata in definitiva diretta dagli umani. 

Gli algoritmi di IA generativa cercano di assumere questo ruolo dagli artisti. L’IA ha il compito di strutturare le scene, scegliere gli elementi e poi disporli al suo interno. Sebbene le regole all’interno del modello possano essere create, in parte, da qualche essere umano, l’obiettivo è rendere l’algoritmo il regista o creatore definitivo. 

In che modo i leader di mercato utilizzano l’IA generativa? 
I servizi Web di Amazon offrono Polly , uno strumento per trasformare il testo in voce. Il servizio offre tre diversi livelli di servizio. La versione base utilizza algoritmi collaudati. Il livello intermedio utilizza ciò che chiama Neural Text-to-Speech (NTTS) per un approccio che utilizza le reti neurali che è stato ottimizzato per fornire una voce neutra comune nella narrazione di notizie. La terza versione consente alle aziende di creare la propria voce personalizzata per il proprio marchio in modo che il suono del parlato venga associato solo ai loro prodotti. 

Github di Microsoft offre un servizio chiamato CodeAssist che aiuta i programmatori suggerendo frammenti di software che potrebbero aiutare a colmare una lacuna. È stato addestrato su oltre un miliardo di righe di codice da repository git pubblici e open source. Può trasformare una breve frase o un commento come “recupera tweet” in una funzione completa cercando attraverso le sue conoscenze. Il sistema, sebbene molto più intelligente del semplice completamento del codice, è comunque destinato a essere solo un assistente per un essere umano. La letteratura di marketing lo chiama un copilota ma “tu sei il pilota”. 

Amazon offre anche DeepComposer , un’intelligenza artificiale in grado di trasformare una breve melodia in una canzone completa. Il sistema viene fornito con modelli pre-addestrati progettati per adattarsi a molti dei generi musicali più comuni. Il sistema è pensato anche per essere un assistente per un essere umano che prima crea alcuni semplici segmenti musicali e poi guida la composizione regolando alcuni parametri per l’algoritmo di apprendimento automatico. 

IBM utilizza alcuni dei suoi modelli generativi per aiutare con la progettazione di farmaci. Cioè, stanno esplorando come addestrare le loro IA per immaginare nuove molecole che potrebbero avere la forma giusta per funzionare come farmaci. In particolare, stanno cercando peptidi antimicrobici che possono colpire malattie specifiche. La letteratura di marketing annuncia: “Solo nel campo della scoperta di farmaci, si ritiene che ci siano circa 1063 possibili molecole simili a farmaci nell’universo. I tentativi e gli errori non possono assolutamente farci superare tutte quelle combinazioni.

Molte delle società di giochi sono, per loro stessa natura, esperte nella creazione di mondi artificiali e nella costruzione di storie attorno ad essi. Aziende come Nintendo , Rockstar , Valve , Activision , Electronic Arts e Ubisoft sono solo alcuni dei nomi più importanti. Raramente vengono discussi nel contesto dell’IA generativa anche se hanno creato e distribuito molti algoritmi simili. In effetti, la loro esperienza spesso risale a decenni fa e ha avuto origine prima che le persone usassero il termine AI per descrivere il loro lavoro. 

E le startup di IA generativa? 
Molte delle startup e delle aziende affermate che lavorano con algoritmi di IA generativa sono nel settore dei giochi. In effetti, molte delle società di videogiochi hanno attivamente perseguito la creazione delle rappresentazioni più realistiche sin dall’inizio. È giusto dire che molte, se non la maggior parte, delle società di videogiochi sono coinvolte in una qualche forma di IA generativa. 

Alcuni, tuttavia, si distinguono per la loro attenzione all’utilizzo delle tecniche di intelligenza artificiale. Respeacher sta sviluppando una tecnologia di clonazione vocale per le attività di pubblicità, intrattenimento e videogiochi. La loro tecnologia di apprendimento automatico inizia con una voce campione e quindi apprende tutti i parametri in modo che il nuovo dialogo possa essere visualizzato in questa voce. 

Rephrase.ai , Synthesia , offre una soluzione full text-to-video che viene utilizzata nel settore pubblicitario per creare presentazioni di vendita personalizzate o addirittura personalizzate. I loro strumenti iniziano con modelli che imparano come si muove il viso di una persona per ogni fonema e quindi lo usano per creare video sintetici dai modelli. Mantengono anche una collezione di modelli stock, alcuni generati da celebrità che concedono in licenza la loro immagine.

D-ID cerca di applicare tutte le lezioni dalla creazione di deep fake al contrario. Ci vorrà un video reale di un essere umano e quindi rimuoverà molti degli attributi riconoscibili come la posizione degli occhi o la forma del naso. L’idea è quella di offrire una certa anonimizzazione pur mantenendo il messaggio essenziale del video. 

Rosebud.ai offre una raccolta completa di algoritmi sintetici che iniziano con una semplice descrizione testuale e quindi costruiscono modelli di umani o mondi che corrispondono alla richiesta. I loro strumenti vengono utilizzati dalle persone per esplorare idee creative e poi vederle renderizzate. Forniscono versioni come app per iOS e Android. Stanno anche raggruppando alcune creazioni come token non fungibili (NFT) che possono essere rivenduti su vari mercati di criptovalute.  

C’è qualcosa che l’IA generativa non può fare? 
La capacità di un’IA generativa è in gran parte negli occhi, nelle orecchie o negli spettatori. I risultati sembrano abbastanza reali da servire a uno scopo? Se vuole essere realistico, appare indistinguibile da una fotografia? Se è pensato per essere artistico o stilizzato, raggiunge quegli obiettivi artistici? 

Il mondo dei deep fake sta già realizzando l’obiettivo di distorcere e sostituire la realtà per le persone. Molti sono preoccupati che alcuni di questi distruggano la nostra capacità di fidarci delle immagini o delle registrazioni audio perché fornitori esperti saranno in grado di creare qualsiasi versione del passato che desiderano. 

Le implicazioni per la politica e il sistema giudiziario sono gravi e molti ritengono che sia essenziale che anche gli algoritmi di rilevamento della contraffazione debbano essere disponibili per combattere questo flagello. Per ora, molti degli algoritmi in grado di rilevare anomalie dal processo di sintesi sono abbastanza buoni da rilevare i deep fake da algoritmi ben noti. 

Il futuro, tuttavia, del rilevamento potrebbe evolversi in un gioco del gatto e del topo. I creatori di deep fake cercano algoritmi migliori in grado di eludere i rilevatori mentre i team di rilevamento lavorano per cercare modelli più rivelatori in grado di contrassegnare risultati sintetici. 

Le diverse tecniche sopra descritte per rilevare i deep fake vengono già trasformate in strumenti automatizzati. Sebbene i falsi profondi possano inizialmente ingannare alcune persone, sembra probabile che uno sforzo concertato sia in grado di rilevare i falsi con sufficiente accuratezza, tempo e precisione. 

Di ihal