Un’intelligenza artificiale più impressionante di ChatGPT è qui
I trasformatori d’azione sono il prossimo salto per l’IA gli Action Transformers 
 
Poche cose hanno il potenziale per cambiare così tanto nella nostra vita quotidiana. O nel nostro lavoro.

E sebbene tu possa benissimo essere tentato di vedere il titolo come puro sensazionalismo, posso assicurarti che alla fine dell’articolo penserai diversamente.

E se ti dicessi che esiste un caso d’uso ancora più grande per l’IA rispetto a ChatGPT, un caso d’uso che può cambiare completamente il modo in cui interagiamo con i nostri telefoni, i nostri tablet o i nostri computer per usarli in modi ritenuti impossibili?

Questa tecnologia esiste e si sta avvicinando di soppiatto a te.

Ma lasciatemi mettere una dichiarazione di non responsabilità; la misura in cui sarai eccitato o spaventato dopo aver letto questo articolo dipenderà interamente da te, non da me.

Questa è la misura in cui i trasformatori d’azione dirompenti e trasformativi possono essere per il tuo futuro.
 
Quando l’attenzione è diventata mainstream
L’IA generativa rappresenta la prima volta che questa promessa decennale che l’IA era, è diventata una realtà che può essere apprezzata anche dalla parte meno tecnologica della società.

L’intelligenza artificiale mainstream è qui
Anche se l’intelligenza artificiale è già ovunque, fino ad ora i modelli di intelligenza artificiale sono stati utilizzati come predittori; responsabili delle decisioni per casi d’uso molto personalizzati e specifici.

Stranamente, il campo dell’intelligenza artificiale di maggior successo, dal punto di vista economico, è stata la pubblicità online, che ha consentito ad aziende come Google o Meta di costruire imperi letterali dal semplice concetto di certezza.

Cioè, fornire agli esseri umani la certezza empirica e basata sui dati che il risultato di una determinata azione, il più delle volte, sarebbe redditizio.

Grazie all’intelligenza artificiale, Google e Meta hanno garantito risultati agli inserzionisti assicurandosi che le loro campagne di marketing raggiungessero i clienti desiderati, trasformando l’industria del marketing dallo storico “incostante” a qualcosa di molto più snello.

Ma questo straordinario successo ha richiesto investimenti importanti, rendendo l’IA una tecnologia proibita per la maggioranza.

Pertanto, tutto questo sta cambiando con l’IA generativa, la prima volta che l’IA diventa mainstream e accessibile nella nostra quotidianità.

E mentre sicuramente vedrai molti diversi modelli di intelligenza artificiale che ti vengono lanciati in faccia, tutti possono essere ridotti a un semplice concetto: in un mondo in cui essere concentrati è una sfida più grande ogni giorno, è ironico che la cosa che sta per cambiare il mondo che ci circonda si basa su una cosa semplice, l’attenzione.

L’attenzione è tutto ciò di cui hai bisogno
Il meccanismo dell’attenzione è una proposta di Bahdenau et al che è, senza dubbio, uno degli articoli più influenti nella storia dell’Intelligenza Artificiale.

In breve, è stata la prima volta che abbiamo trovato un modo per gli umani di insegnare alle macchine a comprendere il contesto di una frase in un modo “simile” a quello che farebbero gli umani.

Possiamo vederlo con un esempio:

Supponiamo che tu voglia tradurre una frase in un’altra lingua.

A meno che tu non sia molto strano, probabilmente tradurrai la frase in piccoli pezzi; inizialmente le prime parole, poi le successive mantenendo nella memoria la prima parte della frase per conservare il contesto… e così via.

Tuttavia, prima del meccanismo dell’attenzione, le reti neurali capivano il contesto con la forza bruta, estraendo il contesto dall’intera frase. Ciò significava che, per una lunghezza crescente della frase che volevamo che la macchina capisse, i requisiti computazionali e di memoria salirono alle stelle.
Con il meccanismo dell’attenzione, tutto è cambiato.

Grazie a un meccanismo di ponderazione, siamo stati in grado di insegnare alle macchine a “segnare”, una parola alla volta, il resto delle parole di una frase in relazione a quella parola.

Ciò significava, in termini molto semplificati, che per ogni parola di una frase ricevuta dalla macchina, era in grado di capire quali altre parole in quella frase contassero di più e quali di meno, come facciamo inconsciamente io e te.

Ciò ha permesso la nascita del trasformatore, il modello dietro ChatGPT, DALL-E, Stable Diffusion, o il nostro protagonista oggi, ACT-1.

I trasformatori sono qui per restare
Il meccanismo dell’attenzione ha fatto sì che nel 2017 un gruppo di ricercatori abbia deciso di abbandonare la ricorrenza e la convoluzione, gli standard all’epoca per addestrare i modelli di sequenza, e ha creato un nuovo codificatore-decodificatore – due reti neurali collegate in sequenza – che si basava esclusivamente sull’attenzione meccanismo.

Tuttavia, fino ad ora le principali applicazioni di questi modelli sono state la generazione di output di testo o immagini. Come visto con ChatGPT, questo ha avuto molto successo e sta già influenzando diversi settori come lavoratori creativi, scrittori o esperti di marketing.

Ma c’è un caso d’uso più grande della vita di cui pochi sono a conoscenza che cambierà completamente il modo in cui utilizzi i tuoi dispositivi digitali.
 
Action Transformers, o intelligenza comune
Adept.ai non è una normale startup.

È fondato da alcune delle menti più brillanti dell’IA (alcuni di loro hanno creato il concetto del modello Transformer discusso in precedenza, ed è co-fondato da David Luan, un tempo Head of Engineering presso OpenAI).

Ora, hanno deciso di portare i loro talenti al livello successivo creando il primo Action Transformer, un modello di linguaggio di grandi dimensioni rivendicato dal team come il primo modello di intelligenza artificiale generalmente intelligente, inquadrando l ‘”intelligenza generale” come la capacità di un modello per eseguire varie attività in un computer in modo intelligente.

A questo punto, forse ti starai chiedendo… “Fantastico, ma cosa fa questa ‘cosa’?”

In breve, è un’automazione intelligente per uso generico.

Cambiando il modo in cui interagiamo con i computer, per sempre
Immagina di lavorare con un foglio di calcolo Excel con informazioni relative ai dati finanziari della tua azienda. All’improvviso, ti rendi conto che ti piacerebbe creare una tabella pivot che fornisca ulteriori approfondimenti sulle informazioni nella tua tabella.

Ma è da un po’ che non ne fai uno e solo il pensiero di dover imparare di nuovo peggiora il tuo umore.

Quindi, apri un’estensione di Chrome e digita “Crea una tabella pivot che presenti le mie informazioni finanziarie in modo da poter identificare chiaramente il profitto e il margine per ogni anno filtrando solo i risultati positivi”.

Premi “invio”. Et voilà , accade la magia.

All’improvviso la richiesta che hai inserito viene eseguita automaticamente nel foglio di calcolo Excel, mentre tu, semplicemente, guardi.

Questo, che sembra quasi fantascienza, potrebbe essere il ‘business usuale’ nelle nostre vite tra qualche anno.

O mesi, grazie all’ACT-1 di Adept.

Il percorso verso l’automazione general-purpose
L’automazione digitale è un processo piuttosto rudimentale di questi tempi. Potente, non fraintendetemi, ma rudimentale.

Le persone devono “insegnare” al software di automazione a eseguire una serie di azioni ripetitive mostrandogli, letteralmente, in quale punto dello schermo del computer deve agire, e il robot semplicemente obbedisce.

Ma non c’è intelligenza in questa procedura. Questi robot possono solo replicare processi definiti e fallire automaticamente se cambiano.

Con i trasformatori d’azione, questo è un ricordo del passato.

Sfruttando il potente concetto di modelli di linguaggio di grandi dimensioni, questi trasformatori sono in grado di interagire con quasi tutte le interfacce utente grafiche, API o siti Web in modo continuo e con quasi zero formazione.

Ma non è questa la cosa più incredibile; possono diventare compagni di squadra per qualsiasi essere umano in quanto sono in grado di eseguire quelle azioni, su richiesta, con richieste di linguaggio naturale come l’esempio che ho mostrato prima.

E ciò che è ancora più impressionante è che Adept.ai sta sviluppando il suo modello di trasformatore utilizzando una nuova iterazione innovativa del meccanismo dell’attenzione, un concetto descritto come auto-attenzione.

Più lungo e più veloce
Come accennato in precedenza, i maggiori colli di bottiglia in questi modelli sono i vincoli di runtime e di memoria.

Anche se il meccanismo dell’attenzione ha consentito un modo molto più “umano” di estrarre il contesto dalle frasi riducendo al contempo i requisiti di memoria, può comunque essere migliorato.

Con il normale meccanismo di attenzione, il tempo di esecuzione e la memoria hanno requisiti quadratici rispetto alla lunghezza della sequenza di input. In altre parole, più lunga è la sequenza di input, maggiori saranno in modo esponenziale i requisiti di memoria e runtime.

Oggi, i modelli all’avanguardia sono in grado di gestire circa 2.000 token, ovvero meno di 2.000 parole per input (recentemente OpenAI ha rilasciato un sistema di incorporamento di 8.192 token).

Ciò limita la quantità di input che puoi fornire a un modello affinché comprenda il contesto e generi un output. Logicamente, questo non è sufficiente, poiché chiunque abbia letto un libro sa che il contesto può essere derivato da testi molto, molto più grandi.

Il modello ACT-1 di Adept.ai sfrutta l’auto-attenzione, un nuovo meccanismo che secondo loro riduce i requisiti di memoria e di runtime a lineari per quanto riguarda la lunghezza della sequenza di input.

La memoria e il tempo di esecuzione aumentano in modo lineare, non esponenziale, rispetto alla lunghezza della sequenza.

Il potenziale impatto di questo?

Alla fine, potremmo vedere la proliferazione di compagni di squadra di intelligenza artificiale che ti accompagnano per mesi, imparando dai tuoi modi di lavorare e dai tuoi ritmi, e potendo diventare il tuo compagno di lavoro inseparabile che migliora le tue azioni in un approccio personalizzato e dedicato.
Ok, ma questo è un bene o un male?
È difficile non sentirsi sopraffatti, o addirittura spaventati, da notizie come questa.

Ma non credo che questa sia effettivamente una brutta cosa.

I lavoratori umani non vanno da nessuna parte. In effetti, questi robot possono diventare davvero elementi che cambiano la vita nelle nostre vite e, potenzialmente, potrebbero cambiare completamente il modo in cui interagiamo con i computer in futuro, in meglio.

La vera domanda è: avremo bisogno di interfacce software in futuro? O i prodotti software diventeranno semplicemente back-end con cui interagiscono i trasformatori di azioni?

di Ignacio de Gregorio da www.thetechoasis.com

Di ihal