Oggi voglio parlarvi dell’interessante mondo dell’intelligenza artificiale e dei modelli di apprendimento. Proprio come gli esseri umani, anche i modelli di intelligenza artificiale non iniziano da zero ad apprendere ogni secondo. Invece, alcuni tipi di reti neurali, come le LSTM (Long Short Term Memory), aggiungono loop che permettono loro di interpretare nuove osservazioni insieme a ciò che hanno appreso in precedenza.
Le LSTM hanno rivoluzionato il campo dell’intelligenza artificiale, portando a un notevole aumento della precisione nei modelli linguistici. Questo modello è stato sviluppato dal Dr. Sepp Hochreiter insieme allo scienziato tedesco Juergen Schmidhuber alla fine degli anni ’90.
In una recente intervista esclusiva con AIM, il Prof. Josef “Sepp” Hochreiter, attualmente a capo dell’Istituto di apprendimento automatico presso l’Università Johannes Kepler di Linz, ha rivelato l’esistenza di un nuovo modello chiamato XLSTM. Questo successore di LSTM è ancora nascosto al pubblico e potrebbe portare a ulteriori avanzamenti nell’intelligenza artificiale.
Hochreiter e il suo team stanno attualmente potenziando ogni trasformatore utilizzando set di dati più piccoli combinati con LSTM. L’obiettivo è superare la famosa intelligenza artificiale GPT di OpenAI nel campo della modellazione del linguaggio autoregressivo.
OpenAI, guidata da Sam Altman, è diventata famosa grazie al suo chatbot ChatGPT, e si stima che raggiungerà 1 miliardo di entrate entro il 2024, dimostrando il grande interesse del mercato per l’intelligenza artificiale.
Prima dell’avvento delle LSTM nei modelli linguistici, queste reti neurali hanno avuto successo nell’apprendimento per rinforzo in giochi come Starcraft 2 di Deepmind e Dota 2 di OpenAI. Hochreiter stesso ha trovato sorprendente l’efficacia delle LSTM nel linguaggio, dato che in origine erano utilizzate per la previsione delle serie temporali e l’analisi delle sequenze, come sequenze proteiche e di DNA.
Hochreiter crede che concentrarsi sul linguaggio sia un passo positivo, in quanto il linguaggio umano è già ricco di astrazioni, come le parole per descrivere gli oggetti nel mondo reale. Tuttavia, si augura che l’intelligenza artificiale possa inventare i propri concetti e rispondere alle proprie astrazioni in futuro.
Attualmente, le LSTM vengono utilizzate non solo per rendere intelligenti assistenti vocali come Alexa, Siri e Cortana, ma anche dalle autorità governative di tutto il mondo per prevedere fenomeni come inondazioni e siccità.
Nonostante l’avvento dei trasformatori, Hochreiter ritiene che per alcuni compiti di ingegneria, le LSTM si combinino bene con le architetture convenzionali per ottenere risultati migliori.
Uno dei problemi attuali riguarda i dati di addestramento utilizzati per creare modelli linguistici. Alcuni dei più grandi modelli rimangono avvolti nel mistero, ma Hochreiter sottolinea che stanno emergendo regolamenti per creare set di dati più trasparenti e sicuri.
L’etica è un tema cruciale quando si parla di intelligenza artificiale generativa, come i modelli Midjourney e ChatGPT, e persino personaggi pubblici come Sarah Silverman hanno sollevato dubbi sulla sua applicazione e le sue possibili conseguenze.
Sepp Hochreiter, pioniere nel campo del deep learning, ha dedicato molti anni di ricerca alle LSTM e si è trovato di fronte a sfide riguardanti la pubblicazione delle sue scoperte. Tuttavia, il suo lavoro ha avuto un impatto significativo sul campo e si è dimostrato fondamentale per sviluppare modelli di apprendimento sempre più potenti.
Ora Hochreiter sta lavorando su un GPT rivale, ma è incerto riguardo al suo futuro commerciale. Ha condiviso di non aver guadagnato nulla dalla pubblicazione delle LSTM e si sta chiedendo se mantenere la nuova tecnologia per sé o sfruttarla economicamente come azienda. Un’incognita che potrebbe portare a nuovi sviluppi emozionanti nell’appassionante mondo dell’intelligenza artificiale.