Durante la conferenza GTC, sette degli otto autori del celebre articolo “L’attenzione è tutto quello che serve”, che ha introdotto l’architettura dei Transformers, si sono incontrati per la prima volta come gruppo per una conversazione con il CEO di Nvidia, Jensen Huang, in una sala gremita. I partecipanti includevano Noam Shazeer di Character.ai, Aidan Gomez di Cohere, Ashish Vaswani di Essential AI, Llion Jones di Sakana AI, Illia Polosukhin del protocollo NEAR, Jakob Uskhoreit di Inceptive e Lukasz Kaiser di OpenAI, mentre Niki Parmar di Essential AI non è stata in grado di partecipare.
Nel 2017, il team del Google Brain aveva realizzato un importante progresso con i Transformers, una rete neurale per il processamento del linguaggio naturale che interpretava il contesto e il significato delle parole meglio dei suoi predecessori. Questa architettura è diventata fondamentale non solo per modelli linguistici come GPT-4 e ChatGPT, ma anche per applicazioni in campi non linguistici.
Tuttavia, i creatori dei Transformers stanno ora esplorando il futuro oltre questa architettura. Gomez di Cohere ha espresso l’esigenza di superare i Transformers, suggerendo che è tempo di trovare qualcosa che elevi ulteriormente le prestazioni dei modelli di intelligenza artificiale. Durante una discussione successiva, Gomez ha lamentato le inefficienze dei Transformers, soprattutto per quanto riguarda la memoria e l’architettura, sottolineando la necessità di rinnovare alcuni aspetti come la parametrizzazione e la condivisione dei pesi per rendere i modelli più efficienti e scalabili.
Nonostante ciò, Gomez ha riconosciuto che vi è una varietà di opinioni tra gli autori sull’effettiva realizzazione di tali avanzamenti, ma ha sottolineato il desiderio comune di progresso. Jones di Sakana ha evidenziato che qualsiasi nuova architettura dovrà essere significativamente migliore del Transformer per essere adottata, dato che attualmente questa rimane la preferenza nonostante le sue limitazioni tecniche. Gomez ha concordato, aggiungendo che per spostare la comunità verso una nuova architettura è necessario suscitare entusiasmo, oltre a dimostrare superiorità tecnica.