È stata sviluppata una nuova architettura per affrontare le limitazioni dei trasformatori, che rallentano l’inferenza e richiedono molta memoria ed energia. Questa nuova architettura, chiamata “TTT (Test Time Training)”, è progettata per elaborare più dati a un costo inferiore rispetto ai trasformatori tradizionali.
Le architetture Transformer, come quelle usate in modelli linguistici di grandi dimensioni (LLM) come “ChatGPT” e “Gemini”, presentano il problema che la memoria e il tempo di calcolo aumentano esponenzialmente con l’aumentare dei dati di input. Ad esempio, raddoppiando la dimensione dell’input da 1000 a 2000 token, la memoria e il tempo di calcolo quadruplicano, non raddoppiano. Questo è causato dal meccanismo di attenzione, che analizza le correlazioni tra i token in parallelo.
Il meccanismo di attenzione utilizza uno “stato nascosto”, una sorta di tabella di ricerca che cresce con i dati elaborati. Quando un trasformatore elabora informazioni, aggiunge voci a questo stato nascosto, che poi deve essere consultato per qualsiasi elaborazione successiva. Questo processo può diventare computazionalmente oneroso, specialmente con grandi quantità di dati.
La nuova architettura TTT propone di sostituire gli stati nascosti con un modello di apprendimento automatico interno. Questo modello interno non cresce con l’aumento dei dati e codifica le informazioni in pesi, mantenendo una dimensione costante. Questo approccio consente di elaborare più dati senza un incremento esponenziale della complessità computazionale.
Secondo i ricercatori, “TTT può fornire informazioni su un libro senza dover rileggere l’intero testo X volte”, semplificando notevolmente l’elaborazione.
Questa tecnologia potrebbe rivoluzionare anche l’elaborazione video. I modelli video basati su trasformatori, come Sora, possono attualmente elaborare solo brevi segmenti di video, limitandosi a circa 10 secondi. L’obiettivo di TTT è arrivare a un’elaborazione video simile alla percezione umana, permettendo di gestire video lunghi in modo più efficiente.
Tuttavia, è ancora necessario verificare se TTT possa effettivamente sostituire i trasformatori. Al momento, i ricercatori hanno sviluppato solo due modelli piccoli, quindi non è possibile fare un confronto diretto con trasformatori più grandi.
Mike Cook, professore di informatica al King’s College di Londra, ha definito l’innovazione “assolutamente interessante”, ma ha sottolineato che è troppo presto per dire se sia superiore alle architetture esistenti.
Nel frattempo, altre tecnologie cercano di risolvere i limiti dei trasformatori. AI21 Labs ha lanciato “Jamba”, che combina caratteristiche di “Mamba” e dei trasformatori. Google ha introdotto “Infini-attention”, che espande indefinitamente la finestra di contesto. Meta ha presentato “Megalodon”, un LLM che amplia la finestra di contesto a milioni di token senza richiedere molta memoria. Inoltre, la startup Symbolica ha creato la tecnica “Symbolic AI”, che utilizza simboli per ridurre i costi nell’esecuzione di LLM basati sui trasformatori.