Google ha recentemente introdotto una nuova architettura di intelligenza artificiale denominata ‘Titans’, progettata per migliorare significativamente la gestione e l’elaborazione di grandi quantità di informazioni nel tempo.

Tradizionalmente, modelli come i Transformer hanno mostrato limitazioni nell’elaborazione di sequenze lunghe, richiedendo notevoli risorse computazionali e spesso perdendo dettagli cruciali su intervalli temporali estesi. ‘Titans’ affronta queste sfide integrando meccanismi di attenzione con un modulo neurale di memoria a lungo termine, permettendo al modello di memorizzare e utilizzare informazioni durante le operazioni in tempo reale.

Nei test, ‘Titans’ ha superato architetture esistenti come i Transformer e le Reti Neurali Ricorrenti (RNN) in compiti di modellazione del linguaggio, ragionamento a lungo termine e previsione di serie temporali. In particolare, nella valutazione BABILong, la variante ‘Memory as Context’ (MAC) ha mostrato prestazioni eccezionali, gestendo finestre di contesto superiori a 2 milioni e superando modelli di grandi dimensioni come GPT-4 e Llama3-70B.

‘Titans’ introduce tre varianti architetturali:

  • Memory as Context (MAC): segmenta gli input, recupera memorie storiche per segmenti rilevanti e aggiorna la memoria basandosi sugli output dell’attenzione.
  • Memory as Gating (MAG): utilizza la memoria per modulare l’elaborazione delle informazioni, influenzando l’attenzione in base a dati storici.
  • Memory as a Layer (MAL): integra la memoria come componente aggiuntiva nei livelli del modello, permettendo un accesso diretto alle informazioni a lungo termine durante l’elaborazione.

Queste configurazioni consentono una gestione equilibrata dei dati recenti e storici, superando le limitazioni precedenti nel trattamento di sequenze estese.

L’implementazione di ‘Titans’ potrebbe avere un impatto significativo in applicazioni come l’analisi documentale, la previsione di serie temporali e la genomica. Combinando memoria a lungo termine con dati attuali, ‘Titans’ potrebbe migliorare la capacità dei sistemi di machine learning nel risolvere problemi complessi del mondo reale.

Di ihal