La comunità open source ha lanciato un nuovo modello di rete neurale ricorrente (RNN) chiamato Eagle 7B. Questo modello si basa su un’architettura avanzata denominata RWKV-v5 e ha imparato da 1,1 trilioni di esempi (token). È progettato per comprendere e lavorare con oltre 100 lingue diverse.
L’architettura RWKV, che sta per “Rotary Weighted Key-Value”, è un’innovazione nel campo dell’intelligenza artificiale, specialmente per l’elaborazione del linguaggio naturale (NLP). Questa architettura è una variante delle tradizionali reti neurali ricorrenti.
Eagle 7B è notevole per la sua efficienza in termini di costi di inferenza e si distingue nel settore per la sua sostenibilità ambientale e la versatilità linguistica. Con 7,52 miliardi di parametri, Eagle 7B ha dimostrato eccellenti prestazioni in test multilingue, stabilendo nuovi standard per i modelli della sua classe. È in grado di competere con modelli più grandi, specialmente nell’inglese, e viene descritto come un “trasformatore senza attenzione”, anche se potrebbe richiedere ulteriori regolazioni per applicazioni specifiche. Questo modello è disponibile sotto la licenza Apache 2.0 e può essere scaricato da HuggingFace per usi sia personali che commerciali.
In termini di capacità multilingue, Eagle 7B ha ottenuto risultati impressionanti in test che coprono 23 lingue. Le sue prestazioni in inglese sono notevolmente migliorate rispetto al suo predecessore, RWKV v4, e si confronta favorevolmente con modelli di fascia alta.
Eagle 7B rappresenta un passo avanti verso un’architettura AI più scalabile e un utilizzo dei dati più efficiente. È una tecnologia AI inclusiva che supporta una varietà più ampia di lingue, sfidando la dominanza dei modelli di trasformazione e mostrando che le RNN basate su RWKV possono ottenere prestazioni superiori quando addestrate con una quantità di dati comparabile.
Nell’architettura RWKV, un meccanismo rotante trasforma i dati di input in un modo che aiuta il modello a comprendere meglio la posizione o l’ordine degli elementi in una sequenza. La caratteristica del “valore chiave ponderato” rende il modello efficiente recuperando informazioni dagli elementi precedenti della sequenza.
Sebbene ci siano ancora dubbi sulla scalabilità dell’RWKV rispetto ai trasformatori, c’è ottimismo sul suo potenziale. Il team di sviluppo prevede di fornire ulteriori aggiornamenti, un documento dettagliato su Eagle 7B, e sta lavorando allo sviluppo di un modello ancora più grande, un 2T.