La startup di ricerca sull’intelligenza artificiale Together AI, con sede a San Francisco, ha presentato un nuovo modello di base biologico avanzato chiamato Evo, progettato per comprendere e creare sequenze da DNA, RNA e proteine. È stato addestrato utilizzando un ampio set di dati di sequenze genomiche procariotiche, che includono 2,7 milioni di genomi interi.
L’obiettivo principale di Evo è quello di affrontare le sfide legate alla modellazione di interi genomi, considerando la loro lunghezza e i complessi cambiamenti che avvengono a livello dei singoli elementi costitutivi, o nucleotidi.
A differenza dei modelli precedenti di intelligenza artificiale in biologia, che erano focalizzati su compiti specifici, Evo è concepito come un modello fondamentale. Integra le informazioni attraverso lunghe sequenze genomiche, pur essendo sensibile ai cambiamenti dei singoli nucleotidi. Per superare le sfide legate alle lunghe sequenze e alla risoluzione precisa, Evo utilizza l’architettura StripedHyena, che impiega un design ibrido di operatori di attenzione rotante e iena.
Evo-1 dimostra diverse capacità notevoli, come la previsione dei geni essenziali per la sopravvivenza di un organismo basandosi su piccole mutazioni del DNA senza una formazione precedente (test dell’essenzialità del gene zero-shot). Inoltre, eccelle nella previsione delle funzioni del DNA, dell’RNA e delle proteine, superando altri modelli nella previsione della funzione delle proteine. Evo si distingue ulteriormente generando nuovi sistemi CRISPR, dimostrando la sua capacità di progettare strutture molecolari complesse coinvolgenti proteine e RNA contemporaneamente.
Il modello può generare sequenze su scala di interi genomi, fino a 650.000 caratteri, utilizzando una singola GPU.