Mentre AlphaFold 2 e RoseTTAFold hanno una precisione simile, l’inferenza ESMFold è più veloce nel consentire l’esplorazione degli spazi strutturali delle proteine ​​​​metagenomiche
 
Il mese scorso, i ricercatori di Meta AI hanno lanciato un modello rivoluzionario chiamato Evolutionary Scale Modeling , o ESM, per la previsione della struttura delle proteine. Questo nuovo modello è pubblicizzato come una delle alternative più vicine ad AlphaFold 2 di DeepMind , che ha sostanzialmente risolto la grande sfida di 50 anni di ripiegamento delle proteine. Nel corso degli anni, Meta AI ha lanciato diversi modelli e il suo lavoro più recente è stato rilasciato al pubblico. 

 

Oltre a ESMFold e AlphaFold, ci sono molti modelli di previsione delle proteine, tra cui RoseTTAFold , IntFOLD , RaptorX e altri. Ecco una rapida panoramica dei modelli: 


ESMfold vs AlphaFold 
Meta AI ha affermato che AlphaFold 2 e RoseTTAFold hanno una precisione simile, ma l’inferenza ESMFold è più veloce nel consentire l’esplorazione degli spazi strutturali delle proteine ​​​​metagenomiche. La metagenomica è una tecnica di sequenziamento del DNA purificato direttamente da un ambiente naturale. 


Mentre AlphaFold utilizza un modello basato sulla rete, ESMFold sfrutta un modello linguistico su larga scala per la previsione delle proteine. Il team di Meta AI ha affermato che i miglioramenti nella perplessità della modellazione linguistica e nell’apprendimento della struttura continuano attraverso 15 miliardi di parametri. In confronto, il team ha affermato che il loro ultimo modello, ESM2, con 15 milioni di parametri, è migliore del modello precedente, ESM1b, con 650 milioni di parametri. 

Inoltre, AlphaFold 2 e altre alternative utilizzano più allineamenti di sequenza (MSA) e modelli di proteine ​​simili per ottenere prestazioni ottimali o un successo rivoluzionario nella previsione della struttura a risoluzione atomica. Tuttavia, ESMFold genera la previsione della struttura utilizzando solo una sequenza come input sfruttando le rappresentazioni interne del modello linguistico. 

Con una singola sequenza come input, ESMfold produce previsioni a livello atomico più accurate di AlphaFold e compete con RoseTTAFold quando vengono forniti allineamenti di sequenze multiple (MSA) completi. 


ESMfold produce previsioni comparabili per sequenze a bassa perplessità e l’accuratezza della previsione della struttura è correlata alla perplessità del modello linguistico in generale. In altre parole, quando un modello linguistico può comprendere meglio una sequenza, può comprendere meglio una struttura. 

Uno dei vantaggi di ESMfold è che offre una velocità di previsione più rapida rispetto ai predittori della struttura di risoluzione atomica esistenti. Questo, in un certo senso, gli consente di colmare il divario tra la rapida crescita di database di sequenze proteiche contenenti miliardi di sequenze e lo sviluppo più lento di database di strutture e funzioni proteiche. Il modello viene utilizzato per calcolare rapidamente un milione di strutture previste che rappresentano un diverso sottoinsieme di spazi di sequenze metagenomiche privi di struttura o funzione etichettata. 

Il mese scorso, DeepMind, in collaborazione con l’Istituto europeo di bioinformatica (EMBL-EBI), ha rilasciato strutture previste per quasi tutte le proteine ​​catalogate, che amplieranno il database AlphaFold di oltre 200 volte, da quasi 1 milione di strutture a oltre 200 milioni di strutture, con il potenziale per aumentare significativamente la nostra comprensione della biologia. 

AlphaFold, lanciato inizialmente nel 2018, ha pubblicato la sua seconda versione nel 2020 e l’anno scorso ha rilasciato una versione open source della sua rete neurale di apprendimento profondo AlphaFold 2. Con questo, il team ha affermato che il nuovo modello aumenta significativamente la precisione delle interfacce multimeriche previste rispetto a AlphaFold a catena singola adattato all’input , mantenendo un’elevata precisione all’interno della catena. 

Uno dei maggiori driver di prestazioni per ESMfold è stato il modello linguistico. Ad esempio, quando ESM-2 comprende bene la sequenza proteica, è possibile ottenere previsioni paragonabili a quelle fatte da altri modelli quando la perplessità nella modellazione del linguaggio è elevata. In altre parole, è possibile ottenere previsioni accurate della struttura della risoluzione atomica con ESMFold, ovvero fino a due ordini di grandezza più veloci di AlphaFold 2. 

Meta AI ha affermato che miliardi di sequenze proteiche hanno strutture e funzioni sconosciute, molte dal sequenziamento metagenomico. ESMFold consente di mappare questo spazio strutturale in scale temporali pratiche, dove possono piegare un campione casuale di 1 milione di sequenze metagenomiche in poche ore. Inoltre, i ricercatori ritengono che ESMFold possa aiutare a comprendere le regioni dello spazio proteico che sono lontane dalle conoscenze esistenti. 

Emerge un nuovo modello di previsione delle proteine ​​”super veloce”. 
ESMfold e AlphaFold non sono soli. OmegaFold, sviluppato dalla società cinese di biotecnologie Helixon , prevede anche la struttura proteica ad alta risoluzione da una singola sequenza primaria. Recentemente, questo modello ha sovraperformato il rivale RoseTTAFold ottenendo una precisione di previsione simile a AlphaFold 2. 


Solo di recente, l’azienda ha reso pubblicamente disponibile il suo codice , unendosi a nomi del calibro di  AlphaFold ed ESMfold , anch’essi open source.

Perché questo è un grosso problema? 
Il ripiegamento delle proteine ​​aiuta ricercatori e scienziati a comprendere la causa alla base di molte malattie. Conoscere il ripiegamento delle proteine, la progettazione delle proteine, ecc., aiuta a trovare una cura, progettare nuovi farmaci, farmaci, soluzioni farmaceutiche, ecc. 

Di ihal