DeepMind open-source AlphaFold 2 per previsioni sulla struttura delle proteine
DeepMind questa settimana open-source AlphaFold 2 , il suo sistema di intelligenza artificiale che predice la forma di proteine, per accompagnare la pubblicazione di un articolo sulla rivista Nature . Con la base di codice ora disponibile, DeepMind spera di ampliare l’accesso a ricercatori e organizzazioni nel campo dell’assistenza sanitaria e delle scienze della vita.
La ricetta per le proteine — grandi molecole costituite da amminoacidi che sono i mattoni fondamentali di tessuti, muscoli, capelli, enzimi, anticorpi e altre parti essenziali degli organismi viventi — è codificata nel DNA. Sono queste definizioni genetiche che circoscrivono le loro strutture tridimensionali, che a loro volta determinano le loro capacità. Ma il “folding” proteico, come viene chiamato, è notoriamente difficile da capire da una sola sequenza genetica corrispondente. Il DNA contiene solo informazioni sulle catene di residui di amminoacidi e non sulla forma finale di quelle catene.
Nel dicembre 2018, DeepMind ha tentato di affrontare la sfida del ripiegamento delle proteine con AlphaFold, il prodotto di due anni di lavoro. La consociata Alphabet ha affermato all’epoca che AlphaFold poteva prevedere le strutture in modo più preciso rispetto alle soluzioni precedenti. Il suo successore, AlphaFold 2, annunciato nel dicembre 2020, lo ha migliorato per superare per la seconda volta i metodi di previsione del ripiegamento delle proteine concorrenti. Nei risultati della 14a valutazione CASP (Critical Assessment of Structure Prediction), AlphaFold 2 presentava errori medi paragonabili alla larghezza di un atomo (o 0,1 di un nanometro), competitivi con i risultati dei metodi sperimentali.
AlphaFold trae ispirazione dai campi della biologia, della fisica e dell’apprendimento automatico. Sfrutta il fatto che una proteina ripiegata può essere pensata come un “grafico spaziale”, in cui i residui di amminoacidi (amminoacidi contenuti all’interno di un peptide o di una proteina) sono nodi e i bordi collegano i residui in stretta prossimità. AlphaFold sfrutta un algoritmo di intelligenza artificiale che tenta di interpretare la struttura di questo grafico mentre ragiona sul grafico implicito che sta costruendo utilizzando sequenze correlate evolutivamente, allineamento di sequenze multiple e una rappresentazione di coppie di residui di amminoacidi.
Nella versione open source, DeepMind afferma di aver notevolmente semplificato AlphaFold 2. Mentre il sistema ha impiegato giorni di tempo di elaborazione per generare strutture per alcune voci in CASP, la versione open source è circa 16 volte più veloce. Può generare strutture in pochi minuti o ore, a seconda delle dimensioni della proteina.
Applicazioni del mondo reale
DeepMind sostiene che AlphaFold, se ulteriormente perfezionato, potrebbe essere applicato a problemi precedentemente intrattabili nel campo del ripiegamento delle proteine, compresi quelli relativi agli sforzi epidemiologici. L’anno scorso, la società ha previsto diverse strutture proteiche di SARS-CoV-2, tra cui ORF3a, la cui composizione era precedentemente un mistero. Al CASP14, DeepMind ha previsto la struttura di un’altra proteina del coronavirus, ORF8, che da allora è stata confermata dagli sperimentali.
Oltre ad aiutare la risposta alla pandemia, DeepMind prevede che AlphaFold verrà utilizzato per esplorare le centinaia di milioni di proteine per le quali la scienza attualmente non ha modelli. Poiché il DNA specifica le sequenze di amminoacidi che compongono le strutture proteiche, i progressi della genomica hanno reso possibile leggere le sequenze proteiche dal mondo naturale, con 180 milioni di sequenze proteiche e il conteggio nel database Universal Protein pubblicamente disponibile. Al contrario, dato il lavoro sperimentale necessario per tradurre dalla sequenza alla struttura, solo circa 170.000 strutture proteiche sono nella banca dati proteica.
DeepMind afferma di essere impegnata a rendere AlphaFold disponibile “su larga scala” e a collaborare con i partner per esplorare nuove frontiere, come il modo in cui più proteine formano complessi e interagiscono con DNA, RNA e piccole molecole. All’inizio di quest’anno, la società ha annunciato una nuova partnership con l’iniziativa Drugs for Neglected Diseases con sede a Ginevra, un’organizzazione farmaceutica senza scopo di lucro che spera di utilizzare AlphaFold per identificare composti per il trattamento di condizioni per le quali i farmaci rimangono elusivi.