L’idea alla base di Enformer è quella di comprendere meglio le varianti nel genoma non codificante e prevedere gli effetti di qualsiasi variante sull’espressione genica nelle varianti genetiche naturali e sintetiche.
 ricercatori di DeepMind di Google e Calico di Alphabet hanno collaborato per introdurre un’architettura di rete neurale: Enformer. È un modello basato su trasformatori con la capacità di prevedere l’espressione genica da sequenze di DNA con maggiore precisione. In poche parole, l’espressione genica non è altro che il processo in cui il DNA dirige la sintesi delle proteine ​​che sono alla base di ogni processo biologico nel corpo umano. Questi sviluppi delineano la capacità dell’intelligenza artificiale di offrire vantaggi unici per la salute umana e accelerare il progresso scientifico. 


Inoltre, i ricercatori hanno reso pubblico il loro modello per far progredire ulteriormente lo studio dei geni. Si può trovare il modello qui . DeepMind ha recentemente reso pubblico anche il codice sorgente di AlphaFold 2.0 , utile per prevedere la forma delle proteine. 

 
Cos’è Enformer?
Il DNA contiene le informazioni genetiche che influenzano tutto, dal colore degli occhi alla suscettibilità alle malattie e ai disturbi. Ci sono circa 20.000 sezioni di DNA nel corpo umano; li chiamiamo geni che contengono istruzioni sulla sequenza amminoacidica delle proteine. Questi geni svolgono varie funzioni biochimiche all’interno della cellula. Nonostante ciò, questi geni costituiscono meno del 2% del genoma. Le restanti coppie di basi nel genoma sono indicate come “non codificanti” e includono istruzioni meno comprensibili su quando e dove i geni dovrebbero essere creati o espressi nel corpo umano. Tuttavia, rappresentano il 98 per cento dei 3 miliardi di “lettere” nel genoma.

L’idea alla base di Enformer è quella di comprendere meglio le varianti nel genoma non codificante e prevedere gli effetti di qualsiasi variante sull’espressione genica nelle varianti genetiche naturali e sintetiche. Inoltre, lavori precedenti sull’espressione genica hanno utilizzato le reti neurali convoluzionali come elementi costitutivi fondamentali; tuttavia, la sua incapacità di modellare l’influenza dei potenziatori distali sull’espressione genica era un collo di bottiglia per l’accuratezza. Quindi, il modello appena sviluppato è pronto per il salvataggio.

La ricerca ha introdotto un’architettura di rete neurale basata sull’auto-attenzione verso questo obiettivo. “Inquadriamo il problema dell’apprendimento automatico come la previsione di migliaia di set di dati epigenetici e trascrizionali in un ambiente multitask attraverso lunghe sequenze di DNA. Addestrandoci sulla maggior parte dei genomi umani e di topo e testando su sequenze trattenute, abbiamo osservato una migliore correlazione tra previsioni e dati misurati rispetto ai precedenti modelli all’avanguardia senza auto-attenzione”, secondo il documento .  

 

Lo scopo principale di questo nuovo approccio è prevedere quali modifiche alle lettere del DNA, comunemente note come varianti genetiche, influenzerebbero l’espressione del gene. Enformer supera i modelli precedenti nella previsione dell’impatto delle varianti genetiche sull’espressione genica, sia nelle varianti genetiche naturali che nelle varianti sintetiche che modificano le sequenze regolatorie critiche. Questa caratteristica aiuta a decifrare il numero crescente di variazioni associate alla malattia scoperte negli studi di associazione sull’intero genoma.

 

Nel 1990, un progetto di ricerca scientifica internazionale, lo Human Genome Project (HGP), ha visto il suo inizio. L’ obiettivo del progetto era la mappatura e la comprensione complete di tutti i geni (genoma) degli esseri umani. Dopo quasi 13 anni, la missione di sequenziare tre miliardi di lettere di DNA nel genoma umano è stata completata nell’aprile 2003. La sequenza completata del Progetto Genoma Umano copre circa il 99% delle regioni contenenti geni del genoma umano ed è stata sequenziata con una precisione di 99,99 per cento. Di seguito è possibile vedere i risultati del progetto nel corso degli anni.

 

Ispirato da HGP, nel 2020, il Ministero della Scienza e della Tecnologia ha lanciato un ambizioso progetto di mappatura genica Genome India Project (GIP) in collaborazione con 20 istituti, tra cui IISc e IIT, per un periodo di tre anni. L’intenzione è quella di costruire una griglia del “genoma di riferimento” indiano per identificare e comprendere il tipo e la natura delle malattie e mappare la diversità genetica in India che alla fine aiuterà nella medicina personalizzata. 


Enformer di DeepMind e vari progetti nazionali e internazionali sono passi verso la comprensione delle complessità della sequenza del genoma. I recenti sviluppi confermano il fatto che l’intelligenza artificiale può svolgere un ruolo molto più ampio quando si tratta di mappatura del “genoma”. Altre iniziative e ricerche in questa direzione possono ulteriormente aiutare nell’esplorazione di nuove possibilità.

Di ihal