Enformer contro Basenji – Gli algoritmi di intelligenza artificiale per la previsione dell’espressione genica
Enformer, uno strumento di ricerca genetica basato su Transformers, fa avanzare la ricerca genetica prevedendo come le sequenze di DNA influenzano l’espressione genica.
 
DeepMind e Alphabet a Calico hanno introdotto un’architettura di rete neurale chiamata Enformer che ha notevolmente migliorato l’accuratezza della previsione dell’espressione genica basata sulla sequenza del DNA. 

Nel documento “Previsione dell’espressione genica efficace dalla sequenza integrando interazioni a lungo raggio” pubblicato su Nature Methods, DeepMind ha suggerito che Enformer è più accurato di Basenji.

Basenji2 e limitazioni
Gli elementi costitutivi di base dell’espressione genica sono state tipicamente le reti neurali convoluzionali. Tuttavia, sono stati limitati nella loro capacità ed efficacia di modellare a causa degli effetti dei potenziatori distali sull’espressione genica. 

Quindi Deepmind dipende da Basenji2 , costruito su TensorFlow , che offre una varietà di vantaggi, tra cui il calcolo distribuito, una comunità di sviluppatori ampia e adattabile ed è progettato per prevedere segnali quantitativi utilizzando funzioni di perdita di regressione, piuttosto che segnali binari utilizzando funzioni di perdita di classificazione.

La parte migliore di Basenji è che potrebbe prevedere l’attività regolatoria di sequenze di DNA di 40.000 coppie di basi alla volta. 

I progressi di Enformer includono
Enformer , invece, si affida a una tecnica comune all’elaborazione del linguaggio naturale di Google chiamata Transformers per tenere conto dei meccanismi di auto-attenzione che sarebbero in grado di integrare molto più contesto del DNA. Poiché i Transformer possono leggere lunghi passaggi di testo, DeepMind li ha modificati per leggere sequenze di DNA di lunghezza molto estesa. 

Enformer ha superato il miglior team nella valutazione critica della sfida dell’interpretazione del genoma (CAGI5) per l’interpretazione delle varianti non codificanti nonostante nessuna formazione aggiuntiva. Inoltre, Enformer ha imparato a prevedere le interazioni promotore-potenziatore direttamente dalle sequenze di DNA, in competizione con metodi che prendevano dati sperimentali diretti come input.

Nel caso della formazione, DeepMind ha utilizzato Sonnet per costruire reti neurali utilizzate per molti scopi diversi. È definito in enformer.py.


DeepMind ha pre-calcolato i punteggi degli effetti delle varianti per tutte le varianti frequenti (MAF>0,5%, in qualsiasi popolazione) e li ha archiviati in file HDF5 per cromosoma per il genoma di riferimento HG19 nell’ambito del progetto 1000 genomi. Inoltre, forniscono i 20 principali componenti principali dei punteggi dell’effetto variante per cromosoma in un file TSV indicizzato con tabix (genoma di riferimento HG19). Questi file hanno le seguenti colonne:

#CHROM – cromosoma (chr1)
POS – posizione variante (basata su 1)
ID – identificatore dbSNP
REF – allele di riferimento (es. A)
ALT – allele alternativo (es. T)
PC{i} – i-esimo componente principale della previsione dell’effetto variante.
Si spera che questi progressi consentiranno una migliore mappatura delle crescenti associazioni di malattie umane ai meccanismi di regolazione del gene specifico del tipo di cellula e forniranno un quadro per comprendere come funziona l’evoluzione della regolamentazione cis.

Di ihal