Un team di ricercatori ha recentemente creato una rete neurale spiegabile destinata ad aiutare i biologi a scoprire le misteriose regole che governano il codice del genoma umano. Il team di ricerca ha addestrato una rete neurale su mappe delle interazioni proteina-DNA, consentendo all’IA di scoprire come determinate sequenze di DNA regolano determinati geni. I ricercatori hanno anche reso il modello spiegabile, in modo da poter analizzare le conclusioni del modello e determinare come sequenziare i motivi per regolare i geni.
Uno dei grandi misteri della biologia è il codice di regolazione del genoma. È noto che il DNA è composto da quattro basi nucleotidiche: adenina, guanina, timina e citosina, ma non è noto come queste coppie di basi vengano utilizzate per regolare l’attività. Le quattro basi nucleotidiche codificano le istruzioni per costruire le proteine, ma controllano anche dove e come vengono espressi i geni (come producono le proteine in un organismo). Particolari combinazioni e disposizioni delle basi creano sezioni di codice regolatorio che si legano a segmenti di DNA, e non si sa esattamente cosa siano queste combinazioni.
Un team interdisciplinare di informatici e biologi ha deciso di risolvere questo mistero creando una rete neurale spiegabile. Il team di ricerca ha creato una rete neurale che hanno soprannominato “Base Pair Network” o “BPNet”. Il modello utilizzato da BPNet per generare previsioni può essere interpretato per identificare i codici normativi. Ciò è stato ottenuto prevedendo come le proteine chiamate fattori di trascrizione si legano alle sequenze di DNA.
I ricercatori hanno eseguito una serie di esperimenti e una modellazione computerizzata completa per determinare come i fattori di trascrizione e il DNA fossero legati insieme, sviluppando una mappa dettagliata fino al livello delle singole basi nucleotidiche. Le rappresentazioni dettagliate del fattore di trascrizione-DNA consentono ai ricercatori di creare strumenti in grado di interpretare sia i pattern critici della sequenza del DNA sia le regole che funzionano come codice regolatorio.
Julia Zeitlinger, biologa PhD e ricercatrice computazionale presso la Stanford University, ha spiegato che i risultati raccolti dalla spiegabile rete neurale si combinavano con i risultati sperimentali esistenti, ma contenevano anche intuizioni sorprendenti sul codice regolatorio del genoma. Ad esempio, il modello AI ha permesso al team di ricerca di scoprire una regola che influenza il funzionamento di un fattore di trascrizione chiamato Nanog. Quando più istanze del motivo Nanog sono presenti sullo stesso lato di una doppia elica del DNA, si legano in modo cooperativo al DNA. Come ha spiegato Zeitlinger tramite ScienceDaily:
“C’è stata una lunga scia di prove sperimentali che tale periodicità dei motivi a volte esiste nel codice normativo. Tuttavia, le circostanze esatte erano sfuggenti e Nanog non era stato un sospetto. Scoprire che Nanog ha un tale schema e vedere ulteriori dettagli delle sue interazioni è stato sorprendente perché non abbiamo cercato specificamente questo schema “.
Il recente documento di ricerca è lontano dal primo studio a utilizzare l’IA per analizzare il DNA, ma è probabilmente il primo studio ad aprire la “scatola nera” dell’IA per discernere quali sequenze di DNA regolano i geni nel genoma. Le reti neurali eccellono nei modelli di risultati all’interno dei dati, ma le loro intuizioni sono difficili da estrarre dai modelli che creano. Creando un metodo di analisi delle caratteristiche che il modello considera importanti per la previsione delle regole genomiche, i ricercatori hanno potuto addestrare modelli più sfumati che portino a nuove scoperte.
L’architettura di BPNet è simile alle reti utilizzate per riconoscere i volti nelle immagini. Quando i sistemi di visione artificiale riconoscono i volti nelle immagini, la rete inizia rilevando i bordi e poi unisce questi bordi insieme. La differenza è che BPNet impara dalle sequenze di DNA, rilevando i motivi della sequenza e unendo questi motivi insieme nelle regole di ordine superiore che possono essere utilizzate per prevedere il legame dei dati alla risoluzione di base.
Dopo che il modello ha raggiunto una soglia di alta precisione, i modelli appresi dal modello vengono ricondotti alle sequenze di input originali, rivelando i motivi della sequenza. Infine, il modello è dotato di query di sequenza del DNA sistematiche, consentendo ai ricercatori di comprendere le regole in base alle quali i motivi di sequenza si combinano e funzionano. Secondo Zeitlinger, il modello è in grado di prevedere molte più sequenze di quelle che i ricercatori potrebbero sperare di testare in modo tradizionale e sperimentale. Inoltre, la previsione del risultato di anomalie sperimentali ha consentito ai ricercatori di identificare quali esperimenti erano più informativi durante la convalida del modello.