Nvidia e Harvard sviluppano uno strumento di intelligenza artificiale che accelera l’analisi del genoma
I ricercatori affiliati a Nvidia e Harvard oggi hanno descritto in dettaglio AtacWorks, un kit di strumenti di apprendimento automatico progettato per ridurre i costi e il tempo necessari per esperimenti rari e unicellulari. In uno studio pubblicato sulla rivista Nature Communications , i coautori hanno dimostrato che AtacWorks può eseguire analisi su un intero genoma in appena mezz’ora rispetto alle più ore impiegate dai metodi tradizionali.
La maggior parte delle cellule del corpo trasporta una copia completa del DNA di una persona, con miliardi di paia di basi stipate nel nucleo. Ma una singola cellula estrae solo la sottosezione di componenti genetiche di cui ha bisogno per funzionare, con tipi di cellule come fegato, sangue o cellule della pelle che utilizzano geni diversi. Le regioni del DNA che determinano la funzione di una cellula sono facilmente accessibili, più o meno, mentre il resto è schermato attorno alle proteine.
AtacWorks, disponibile dall’hub NGC di Nvidia del software ottimizzato per GPU, funziona con ATAC-seq, un metodo per trovare aree aperte nel genoma nelle cellule sperimentato dal professore di Harvard Jason Buenrostro, uno dei coautori dell’articolo. ATAC-seq misura l’intensità di un segnale in ogni punto del genoma. I picchi nel segnale corrispondono a regioni con DNA in modo tale che meno cellule disponibili, più rumorosi appaiono i dati, rendendo difficile identificare quali aree del DNA sono accessibili.
L’ATAC-seq richiede tipicamente decine di migliaia di cellule per ottenere un segnale pulito. L’applicazione di AtacWorks produce la stessa qualità di risultati con solo decine di celle, secondo i coautori.
AtacWorks è stato addestrato su coppie etichettate di set di dati ATAC-seq corrispondenti, uno di alta qualità e uno rumoroso. Data una copia sottocampionata dei dati, il modello ha imparato a prevedere una versione accurata di alta qualità e identificare i picchi nel segnale. Utilizzando AtacWorks, i ricercatori hanno scoperto di poter individuare la cromatina accessibile, un complesso di DNA e proteine la cui funzione primaria è il confezionamento di lunghe molecole in strutture più compatte, in una sequenza rumorosa di 1 milione di letture quasi come i metodi tradizionali hanno fatto con un set di dati pulito di 50 milioni di letture.
AtacWorks potrebbe consentire agli scienziati di condurre ricerche con un numero inferiore di cellule, riducendo il costo della raccolta e del sequenziamento dei campioni. Anche l’analisi potrebbe diventare più veloce ed economica. In esecuzione su GPU Nvidia Tensor Core, AtacWorks ha impiegato meno di 30 minuti per inferenza su un genoma, un processo che richiederebbe 15 ore su un sistema con 32 core di CPU.
Nel documento di Nature Communications , i ricercatori di Harvard hanno applicato AtacWorks a un set di dati di cellule staminali che producono globuli rossi e bianchi, sottotipi rari che non possono essere studiati con metodi tradizionali. Con un campione di sole 50 cellule, il team è stato in grado di utilizzare AtacWorks per identificare regioni distinte di DNA associate a cellule che si sviluppano in globuli bianchi e sequenze separate correlate ai globuli rossi.
“Con tipi di cellule molto rari, non è possibile studiare le differenze nel loro DNA utilizzando metodi esistenti”, ha detto il ricercatore di Nvidia Avantika Lal, primo autore dell’articolo. “AtacWorks può aiutare non solo a ridurre i costi di raccolta dei dati sull’accessibilità della cromatina, ma anche ad aprire nuove possibilità nella scoperta di farmaci e nella diagnostica”.