Il nuovo Machine Learning mappa i potenziali delle proteine
In una collaborazione unica, DTU Compute e DIKU hanno creato una nuova tecnologia che può aiutare l’industria biotecnologica a sviluppare nuove proteine ​​più velocemente.

 

L’industria biotecnologica è costantemente alla ricerca della mutazione perfetta, in cui le proprietà di diverse proteine ​​vengono combinate sinteticamente per ottenere l’effetto desiderato. Potrebbe essere necessario sviluppare nuovi farmaci o enzimi che prolunghino la durata di conservazione dello yogurt, scompongano la plastica in natura o rendano efficace il detersivo in polvere a bassa temperatura dell’acqua.

Una nuova ricerca della DTU Compute e del Dipartimento di Informatica dell’Università di Copenaghen (DIKU) può a lungo termine aiutare l’industria ad accelerare il processo. Sulla rivista  Nature Communications , i ricercatori spiegano  come un nuovo modo di utilizzare il Machine Learning (ML) disegna una mappa delle proteine, che consente di nominare un elenco di proteine ​​candidate che è necessario esaminare più da vicino.

Negli ultimi anni, abbiamo iniziato a utilizzare l’apprendimento automatico per creare un’immagine delle mutazioni consentite nelle proteine. Il problema è, tuttavia, che si ottengono immagini diverse a seconda del metodo utilizzato e, anche se si allena lo stesso modello più volte, può fornire risposte diverse su come è correlata la biologia.

“Nel nostro lavoro, stiamo esaminando come rendere questo processo più solido e stiamo dimostrando che è possibile estrarre molte più informazioni biologiche di quelle che si potevano ottenere in precedenza. Questo è un importante passo avanti per poter esplorare il panorama delle mutazioni nella ricerca di proteine ​​con proprietà speciali”, afferma il postdoc Nicki Skafte Detlefsen della sezione Cognitive Systems presso DTU Compute.

La mappa delle proteine
​​Una proteina è una catena di aminoacidi e si verifica una mutazione quando uno solo di questi aminoacidi nella catena viene sostituito con un altro. Poiché ci sono 20 aminoacidi naturali, ciò significa che il numero di mutazioni aumenta così rapidamente che è completamente impossibile studiarli tutti. Ci sono più mutazioni possibili che atomi nell’universo, anche se si osservano le proteine ​​semplici. Non è possibile testare tutto in modo sperimentale, quindi devi essere selettivo su quali proteine ​​vuoi provare a produrre sinteticamente.

I ricercatori di DIKU e DTU Compute hanno utilizzato il loro modello ML per generare un’immagine di come le proteine ​​sono collegate. Presentando il modello per molti esempi di sequenze proteiche, impara a disegnare una carta con un punto per ciascuna proteina in modo che le proteine ​​strettamente correlate siano poste l’una vicino all’altra mentre le proteine ​​​​distanti sono poste l’una distante dall’altra.

Il modello ML si basa sulla matematica e sulla geometria sviluppate per disegnare mappe. Immagina di dover creare una mappa del globo. Se ingrandisci la Danimarca, puoi facilmente disegnare una mappa su un pezzo di carta che conserva la geografia. Ma se devi disegnare la terra, si verificheranno degli errori perché allunghi il globo, in modo che l’Artico diventi un paese lungo invece che un polo. Quindi, sulla mappa, la terra è distorta. Per questo motivo, la ricerca nella creazione di mappe ha sviluppato molta matematica che descrive le distorsioni e compensa le distorsioni sulla mappa.

Questa è esattamente la teoria che DIKU e DTU Compute sono state in grado di espandere per coprire il loro modello di Machine Learning (deep learning) per le proteine. Poiché hanno padroneggiato la distorsione sulla mappa, possono anche compensarla.

“Ci consente di parlare di quale sia un obiettivo di distanza sensibile tra proteine ​​strettamente correlate, e quindi possiamo improvvisamente misurarlo. In questo modo, possiamo tracciare un percorso attraverso la mappa delle proteine ​​che ci dice in che modo ci aspettiamo una proteina per svilupparsi da un’altra, cioè mutata, poiché sono tutte legate all’evoluzione. In questo modo, il modello ML può misurare una distanza tra le proteine ​​e tracciare percorsi ottimali tra proteine ​​promettenti”, afferma Wouter Boomsma, professore associato nel sezione per Machine Learning presso DIKU.

I ricercatori hanno testato il modello sui dati di numerose proteine ​​che si trovano in natura, dove la loro struttura è nota, e possono vedere che la distanza tra le proteine ​​inizia a corrispondere allo sviluppo evolutivo delle proteine, così che le proteine ​​vicine a evolutivamente sono posti l’uno vicino all’altro.

“Ora siamo in grado di inserire due proteine ​​​​sulla mappa e tracciare la curva tra di loro. Sul percorso tra le due proteine ​​sono possibili proteine, che hanno proprietà strettamente correlate. Questa non è una garanzia, ma offre l’opportunità di avere un’ipotesi su quali proteine ​​potrebbe essere che l’industria biotecnologica dovrebbe testare quando vengono progettate nuove proteine”, afferma Søren Hauberg, professore nella sezione Cognitive Systems presso DTU Compute.

La collaborazione unica tra DTU Compute e DIKU è stata stabilita attraverso un nuovo centro per l’apprendimento automatico nelle scienze della vita (MLLS), avviato lo scorso anno con il supporto della Novo Nordisk Foundation. Al centro, i ricercatori di intelligenza artificiale di entrambe le università stanno lavorando insieme per risolvere i problemi fondamentali del Machine Learning guidati da questioni importanti nel campo della biologia.

Le mappe proteiche sviluppate fanno parte di un progetto su larga scala che va dalla ricerca di base alle applicazioni industriali, ad esempio in collaborazione con Novozymes e Novo Nordisk.

FACT BOX: Intelligenza artificiale, machine learning e deep learning

Quando i programmi per computer sono in grado di fare qualcosa di “intelligente”, si parla di intelligenza artificiale, o semplicemente IA. L’intelligenza artificiale è quindi un concetto unificato che copre diversi metodi.
Uno dei metodi è il Machine Learning e l’uso più recente e più avanzato di Machine Learning è chiamato Deep Learning.

Il Deep Learning si basa su reti neurali, che è un modello matematico, in cui il modello stesso da un determinato set di dati e senza programmazione diretta può imparare a trovare modelli nei dati. Poiché utilizzi i dati, viene chiamato modello basato sui dati.

Nell’apprendimento non supervisionato, l’obiettivo è addestrare una rete neurale per scoprire i modelli sottostanti nei dati. Questo viene in genere fatto tentando di comprimere i dati, perché in tal modo rifiuta le tendenze nei dati che sono meno frequenti, mentre i dati più importanti occupano più informazioni, in modo da poter vedere i modelli sottostanti.

Attraverso molte ripetizioni, la rete apprende quali schemi di dati possono essere utilizzati per comprimere i dati.

Una volta che il modello è stato addestrato, viene testato su dati sconosciuti, che poi possono anche essere compressi in una rappresentazione compatta che può essere interpretata per formare ipotesi scientifiche o costituire la base per altri modelli di Machine Learning.

Di ihal