I ricercatori dell’Università del Maryland hanno recentemente applicato tecniche di elaborazione del linguaggio naturale e algoritmi di apprendimento automatico per ottenere informazioni su come le molecole proteiche passano da una forma all’altra. Il recente articolo , pubblicato sulla rivista Nature Communications, è la prima volta che un algoritmo di AI viene utilizzato per studiare le dinamiche dei sistemi biomolecolari per quanto riguarda la trasformazione delle proteine.
Le molecole proteiche possono assumere varie forme, ma i meccanismi che spingono una proteina a passare da una forma all’altra sono ancora alquanto misteriosi. La funzione di una molecola proteica è definita dalla sua forma e acquisire una migliore comprensione dei meccanismi che influenzano la forma / struttura di una proteina potrebbe consentire agli scienziati di progettare terapie farmacologiche mirate e determinare la causa delle malattie.
Le molecole biologiche non sono stazionarie, si muovono costantemente in risposta agli eventi nel loro ambiente. Le pressioni ambientali possono far cambiare le molecole in forme diverse, spesso in modo abbastanza improvviso. Una molecola può improvvisamente ripiegarsi in una struttura completamente diversa, in un processo molto simile allo srotolamento di una molla. Diverse porzioni della molecola si aprono e si piegano ei ricercatori hanno studiato le fasi intermedie tra le diverse forme molecolari.
Secondo Phys.org, Pratyush Tiwary era l’autore senior dell’articolo ed è un assistente professore presso il Dipartimento di Chimica e Biochimica del Maryland e Istituto di Scienza Fisica e Tecnologia. Secondo Tiwary, l’elaborazione del linguaggio naturale può essere utilizzata per modellare il modo in cui le molecole si trasformano e si adattano. Tiwary osserva che le molecole hanno un certo “linguaggio” che parlano, con i movimenti che le molecole rendono capaci di essere tradotti in un linguaggio astratto. Quando viene eseguito questo processo di mappatura del movimento delle molecole sui modelli linguistici, è possibile utilizzare tecniche di elaborazione del linguaggio naturale e algoritmi di intelligenza artificiale per “generare storie biologicamente veritiere dalle parole astratte risultanti”.
Quando una molecola passa da una forma all’altra, la transizione avviene estremamente velocemente. La transizione può richiedere solo un trilionesimo di secondo. L’enorme velocità della transizione rende difficile per gli scienziati determinare quali parametri influenzano il processo di dispiegamento utilizzando metodi come la spettroscopia o persino microscopi ad alta potenza. Per determinare quali parametri influiscono sullo sviluppo delle proteine, Tiwary e il resto del team di ricerca hanno creato modelli fisici che simulavano le proteine. Sono stati utilizzati modelli statistici complessi per creare simulazioni di proteine che emulavano la forma, la traiettoria e il movimento delle molecole. I modelli sono stati quindi assegnati a un algoritmo di apprendimento automatico basato su metodi di elaborazione del linguaggio naturale.
I modelli di elaborazione del linguaggio naturale utilizzati per addestrare il sistema di apprendimento automatico erano molto simili agli algoritmi utilizzati nei sistemi di testo predittivo utilizzati da Gmail. Le proteine simulate sono state trattate come un linguaggio in cui i movimenti delle molecole sono stati tradotti in “lettere”. Le lettere sono state poi collegate tra loro per formare parole e frasi. Gli algoritmi di apprendimento automatico sono stati in grado di apprendere le regole grammaticali e sintattiche dietro le strutture proteiche, determinando quali forme / movimenti seguivano altre forme / movimenti. Gli algoritmi potrebbero quindi essere utilizzati per prevedere come alcune proteine si districheranno e quali forme assumeranno.
I ricercatori hanno utilizzato una rete di memoria a lungo termine (LSTM) per analizzare le frasi basate sulle proteine. Il team di ricerca ha anche tenuto traccia della matematica su cui si basava la rete, monitorando i parametri mentre la rete apprendeva le dinamiche della trasformazione molecolare. Secondo i risultati dello studio, la rete utilizzava una logica simile a un concetto di fisica statica noto come entropia del percorso. Se questo risultato rimane costante, potrebbe potenzialmente portare a miglioramenti nelle reti LSTM . Tiwary ha spiegato che la scoperta elimina parte della natura della scatola nera di un LSTM, consentendo ai ricercatori di capire meglio quali parametri possono essere regolati per prestazioni ottimali.
Come banco di prova per il loro algoritmo, i ricercatori hanno analizzato una biomolecola chiamata riboswitch. Riboswitch era già stato analizzato utilizzando la spettroscopia e quando riboswitch è stato analizzato con il sistema di apprendimento automatico, le forme di riboswitch previste corrispondevano a quelle scoperte dalla spettroscopia.
Tiwary spera che le loro scoperte consentiranno ai ricercatori di sviluppare farmaci mirati che hanno meno effetti collaterali. Come Tiwary ha spiegato tramite Phys.org:
“Vuoi avere farmaci potenti che si legano molto fortemente, ma solo alla cosa a cui vuoi che si leghino. Possiamo ottenerlo se riusciamo a comprendere le diverse forme che può assumere una data biomolecola di interesse, perché possiamo produrre farmaci che si legano solo a una di quelle forme specifiche al momento opportuno e solo per il tempo che vogliamo “.