La tecnologia AI genera proteine ​​originali da zero
Il modello del linguaggio naturale avvia la progettazione delle proteine ​​con la creazione di enzimi attivi

 

Gli scienziati hanno creato un sistema di intelligenza artificiale in grado di generare da zero enzimi artificiali. Nei test di laboratorio, alcuni di questi enzimi hanno funzionato bene come quelli che si trovano in natura, anche quando le loro sequenze di aminoacidi generate artificialmente differivano significativamente da qualsiasi proteina naturale conosciuta. 
 
L’esperimento dimostra che l’elaborazione del linguaggio naturale, sebbene sia stata sviluppata per leggere e scrivere testi linguistici, può apprendere almeno alcuni dei principi alla base della biologia. Salesforce Research ha sviluppato il programma AI, chiamato ProGen, che utilizza la previsione del token successivo per assemblare sequenze di aminoacidi in proteine ​​artificiali.  
 
Gli scienziati hanno affermato che la nuova tecnologia potrebbe diventare più potente dell’evoluzione diretta, la tecnologia di progettazione proteica vincitrice del premio Nobel, e darà energia al campo dell’ingegneria proteica vecchio di 50 anni accelerando lo sviluppo di nuove proteine ​​che possono essere utilizzate per quasi tutto dalla terapeutica alla plastica degradante. 
 
“I progetti artificiali funzionano molto meglio dei progetti ispirati al processo evolutivo”, ha affermato  James Fraser , PhD, professore di bioingegneria e scienze terapeutiche presso la School of Pharmacy dell’UCSF e autore del lavoro, pubblicato il 26 gennaio. , in  Nature Biotechnology . Una versione precedente del documento era disponibile sul server di prestampa  BiorXiv dal luglio del 2021, dove ha raccolto diverse dozzine di citazioni prima di essere pubblicato in una rivista peer-reviewed.  
 
“Il modello linguistico sta imparando aspetti dell’evoluzione, ma è diverso dal normale processo evolutivo”, ha detto Fraser. “Ora abbiamo la possibilità di ottimizzare la generazione di queste proprietà per effetti specifici. Ad esempio, un enzima che è incredibilmente termostabile o ama gli ambienti acidi o non interagisce con altre proteine. 
 
Per creare il modello, gli scienziati hanno semplicemente inserito le sequenze di aminoacidi di 280 milioni di diverse proteine ​​di tutti i tipi nel modello di apprendimento automatico e hanno lasciato che digerisse le informazioni per un paio di settimane. Quindi, hanno messo a punto il modello innescandolo con 56.000 sequenze di cinque famiglie di lisozimi, insieme ad alcune informazioni contestuali su queste proteine.  
 
Il modello ha generato rapidamente un milione di sequenze e il team di ricerca ne ha selezionate 100 da testare, in base a quanto assomigliavano alle sequenze delle proteine ​​naturali, nonché a quanto fossero naturalistiche la “grammatica” e la “semantica” degli amminoacidi alla base delle proteine ​​AI.  
 
Da questo primo lotto di 100 proteine, che sono state vagliate in vitro da Tierra Biosciences, il team ha prodotto cinque proteine ​​artificiali da testare nelle cellule e ha confrontato la loro attività con un enzima presente nel bianco delle uova di gallina, noto come lisozima dell’albume di gallina. (HEWL). Lisozimi simili si trovano nelle lacrime umane, nella saliva e nel latte, dove difendono da batteri e funghi.  
 
Due degli enzimi artificiali sono stati in grado di abbattere le pareti cellulari dei batteri con un’attività paragonabile a HEWL, ma le loro sequenze erano identiche tra loro solo per il 18% circa. Le due sequenze erano circa il 90% e il 70% identiche a qualsiasi proteina nota. 
 
Solo una mutazione in una proteina naturale può farla smettere di funzionare, ma in un diverso ciclo di screening, il team ha scoperto che gli enzimi generati dall’intelligenza artificiale mostravano attività anche quando solo il 31,4% della loro sequenza assomigliava a qualsiasi proteina naturale conosciuta.  
 
L’intelligenza artificiale è stata persino in grado di apprendere come dovrebbero essere modellati gli enzimi, semplicemente studiando i dati grezzi della sequenza. Misurate con la cristallografia a raggi X, le strutture atomiche delle proteine ​​artificiali sembravano esattamente come dovrebbero, anche se le sequenze non erano mai state viste prima.  
 
Salesforce Research ha sviluppato ProGen nel 2020, sulla base di una sorta di programmazione in linguaggio naturale che i loro ricercatori avevano originariamente sviluppato per generare testo in lingua inglese.  
 
Sapevano dal loro lavoro precedente che il sistema di intelligenza artificiale poteva insegnare da solo la grammatica e il significato delle parole, insieme ad altre regole sottostanti che rendono la scrittura ben composta.  
 
“Quando si addestrano modelli basati su sequenze con molti dati, sono davvero potenti nell’apprendimento della struttura e delle regole”, ha affermato Nikhil Naik, PhD, direttore della ricerca AI presso Salesforce Research e autore senior dell’articolo. “Imparano quali parole possono coesistere e anche la composizionalità”. 
 
Con le proteine, le scelte progettuali erano quasi illimitate. I lisozimi sono piccoli come le proteine, con un massimo di circa 300 amminoacidi. Ma con 20 amminoacidi possibili, esiste un numero enorme (20 300 ) di possibili combinazioni. È più grande che prendere tutti gli umani vissuti nel tempo, moltiplicati per il numero di granelli di sabbia sulla Terra, moltiplicati per il numero di atomi nell’universo.  
 
Date le possibilità illimitate, è straordinario che il modello possa generare così facilmente enzimi funzionanti.  
 
“La capacità di generare proteine ​​funzionali da zero e fuori dagli schemi dimostra che stiamo entrando in una nuova era della progettazione delle proteine”, ha affermato Ali Madani, PhD, fondatore di Profluent Bio, ex ricercatore presso Salesforce Research e autore del documento primo autore. “Questo è un nuovo strumento versatile a disposizione degli ingegneri proteici e non vediamo l’ora di vedere le applicazioni terapeutiche”.  
 
Si prega di consultare il documento per un elenco completo degli autori e dei finanziamenti. Una base di codice completa per i metodi descritti nel documento è pubblicamente disponibile su  https://github.com/salesforce/progen .  

 

Informazioni su UCSF:  L’Università della California, San Francisco (UCSF) si concentra esclusivamente sulle scienze della salute e si dedica alla promozione della salute in tutto il mondo attraverso la ricerca biomedica avanzata, l’istruzione di livello universitario nelle scienze della vita e nelle professioni sanitarie e l’eccellenza nella cura del paziente. UCSF Health , che funge da principale centro medico accademico dell’UCSF, comprende  ospedali specializzati di alto livello  e altri programmi clinici e ha affiliazioni in tutta la Bay Area. La UCSF School of Medicine ha anche un campus regionale a Fresno. Scopri di più su  https://ucsf.edu o consulta la nostra  scheda informativa .

Di ihal