Nel campo delle scienze della vita, stiamo assistendo a una vera e propria rivoluzione nell’intelligenza artificiale (IA). La tecnologia dell’IA ha superato la semplice previsione delle strutture proteiche e ha iniziato a creare nuovi modelli di proteine. Questo progresso sta aprendo nuovi orizzonti in diversi settori della biotecnologia, compresa la ricerca e lo sviluppo di nuovi farmaci.
TechCrunch ha recentemente riportato che Microsoft ha rilasciato un framework chiamato EvoDiff, il quale è open source e permette la creazione di nuove proteine basate su sequenze proteiche specifiche.
Le proteine sono gli elementi fondamentali che costituiscono gli organismi viventi. Con un totale di 20 catene di amminoacidi uniche, il numero di possibili proteine uniche è praticamente infinito, ognuna codificata da una sequenza amminoacidica specifica.
Un approccio generale alla creazione di proteine coinvolge la definizione delle proprietà strutturali come forma, dimensione e funzione di una proteina, seguito dalla creazione di un nuovo design proteico che le corrisponda.
D’altra parte, EvoDiff si concentra sulla creazione di nuove proteine basate solo sulla sequenza degli amminoacidi, senza richiedere informazioni sulla struttura. Questo semplifica notevolmente il processo di progettazione delle proteine poiché non è necessaria una conoscenza dettagliata della struttura della proteina.
Kevin Yang, un ricercatore senior presso Microsoft, ha evidenziato questo aspetto dicendo: “Con EvoDiff, abbiamo dimostrato che in realtà non è necessaria una struttura; ciò di cui abbiamo bisogno è solo la sequenza proteica per poter progettare in modo controllato nuove proteine”.
Questo processo può essere paragonato ai modelli di deep learning addestrati per generare immagini partendo da dati rumorosi, come la diffusione stabile o Dali. In questo caso, se forniamo una sequenza proteica casuale, EvoDiff cerca di trasformarla in una proteina riconoscibile.
EvoDiff si basa su un modello con 640 milioni di parametri addestrato su diversi set di dati proteici di varie specie e classi. Secondo Microsoft, questo framework non solo può generare nuove proteine, ma può anche colmare le “lacune” nella progettazione delle proteine esistenti. Questo perché le proteine vengono progettate nello “spazio delle sequenze” anziché nella struttura tridimensionale finale. Ciò consente la sintesi di “proteine disordinate” che non si ripiegano in una struttura tridimensionale definita.
Le proteine disordinate, come quelle normalmente funzionanti, svolgono un ruolo cruciale in biologia e possono influenzare importanti processi biologici e malattie, contribuendo ad aumentare o diminuire l’attività di altre proteine.
Microsoft ha sottolineato che la ricerca su EvoDiff è ancora nelle prime fasi di sviluppo e che c’è ancora molto lavoro da fare prima che questa tecnologia possa essere commercializzata. Tuttavia, l’azienda è ottimista riguardo al futuro, sottolineando che un modello con miliardi di parametri potrebbe generare proteine di qualità ancora più elevata.