Immagine AI

Biohub, l’istituto di ricerca fondato da Mark Zuckerberg e dalla moglie Priscilla Chan, ha reso pubblico un sistema di intelligenza artificiale denominato modello del mondo della biologia delle proteine, una piattaforma capace di comprendere la struttura e la funzione delle proteine e di progettarne di nuove a partire dall’enorme patrimonio di sequenze proteiche generato nel corso dell’evoluzione. Il sistema viene presentato come una tecnologia in grado di modificare il paradigma dello sviluppo di nuovi farmaci e della ricerca sulle terapie delle malattie, e poggia su un’architettura di nuova generazione basata sui modelli a scala evolutiva, l’approccio noto con la sigla ESM, articolato in tre componenti principali che lavorano in modo complementare: il modello linguistico ESMC, il modello di predizione e progettazione strutturale ESMFold2 e l’atlante esplorativo ESM Atlas.

Il cuore concettuale del sistema è ESMC, un modello linguistico delle proteine addestrato su 2,8 miliardi di sequenze proteiche secondo una logica che ricalca da vicino quella dei grandi modelli linguistici applicati al testo. I ricercatori hanno mascherato porzioni delle sequenze proteiche e hanno addestrato il modello a ricostruire le parti nascoste sulla base delle informazioni rimanenti, una tecnica di apprendimento auto-supervisionato che ha prodotto un risultato notevole: senza alcun inserimento esplicito di conoscenza biologica, il modello ha appreso autonomamente le regole fondamentali dei fenomeni vitali, dal ripiegamento delle proteine alle loro interazioni reciproche fino alle loro funzioni. Un elemento particolarmente significativo emerso dall’addestramento è l’individuazione di una legge di scala secondo cui la capacità del modello di comprendere la biologia migliora in modo lineare al crescere della dimensione dell’addestramento, una relazione che ha consentito a ESMC di raggiungere un livello di rappresentazione delle proteine superiore a quello dei modelli di intelligenza artificiale proteica open source preesistenti.

La componente ESMFold2 si occupa della predizione della struttura tridimensionale delle proteine e della progettazione di proteine nuove, e introduce una differenza metodologica sostanziale rispetto ai sistemi di predizione strutturale che l’hanno preceduta. Mentre questi ultimi dipendevano in misura rilevante dall’allineamento di sequenze multiple, ovvero dal confronto della proteina da analizzare con un insieme di proteine simili note, ESMFold2 sfrutta direttamente la rappresentazione delle proteine appresa dal modello linguistico per predire la struttura, eliminando la necessità di disporre di proteine analoghe di riferimento. Questo approccio ha portato a prestazioni di livello mondiale nella predizione delle strutture anticorpo-antigene e nello studio delle interazioni fra proteine, due ambiti che costituiscono il fondamento della progettazione di terapie biologiche.

La validazione sperimentale del sistema rappresenta la parte più concreta del lavoro, perché i ricercatori hanno utilizzato ESMFold2 per progettare con successo nuovi leganti proteici capaci di agganciarsi a proteine bersaglio coinvolte nei tumori e nelle malattie immunitarie, fra cui EGFR, PD-L1, CTLA-4 e CD45, tutte molecole che svolgono un ruolo centrale nelle terapie antitumorali e immunologiche. L’anticorpo a singola catena progettato per colpire PD-L1 ha mostrato negli esperimenti un’affinità di legame elevata, pari a 4,3 nanomolari, e ha bloccato in modo efficace la via PD-1/PD-L1 attraverso cui le cellule tumorali riescono a sopprimere l’azione delle cellule immunitarie. Il dato operativo più rilevante riguarda i tempi, perché il processo iniziale di ricerca degli anticorpi, che in precedenza richiedeva diversi mesi, può ora essere eseguito per via computazionale nell’arco di pochi giorni. La conferma definitiva è arrivata dall’impiego della microscopia crioelettronica, con cui i ricercatori hanno verificato che la proteina progettata dall’intelligenza artificiale si lega effettivamente alla proteina bersaglio nella posizione e nell’orientamento previsti dal modello, una prova che dimostra come il sistema non si limiti a replicare i dati esistenti ma generi strutture biologiche genuinamente nuove.

La terza componente, ESM Atlas, costituisce uno strumento di esplorazione dell’intero universo proteico e contiene 6,8 miliardi di sequenze proteiche insieme a 1,1 miliardi di strutture predette, una mole di dati che consente di individuare relazioni evolutive e somiglianze funzionali fra proteine che non erano precedentemente conosciute. Un esempio significativo di questa capacità riguarda le proteine della famiglia CRISPR impiegate nell’editing genetico, perché il sistema ha collegato autonomamente proteine funzionalmente simili pur in presenza di differenze marcate a livello di sequenza, un comportamento che secondo i ricercatori dimostra come il modello abbia appreso regole comuni che attraversano l’intera varietà degli esseri viventi. La capacità di riconoscere parentele funzionali al di là delle somiglianze superficiali di sequenza apre prospettive concrete per la scoperta di nuove funzioni proteiche e per la riclassificazione del repertorio biologico noto.

Biohub ha scelto di rilasciare l’intero sistema con licenza MIT, una formula che ne consente l’utilizzo libero da parte della comunità dei ricercatori, e ha previsto la distribuzione del modello anche attraverso piattaforme come Bio Discovery di AWS e SandboxAQ, ampliando così i canali di accesso per i gruppi di ricerca privi di infrastrutture computazionali proprie. Priscilla Chan ha spiegato che la capacità predittiva del modello è stata verificata negli ambiti dei tumori e delle malattie immunitarie, e ha espresso l’aspettativa che i ricercatori possano impiegarla per risolvere rapidamente i problemi che incontrano in laboratorio. Sul piano istituzionale, Biohub è l’organizzazione dedicata alle scienze della vita della Chan Zuckerberg Initiative, fondata nel 2015, e ha rafforzato le proprie competenze nella ricerca biologica basata sull’intelligenza artificiale assorbendo lo scorso anno il personale e gli asset della start-up EvolutionaryScale, il gruppo che aveva originariamente sviluppato la famiglia di modelli ESM. La coppia Zuckerberg ha finora destinato alla filantropia oltre 7 miliardi di dollari e ha dichiarato l’intenzione di restituire alla società nel lungo periodo il 99% delle proprie quote in Meta, un impegno che colloca il rilascio di questo sistema all’interno di una strategia più ampia di investimento nella ricerca scientifica di base ad accesso aperto.

Di Fantasy