In un mondo in cui la scienza richiede sempre più tempo, risorse e costi crescenti, la Chan Zuckerberg Initiative (CZI) decide di ribaltare le regole del gioco. Con l’introduzione di rBio, il primo modello di intelligenza artificiale in grado di ragionare sulla biologia cellulare utilizzando simulazioni virtuali, l’innovazione diventa reale: un salto epocale che apre nuove strade alla ricerca e alla scoperta farmaceutica senza dipendere da costosi test di laboratorio.
Nel tradizionale paradigma della biologia, il 90% del lavoro richiede esperimenti in laboratorio, lasciando solo una minima parte all’analisi computazionale. Ma il team guidato da Ana‑Maria Istrate desidera ribaltare questa statistica. Grazie a rBio, si possono testare ipotesi biologiche — come la relazione tra il silenziamento di un gene e l’attivazione di un altro — completamente online, senza attendere mesi o affrontare costi enormi
Modelli biologici sofisticati come GREmLN e TranscriptFormer sono potenti, ma difficili da interrogare: esigono prompt complessi e competenze tecniche specifiche. rBio cambia le carte in tavola: distilla la conoscenza di «TranscriptFormer» — addestrato su 112 milioni di cellule appartenenti a 12 specie diverse, in un arco temporale evolutivo di 1,5 miliardi di anni — in un’interfaccia conversazionale che permette agli scienziati di fare domande complesse in inglese semplice.
L’elemento più rivoluzionario di rBio è la sua modalità di apprendimento. Invece di basarsi su risposte binarie — giuste o sbagliate — utilizza la “soft verification”, ossia un sistema che valuta le risposte secondo la probabilità di correttezza, grazie a segnali derivati da simulazioni cellulari virtuali. Si tratta di un approccio di reinforcement learning con ricompense proporzionali, che consente al modello di ragionare con sfumature — proprio come farebbe un ricercatore — piuttosto che con vere o false rigidità.
I numeri parlano chiaro: su dataset di riferimento come PerturbQA, rBio ha dimostrato performance pari o superiori a modelli addestrati con dati di laboratorio reali. In particolare, la sua abilità di generalizzare su linee cellulari diverse lo ha reso più flessibile e affidabile, anche senza dati sperimentali specifici. Inoltre, l’adozione di tecniche come il chain‑of‑thought prompting, che stimola il pensiero passo dopo passo, ha permesso al modello di ottenere risultati migliori rispetto al precedente leader SUMMER.
Il lancio di rBio non è solo una svolta tecnologica: testimonia la trasformazione dello scopo di CZI. Fondata da Priscilla Chan e Mark Zuckerberg, l’iniziativa ha investito miliardi nella convergenza tra AI e biologia con l’obiettivo ambizioso di curare, prevenire e gestire tutte le malattie entro la fine del secolo.
Un altro pilastro del progetto è l’accessibilità: tutti i modelli, incluso rBio, sono open‑source e disponibili attraverso la piattaforma Virtual Cell Platform, con tutorial utilizzabili anche su Google Colab gratuitamente. Questo approccio democratizza l’intelligenza artificiale biomedica, rendendola accessibile anche a istituti di ricerca più piccoli o startup con budget limitati.
Un altro elemento strategico è la cura dei dati: attraverso la repository CZ CELLxGENE, CZI ha costruito dataset di single-cell transcriptomics caratterizzati da alta qualità, ampia diversità di tipi cellulari, tessuti e popolazioni umane. Questo rappresenta un vantaggio cruciale rispetto a molti modelli commerciali basati su dati pubblici potenzialmente distorti.
Il futuro è già in cantiere: l’obiettivo è integrare più domini biologici — dal gene alla proteina, fino all’immagine — in modelli virtuali integrati capaci di rispondere a domande complesse in un unico spazio di ragionamento. Le prime sperimentazioni mescolano TranscriptFormer con reti neurali specializzate e database come Gene Ontology, ottenendo performance superiori rispetto ai modelli monodimensionali.
Pur promettente, rBio non è privo di sfide: al momento si concentra su predizioni legate alla perturbazione genica, e i ricercatori stanno lavorando per migliorare l’esperienza utente e assicurare un corretto funzionamento entro le aree di competenza del modello. Evitare risposte fuorvianti o “hallucinate” resta una priorità nella fase di sviluppo.
Ma l’impatto potenziale è enorme: immagina ridurre da decenni a giorni la fase iniziale della scoperta farmaceutica, con costi abbattuti e tempi compressi. Per malattie neurodegenerative come l’Alzheimer, questo significa poter anticipare le cause, intervenire e forse, un giorno, prevenirle.