Il settore della scoperta di farmaci basata sull’Intelligenza Artificiale ha promesso per anni una rivoluzione, offrendo la prospettiva di identificare nuovi trattamenti in una frazione del tempo e del costo richiesto dai metodi tradizionali. Tuttavia, l’effettiva realizzazione di questo potenziale è stata frenata da un ostacolo apparentemente semplice, ma profondamente complesso: la qualità insufficiente dei dati. I modelli di AI, pur essendo affamati di informazioni, non riescono a fare previsioni affidabili su come le molecole farmaco-simili influenzeranno i sistemi biologici reali a causa della frammentazione, della non standardizzazione e della scarsa riproducibilità dei dataset esistenti.
È in risposta a questa sfida che Ginkgo Datapoints, una divisione di Ginkgo Bioworks, ha lanciato un’iniziativa ambiziosa e apertamente collaborativa: la Virtual Cell Pharmacology Initiative (VCPI). Questo progetto non si limita a promettere una maggiore quantità di dati, ma si impegna a fornire dati di qualità superiore e creati appositamente per addestrare modelli predittivi avanzati, le cosiddette cellule virtuali.
Per troppo tempo, il mantra nella ricerca sull’AI è stato “più dati è meglio”. Tuttavia, nel campo della farmacologia computazionale, la verità è che i modelli di AI addestrati su dati imprecisi o misurati in modo incoerente producono previsioni inaffidabili. Le cellule virtuali, che sono repliche digitali delle cellule biologiche, hanno un potenziale enorme per segnalare tossicità o scoprire percorsi molecolari in modo rapido, ma necessitano di un terreno di addestramento solido e standardizzato per crescere.
VCPI si propone di colmare questa lacuna. L’obiettivo dichiarato è generare oltre dodici miliardi di punti dati farmacologici e profilare almeno centomila composti, creando il primo dataset farmacologico standardizzato e ottimizzato per la modellazione cellulare virtuale.
La superiorità dei dati VCPI risiede nella metodologia di generazione. Invece di fare affidamento su assay cellulari raggruppati, che possono portare a un segnale confuso a causa del “rumore di fondo”, VCPI impiega la tecnologia DRUG-seq. Questo è un metodo di sequenziamento RNA ad alta produttività in cui ogni composto viene trattato in una cella isolata e codificata a barre, consentendo a Ginkgo di misurare le risposte specifiche al trattamento con un rapporto segnale-rumore di gran lunga superiore a quello offerto dai design raggruppati.
Uno degli aspetti più inusuali e progressisti di VCPI è la sua natura apertamente collaborativa e community-driven. Invece di rilasciare una risorsa finita, Ginkgo ha scelto di coinvolgere la comunità scientifica prima della creazione effettiva dei dati. Ricercatori, aziende farmaceutiche e sviluppatori di AI sono invitati a contribuire attivamente, aiutando a determinare quali composti siano più rilevanti da testare e a plasmare la risorsa sin dalle fondamenta.
Questa governance non tradizionale incentiva l’impegno attivo rispetto al semplice download passivo, garantendo che il dataset risultante sia massimamente utile e pertinente per i bisogni reali del settore. Ginkgo non solo offre questa base di dati come open source, ma mette a disposizione gratuitamente le sue infrastrutture di automazione da oltre un miliardo di dollari per generare questi dati, un’iniziativa che mira a eliminare un collo di bottiglia fondamentale per la ricerca biologica su scala globale.
VCPI rappresenta un cambiamento filosofico cruciale. È una scommessa sulla convinzione che la qualità e la quantità possano coesistere, purché la generazione dei dati sia mirata e tecnologicamente all’avanguardia. Mettendo a disposizione un flusso costante di dati farmacologici puliti, riproducibili e standardizzati, l’iniziativa mira a costruire l’ambiente strutturato e affidabile necessario affinché le cellule virtuali possano fiorire.
Se i modelli AI diventeranno davvero motori predittivi affidabili, capaci di classificare composti, identificare tossicità o illuminare percorsi biologici prima ancora che un ricercatore tocchi una provetta, sarà grazie a progetti come VCPI. Essi non solo accelerano la fase di scoperta dei farmaci, ma riducono anche i rischi e i costi associati allo sviluppo precoce. Ginkgo, attraverso VCPI, non sta solo condividendo dati, ma sta costruendo il linguaggio comune e la base di conoscenza essenziale di cui l’intelligenza artificiale ha bisogno per mantenere la sua promessa di trasformare radicalmente la medicina.
