I modelli di linguaggio di grandi dimensioni, conosciuti anche come modelli di base, sono sistemi di intelligenza artificiale che apprendono le nozioni fondamentali da enormi quantità di dati generali e le applicano per svolgere nuove attività, in un processo chiamato apprendimento di trasferimento. Recentemente, questi sistemi hanno attirato l’attenzione del pubblico con il lancio di ChatGPT, un chatbot costruito su un modello di OpenAI.
In uno studio pubblicato sulla rivista Nature, la ricercatrice Gladstone Assistant Investigator Christina Theodoris, MD, PhD, ha sviluppato un modello di base per comprendere le interazioni genetiche. Il nuovo modello, chiamato Geneformer, apprende da una vasta quantità di dati sulle interazioni tra geni provenienti da diversi tessuti umani e utilizza questa conoscenza per fare previsioni sui possibili disfunzionamenti che si verificano nelle malattie.
Theodoris e il suo team hanno utilizzato Geneformer per analizzare il mal funzionamento delle cellule cardiache nelle malattie cardiache. Questo metodo, però, può essere applicato anche ad altri tipi di cellule e malattie.
“Geneformer ha molteplici applicazioni in diversi ambiti della biologia, incluso l’individuazione di possibili bersagli farmacologici per le malattie”, afferma Theodoris, che è anche assistente professore presso il Dipartimento di Pediatria dell’Università della California, San Francisco. “Questo approccio migliorerà notevolmente la nostra capacità di progettare terapie mirate alle reti genetiche nelle malattie in cui i progressi sono stati ostacolati dalla mancanza di dati”.
Theodoris ha sviluppato Geneformer durante il suo dottorato di ricerca sotto la guida di X. Shirley Liu, PhD, ex direttore del Center for Functional Cancer Epigenetics presso il Dana-Farber Cancer Institute, e di Patrick Ellinor, MD, PhD, direttore della Cardiovascular Disease Initiative presso il Broad Institute, entrambi autori dello studio.
Quando alcuni geni sono attivi, scatenano una serie di attività molecolari che influenzano l’attivazione di altri geni, regolandone l’attività verso l’alto o verso il basso. Alcuni di questi geni a loro volta influenzano altri geni o li frenano. Quindi, quando uno scienziato tenta di mappare le connessioni tra un piccolo gruppo di geni correlati, la rete risultante può sembrare un intricato groviglio.
Se mappare le connessioni tra poche dozzine di geni risulta complicato, la sfida diventa ancora più grande nel tentativo di comprendere le connessioni tra i 20.000 geni presenti nel genoma umano. Tuttavia, una mappa di rete così completa fornirebbe ai ricercatori informazioni su come intere reti genetiche cambiano durante le malattie e su come tali cambiamenti possano essere invertiti.
“Se un farmaco agisce su un gene periferico all’interno della rete, può avere un impatto limitato sul funzionamento di una cellula o gestire solo i sintomi di una malattia”, spiega Theodoris. “Ma ripristinando i livelli normali di geni che giocano un ruolo centrale nella rete, è possibile trattare il processo patologico sottostante e avere un impatto molto maggiore”.
Di solito, per mappare le reti genetiche, i ricercatori si affidano a enormi set di dati che includono molte cellule simili. Utilizzano sottoinsiemi di sistemi di intelligenza artificiale, chiamati piattaforme di apprendimento automatico, per analizzare i modelli presenti nei dati. Ad esempio, un algoritmo di apprendimento automatico può essere addestrato su un vasto numero di campioni di pazienti con e senza malattie cardiache, per apprendere i modelli di rete genetica che differenziano i campioni malati da quelli sani.
Tuttavia, i modelli standard di machine learning in biologia vengono addestrati per eseguire solo un singolo compito. Per affrontare un compito diverso, questi modelli devono essere addestrati da zero su nuovi dati. Pertanto, se i ricercatori desiderano ora identificare le cellule malate nei reni, nei polmoni o nel cervello rispetto alle controparti sane, dovrebbero iniziare nuovamente da zero addestrando un nuovo algoritmo con i dati relativi a tali tessuti.
Il problema è che, per alcune malattie, non esistono dati sufficienti per addestrare questi modelli di apprendimento automatico. Nel nuovo studio, Theodoris, Ellinor e i loro colleghi hanno affrontato questo problema utilizzando una tecnica di apprendimento automatico chiamata “apprendimento di trasferimento” per addestrare Geneformer come modello fondamentale, la cui conoscenza di base può essere trasferita a nuovi compiti.
Inizialmente, hanno “pre-addestrato” Geneformer per acquisire una comprensione fondamentale delle interazioni genetiche utilizzando dati sull’attività dei geni in circa 30 milioni di cellule provenienti da diversi tessuti umani.
Per dimostrare l’efficacia dell’approccio di apprendimento di trasferimento, gli scienziati hanno quindi addestrato Geneformer a fare previsioni sulle connessioni tra geni o se la riduzione dei livelli di determinati geni potesse causare malattie. Geneformer è stato in grado di effettuare queste previsioni con una precisione molto maggiore rispetto ad altri approcci grazie alla conoscenza di base acquisita durante il processo di pre-addestramento.
Inoltre, Geneformer è stato in grado di fare previsioni accurate anche quando era stato mostrato solo un numero molto limitato di esempi di dati rilevanti.
“Ciò significa che Geneformer potrebbe essere utilizzato per fare previsioni sulle malattie in cui i progressi della ricerca sono stati lenti a causa della mancanza di set di dati sufficientemente ampi, come le malattie rare e quelle che colpiscono tessuti difficili da campionare in ambito clinico”, conclude Theodoris.