Negli ultimi tempi, i modelli di fondazione o modelli “generalisti” sono emersi come forze dominanti nel campo dell’intelligenza artificiale. Questi modelli sono addestrati su enormi set di dati e sono in grado di svolgere una vasta gamma di attività in modo non supervisionato. Grazie alla loro versatilità e alle profonde capacità di elaborazione del linguaggio, visione artificiale e comprensione visiva, questi modelli si sono dimostrati abili nell’apprendimento di diversi compiti in settori come la robotica, la visione artificiale e l’elaborazione del linguaggio naturale.
Nonostante i successi dei Large Language Models (LLM) nell’affrontare una serie di applicazioni, come la robotica, la visione artificiale e l’elaborazione del linguaggio naturale, la loro capacità di generalizzazione a problemi che riguardano campi complessi come la biologia è ancora un argomento aperto.
Secondo alcuni ricercatori dell’Università del Texas, dell’Università del Massachusetts Amherst e dell’Health Science Center dell’Università del Texas, i LLM, che attingono principalmente dalla letteratura non strutturata, potrebbero rappresentare un nuovo approccio per prevedere problemi biologici caratterizzati da campioni di dimensioni ridotte e mancanza di dati strutturati.
Nel campo della previsione biologica a pochi colpi, un problema comune ma cruciale è la previsione della sinergia tra coppie di farmaci in diversi tipi di cancro che sono stati poco studiati.
Oggi, l’uso di combinazioni di farmaci nella terapia è una pratica comune per trattare malattie difficili da curare, come il cancro, le infezioni infettive e i disturbi neurologici. Spesso, la terapia combinata produce risultati terapeutici migliori rispetto alla somministrazione di un singolo farmaco. Pertanto, la previsione dell’efficacia delle combinazioni di farmaci è diventata uno dei principali obiettivi nella ricerca e nello sviluppo di nuovi farmaci.
La sinergia tra coppie di farmaci descrive come la combinazione di due farmaci possa avere un effetto terapeutico più potente rispetto all’uso di ciascun farmaco singolarmente.
Tuttavia, la previsione accurata della sinergia di una coppia di farmaci è un compito estremamente difficile a causa del gran numero di possibili combinazioni e della complessità dei sistemi biologici coinvolti.
Per affrontare questa sfida, sono stati sviluppati numerosi algoritmi computazionali, in particolare quelli basati sull’apprendimento automatico. Tuttavia, per alcuni tipi di tessuti, come le ossa e i tessuti molli, sono disponibili solo pochi dati sperimentali.
Al contrario, la maggior parte dei dati si concentra sui tipi di cancro prevalenti in specifici tessuti, come il tumore al seno e il tumore al polmone. I modelli di machine learning basati su grandi set di dati potrebbero richiedere un supporto durante la fase di addestramento.
I primi studi hanno generalizzato la valutazione delle combinazioni di farmaci su linee cellulari in vari tessuti, basandosi su informazioni relazionali o contestuali, senza tenere conto delle differenze molecolari e cellulari tra questi tessuti.
Un’altra area di ricerca si è concentrata sulla riduzione delle differenze tra i tessuti utilizzando informazioni diverse e altamente dimensionali, come i profili chimici o genetici.
Inoltre, sono stati fatti sforzi per affrontare il problema affrontato in precedenza dai LLM in questo ambito. I ricercatori affermano che nonostante la mancanza di dati strutturati e le caratteristiche contraddittorie, la ricerca scientifica fornisce comunque dettagli utili su molti tipi di cancro.
La raccolta manuale di informazioni prognostiche da tali fonti biologiche nella letteratura risulta difficile. Il loro approccio unico consiste nell’utilizzare i dati di pubblicazioni scientifiche precedentemente immagazzinate nei LLM.
Il modello che hanno sviluppato per prevedere la sinergia tra coppie di farmaci si basa sull’inferenza del linguaggio naturale e genera risposte basate sulla conoscenza contenuta nei LLM. Questo modello trasforma il problema della previsione in una sfida di elaborazione del linguaggio naturale.
Secondo i risultati sperimentali ottenuti, il loro modello LLM per la previsione a pochi colpi ha superato i metodi di previsione tradizionali nella maggior parte dei casi ed è stato notevolmente accurato anche in condizioni di scarsa disponibilità di dati.
Questa straordinaria capacità predittiva a pochi colpi in alcuni dei compiti di previsione biologica più complessi ha un significato significativo per la vasta comunità biomedica, in quanto evidenzia il grande potenziale dell’intelligenza artificiale “generalista” nel campo biomedico.