L’intelligenza artificiale epistemica impiega algoritmi di elaborazione del linguaggio naturale (NLP) all’avanguardia , machine learning e algoritmi di apprendimento profondo per mappare le relazioni tra un corpo crescente di conoscenze biomediche, provenienti da più fonti pubbliche e private, inclusi documenti di testo e database. Attraverso un processo di Knowledge Mapping, gli utenti lavorano in modo interattivo con la piattaforma per mappare e comprendere sottoinsiemi di conoscenze biomediche, che rivelano concetti e relazioni e che altrimenti andrebbero persi con la ricerca tradizionale.
Abbiamo intervistato entrambi i cofondatori dell’IA epistemica per discutere di questi ultimi progressi.
Stefano Pacifico proviene da oltre 10 anni nello sviluppo di AI e NLP applicati. Precedentemente a Bloomberg, dove ha trascorso 7 anni, ed era alla Elemental Cognition prima di iniziare Epistemic.
David Heeger è un professore d’argento di data science e neuroscienze alla New York University e ha trascorso la sua carriera a fare da ponte tra informatica, intelligenza artificiale e bioscienza. È membro della National Academy of Sciences. Come fondatori riuniscono le competenze nella costruzione di sistemi di IA e PNL su larga scala applicati per comprendere grandi raccolte di conoscenze, con esperienza in biologia computazionale e scienze biomediche da anni di ricerca nell’area.
Cos’è che ti ha introdotto e attratto dall’intelligenza artificiale e dall’elaborazione del linguaggio naturale (PNL)?
Stefano Pacifico: Quando ero al college a Roma, e l’IA non era affatto popolare (in effetti era molto marginale), ho chiesto al mio allora consulente quale specializzazione avrei dovuto prendere tra quelle disponibili. Ha detto: “Se vuoi fare soldi, ingegneria del software e database, ma se vuoi essere strano ma molto avanzato, scegli Intelligenza artificiale”. Sono stato venduto a “strano”. Ho quindi iniziato a lavorare sulla rappresentazione della conoscenza e sul ragionamento per studiare come agenti autonomi potevano giocare a calcio o salvare le persone. Quindi due realizzazioni mi hanno fatto innamorare della PNL: in primo luogo, gli agenti autonomi potrebbero dover comunicare con il linguaggio naturale tra loro! In secondo luogo, costruire manualmente basi di conoscenza formali è difficile, mentre il linguaggio naturale (nel testo) fornisce già la base di conoscenze più ampia di tutte. So che oggi potrebbero sembrare ovvie osservazioni,
Qual è stata l’ispirazione dietro il lancio dell’IA epistemica?
Stefano Pacifico: Vado a fare una richiesta audace. Nessuno oggi dispone di strumenti adeguati per comprendere e collegare le conoscenze presenti in raccolte di documenti e dati sempre più ampie. In precedenza avevo lavorato su questo problema nel mondo della finanza. Pensa a notizie, bilanci, dati sui prezzi, azioni aziendali, limatura, ecc. Ho trovato questo problema inebriante. E, naturalmente, è un problema difficile; e importante! Quando ho incontrato il mio co-fondatore, il dottor David Heeger, abbiamo trascorso parecchio tempo a valutare le opportunità di avvio nel settore biomedicale. Quando ci siamo resi conto dell’enorme volume di informazioni generate in questo campo, è come se tutto fosse caduto nel posto giusto. I ricercatori biomedici lottano contro il sovraccarico di informazioni, mentre tentano di confrontarsi con la vasta e rapida espansione della conoscenza biomedica, compresi i documenti (ad es. documenti, brevetti, studi clinici) e banche dati (ad es. geni, proteine, percorsi, farmaci, malattie, termini medici). Questo è un grave punto dolente per i ricercatori e, senza una soluzione adeguata disponibile, sono costretti a utilizzare strumenti di ricerca di base (PubMed e Google Scholar) ed esplorare database curati manualmente. Questi strumenti sono adatti per trovare documenti corrispondenti a parole chiave (ad es. Un singolo gene o un giornale di giornale pubblicato), ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad es. COVID-19) o per interpretare i risultati di elevata produttività esperimenti di biologia, come sequenziamento genico, espressione proteica o screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo: percorsi, droghe, malattie, termini medici). Questo è un grave punto dolente per i ricercatori e, senza una soluzione adeguata disponibile, sono costretti a utilizzare strumenti di ricerca di base (PubMed e Google Scholar) ed esplorare database curati manualmente. Questi strumenti sono adatti per trovare documenti corrispondenti a parole chiave (ad es. Un singolo gene o un giornale di giornale pubblicato), ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad es. COVID-19) o per interpretare i risultati di elevata produttività esperimenti di biologia, come sequenziamento genico, espressione proteica o screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo: percorsi, droghe, malattie, termini medici). Questo è un grave punto dolente per i ricercatori e, senza una soluzione adeguata disponibile, sono costretti a utilizzare strumenti di ricerca di base (PubMed e Google Scholar) ed esplorare database curati manualmente. Questi strumenti sono adatti per trovare documenti corrispondenti a parole chiave (ad es. Un singolo gene o un giornale di giornale pubblicato), ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad es. COVID-19) o per interpretare i risultati di elevata produttività esperimenti di biologia, come sequenziamento genico, espressione proteica o screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo: sono costretti a utilizzare strumenti di ricerca di base (PubMed e Google Scholar) ed esplorare database curati manualmente. Questi strumenti sono adatti per trovare documenti corrispondenti a parole chiave (ad es. Un singolo gene o un giornale di giornale pubblicato), ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad es. COVID-19) o per interpretare i risultati di elevata produttività esperimenti di biologia, come sequenziamento genico, espressione proteica o screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo: sono costretti a utilizzare strumenti di ricerca di base (PubMed e Google Scholar) ed esplorare database curati manualmente. Questi strumenti sono adatti per trovare documenti corrispondenti a parole chiave (ad es. Un singolo gene o un giornale di giornale pubblicato), ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad es. COVID-19) o per interpretare i risultati di elevata produttività esperimenti di biologia, come sequenziamento genico, espressione proteica o screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo: ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad esempio, COVID-19), o per interpretare i risultati di esperimenti di biologia ad alto rendimento, come il sequenziamento genico, l’espressione delle proteine o lo screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo: ma non per acquisire conoscenze complete su un’area tematica o un sottodominio (ad esempio, COVID-19), o per interpretare i risultati di esperimenti di biologia ad alto rendimento, come il sequenziamento genico, l’espressione delle proteine o lo screening di composti chimici. Abbiamo iniziato l’IA epistemica con l’idea di affrontare questo problema con una piattaforma che consente loro di ripetere in modo iterativo:
Riduci il tempo necessario per raccogliere informazioni e creare mappe di conoscenza complete
Informazioni interdisciplinari di superficie che possono essere altrimenti difficili da trovare (le scoperte reali spesso provengono dallo sguardo nello spazio bianco tra le discipline);
Identifica le ipotesi causali trovando percorsi e collegamenti mancanti nella tua mappa della conoscenza.
Quali sono alcune delle fonti pubbliche e private utilizzate per mappare queste relazioni?
Stefano Pacifico : In questo momento, stiamo ingerendo tutte le fonti pubblicamente disponibili su cui possiamo mettere le mani, tra cui Pubmed e clinictrials.gov. Ingeriamo database di geni, droghe, malattie e loro interazioni. Includiamo anche fonti di dati private per clienti selezionati, ma non siamo ancora liberi di divulgare alcun dettaglio.
Che tipo di tecnologie di apprendimento automatico sono utilizzate per la mappatura delle conoscenze?
Stefano Pacifico : Una delle credenze profondamente radicate nell’intelligenza artificiale epistemica è che lo zelo non è utile per costruire prodotti. Costruire un’architettura che integri diverse tecniche di apprendimento automatico è stata una decisione presa all’inizio, che vanno dalla rappresentazione della conoscenza ai modelli di Transformer, attraverso incorporamenti grafici, ma includono anche modelli più semplici come regressioni e foreste casuali. Ogni componente è semplice come deve essere, ma non più semplice. Sebbene riteniamo di aver già creato componenti NLP che sono all’avanguardia per alcune attività, quando possibile non evitiamo i modelli di base più semplici.
Puoi nominare alcune delle società, organizzazioni no profit o accademiche che utilizzano la piattaforma epistemica?
Stefano Pacifico : Anche se mi piacerebbe, non abbiamo concordato con i nostri utenti di farlo. Posso dire che abbiamo avuto persone che si iscrivono da istituzioni di alto profilo in tutti e tre i segmenti (aziende, organizzazioni non profit e istituzioni accademiche). Inoltre, intendiamo mantenere la piattaforma gratuita per scopi accademici / senza fini di lucro.
In che modo Epistemic aiuta i ricercatori a identificare il sistema nervoso centrale (SNC) e altri biomarcatori specifici della malattia?
Dr. David Heeger: Le neuroscienze sono un campo altamente interdisciplinare che include biologia e genomica molecolari e cellulari, ma anche psicologia, chimica e principi di fisica, ingegneria e matematica. È così vasto che nessuno può essere affatto un esperto. I ricercatori delle istituzioni accademiche e le aziende farmaceutiche / biotecnologiche sono costretti a specializzarsi. Ma sappiamo che le intuizioni importanti sono interdisciplinari, che combinano la conoscenza delle sotto specialità. La piattaforma software basata sull’intelligenza artificiale che stiamo costruendo consente a tutti di essere molto più interdisciplinari, di vedere le connessioni tra la propria sottozona di competenza e altri argomenti e di identificare nuove ipotesi. Ciò è particolarmente importante nelle neuroscienze perché è un campo così interdisciplinare tanto per cominciare. La funzione e la disfunzione del cervello umano è il problema più difficile che la scienza abbia mai affrontato. Siamo in missione per cambiare il modo in cui gli scienziati biomedici lavorano e persino il modo in cui pensano.
Epistemic consente anche la scoperta di meccanismi genetici dei disturbi del SNC. Puoi guidarci attraverso come funziona?
Dr. David Heeger: La maggior parte delle malattie neurologiche, malattie psichiatriche e disturbi dello sviluppo non hanno una spiegazione semplice in termini di differenze genetiche. Esistono alcuni disturbi sindromici per i quali è noto che una specifica mutazione causa il disturbo. Ma in genere non è così. Esistono centinaia di differenze genetiche, ad esempio, associate a disturbi dello spettro autistico (ASD). Vi è una certa comprensione per alcuni di questi geni sulle funzioni che svolgono in termini di biologia di base. Ad esempio, alcuni dei geni associati all’ASD tengono insieme le sinapsi nel cervello (si noti, tuttavia, che gli stessi geni in genere svolgono funzioni diverse in altri sistemi di organi nel corpo). Ma c’è ben poca comprensione di come queste differenze genetiche possano spiegare la complessa suite di differenze comportamentali mostrata da individui con ASD. A peggiorare le cose, due individui con la stessa differenza genetica possono avere esiti completamente diversi, uno diagnosticato con ASD e l’altro, no. E due individui con profili genetici completamente diversi possono avere lo stesso risultato con deficit comportamentali molto simili. Per comprendere tutto ciò è necessario stabilire la connessione tra genomica e biologia molecolare e neuroscienze cellulari (in che modo le differenze genetiche fanno funzionare i neuroni in modo diverso) e quindi con le neuroscienze dei sistemi (in che modo tali differenze nella funzione cellulare causano reti di un gran numero di neuroni interconnessi funzionare in modo diverso) e quindi alla psicologia (in che modo tali differenze nella funzione della rete neurale causano differenze nella cognizione, nelle emozioni e nel comportamento). E tutto ciò deve essere compreso da una prospettiva di sviluppo. Una differenza genetica può causare un deficit in un particolare aspetto della funzione neurale. Ma il cervello non si limita a sedersi lì a prenderlo. I cervelli sono altamente adattivi. Se c’è un meccanismo mancante o rotto, il cervello si svilupperà in modo diverso per compensare il più possibile. Questa compensazione potrebbe essere molecolare, ad esempio, sovraregolando un altro recettore sinaptico per sostituire la funzione di un recettore sinaptico rotto. O il risarcimento potrebbe essere comportamentale. Il risultato finale dipende non solo dalla differenza genetica iniziale, ma anche dai vari tentativi di compensare basandosi su altri meccanismi molecolari, cellulari, circuitali, di sistema e comportamentali.
Nessun individuo ha le conoscenze per comprendere tutto questo. Tutti abbiamo bisogno di aiuto. La piattaforma software basata sull’intelligenza artificiale che stiamo costruendo consente a tutti di raccogliere e collegare tutte le conoscenze biomediche pertinenti, di vedere le connessioni e di identificare nuove ipotesi.
In che modo il biopharma e le istituzioni accademiche utilizzano Epistemic per affrontare la sfida COVID-19?
Stefano Pacifico : abbiamo rilasciato una versione pubblica della nostra piattaforma che include set di dati specifici COVID ed è liberamente accessibile a chiunque stia effettuando ricerche su COVID-19. È disponibile su https://covid.epistemic.ai
Quali sono alcune delle altre malattie o problemi genetici per cui Epistemic è stato usato?
Stefano Pacifico : abbiamo collaborato con ricercatori sull’autismo e recentemente stiamo mettendo insieme un nuovo sforzo di ricerca per la fibrosi cistica. Ma siamo felici di collaborare con altri ricercatori o istituzioni che potrebbero aver bisogno di aiuto nella loro ricerca.
C’è qualcos’altro che vorresti condividere su Epistemic?
Stefano Pacifico : Stiamo costruendo un movimento di persone che vogliono cambiare il modo in cui i ricercatori biomedici lavorano e pensano. Speriamo sinceramente che molti dei tuoi lettori vorranno unirsi a noi!