Immagine AI

In occasione di TechCon 2026, il Québec AI Institute MILA ha illustrato i risultati delle proprie attività di ricerca nel campo dell’intelligenza artificiale applicata alle scienze biologiche, presentando in particolare AMPLIFY, un nuovo modello foundation sviluppato per l’analisi delle proteine e dei dati biologici complessi.

Durante l’evento, Yoshua Bengio, fondatore di MILA e tra i pionieri del deep learning moderno, ha ribadito l’importanza della cooperazione internazionale nella ricerca sull’intelligenza artificiale, evidenziando il ruolo della Corea del Sud nello sviluppo di tecnologie avanzate per l’AI e sottolineando la necessità di costruire sistemi sicuri, affidabili e centrati sull’essere umano.

La componente più tecnica della presentazione è stata affidata a Sarah Chander, professoressa associata dell’Università di Montréal e ricercatrice presso MILA, che ha illustrato il lavoro svolto sui modelli foundation specializzati per discipline scientifiche come biologia, chimica e fisica. Secondo il gruppo di ricerca, i dati biologici presentano caratteristiche profondamente differenti rispetto ai dati testuali utilizzati nei tradizionali modelli linguistici e richiedono quindi architetture e strategie di addestramento specifiche.

L’obiettivo del progetto è sviluppare sistemi in grado di elaborare differenti tipologie di dati biologici attraverso una rappresentazione unificata. Particolare attenzione è stata dedicata alla modellazione delle proteine, un ambito nel quale i foundation model stanno assumendo un ruolo sempre più importante per la comprensione delle strutture molecolari, delle funzioni biologiche e dei processi cellulari.

MILA ha evidenziato alcune limitazioni riscontrate nell’utilizzo di modelli esistenti come ESM-2, uno dei principali modelli di sequenza proteica attualmente disponibili. Tra le criticità identificate figurano l’elevato numero di parametri, i costi computazionali richiesti per l’utilizzo pratico e le difficoltà legate alle tecniche di data augmentation applicate ai dataset biologici.

Per affrontare questi problemi è stato sviluppato AMPLIFY, un modello progettato attorno al concetto di conservazione della distribuzione delle proteine presenti nei dati di addestramento. A differenza dei modelli linguistici tradizionali, che apprendono principalmente da grandi quantità di testo proveniente dal web, il nuovo sistema è stato addestrato utilizzando dataset biologici costruiti per rappresentare una gamma più ampia e diversificata di strutture proteiche.

Secondo i ricercatori, l’approccio ha consentito di realizzare un modello più compatto rispetto alle soluzioni esistenti, limitando i fenomeni di overfitting che tendono a manifestarsi con l’aumento delle dimensioni dei modelli. Nonostante la riduzione della complessità architetturale, AMPLIFY sarebbe in grado di raggiungere prestazioni elevate mantenendo requisiti computazionali significativamente inferiori rispetto a ESM-2, rendendo più accessibile l’utilizzo di foundation model biologici da parte della comunità scientifica.

Il team ha inoltre sottolineato che la biologia rappresenta un dominio in continua evoluzione, caratterizzato dalla scoperta costante di nuove proteine e dalla revisione di dati esistenti. Per questo motivo il modello è stato progettato per supportare processi di aggiornamento e riaddestramento continui, consentendo l’integrazione progressiva di nuove conoscenze biologiche senza dover ricostruire completamente il sistema.

MILA ha reso disponibili pubblicamente il modello AMPLIFY, i dataset utilizzati e il codice sorgente attraverso le piattaforme GitHub e Hugging Face, con l’obiettivo di favorire la ricerca aperta nel settore della biologia computazionale. Durante la presentazione è stato inoltre ribadito che questi strumenti non sono destinati a sostituire gli scienziati, ma a supportarne il lavoro, accelerando l’analisi dei dati e la generazione di ipotesi scientifiche all’interno di processi che continuano a richiedere supervisione e validazione umana.

Di Fantasy