Immagine AI

OpenAI ha presentato un sistema sperimentale di “AI chemist” quasi autonomo sviluppato insieme a Molecule.one, startup specializzata in AI per chimica e farmaceutica. Il progetto collega GPT-5.4 a Maria AI e a Maria Lab, la piattaforma di laboratorio ad alta produttività di Molecule.one, per generare ipotesi di ricerca, trasformarle in piani sperimentali, eseguire migliaia di reazioni chimiche, analizzare i risultati grezzi e proporre nuovi cicli di esperimenti.

Il lavoro riguarda un problema specifico di chimica medicinale: migliorare una versione difficile della reazione di Chan–Lam, utilizzata per formare legami carbonio-azoto. In particolare, il sistema ha lavorato sull’accoppiamento Chan–Lam tra solfonammidi primarie e acidi arilboronici, una classe di reazione utile per la sintesi di molecole drug-like ma storicamente limitata da rese basse, decomposizione del partner organoboronico e formazione di sottoprodotti.

Il paper tecnico collegato al progetto si intitola “TEMPO Improves Generality and Decreases Oxidative Deboronation in Chan–Lam Couplings of Primary Sulfonamides” ed è firmato da Jan Rzymkowski, Shuyuan Zhang, Artur Chołuj, Aleksander Szkółka, Mateja Dud, Mateusz Bruno-Kamiński, Jan Busz, Michał Sadowski, Grzegorz Wojciechowski, Jan Kulczycki, Mariusz Gruza, Tadija Radusinović, Maria Wyrzykowska, Szymon Kapuściński, Oleksandr Popika, Łukasz Szczupak, Ahmed El-Kishky, Paulina Wach, Paweł Włodarczyk-Pruszyński, Piotr Byrski, Joe Palermo e Stan Jastrzębski. Gli autori afferiscono a Molecule.one, con sedi a San Francisco e Varsavia, e a OpenAI, con sede a San Francisco.

Il sistema è composto da tre elementi principali. GPT-5.4 svolge il ruolo di generatore e valutatore di strategie di ricerca: analizza la letteratura chimica, propone migliaia di possibili direzioni sperimentali e costruisce ipotesi per migliorare reazioni rilevanti nella scoperta di farmaci. Maria AI riceve i piani di alto livello prodotti da GPT-5.4 e li converte in istruzioni operative di laboratorio. Maria Lab esegue poi gli esperimenti attraverso una piattaforma automatizzata ad alta produttività, raccoglie i dati sperimentali e li restituisce al sistema per l’analisi e la progettazione dei passaggi successivi.

OpenAI definisce il sistema “near-autonomous”, non completamente autonomo, perché i chimici umani hanno mantenuto un ruolo attivo in più punti del workflow. I ricercatori hanno scritto i prompt di indirizzo e valutazione, hanno esaminato le proposte prodotte dal sistema, hanno selezionato quattro idee da portare in laboratorio, hanno corretto in modo limitato alcuni piani sperimentali, hanno preparato materiali e reagenti e hanno validato indipendentemente i risultati finali. Il contributo dell’AI è stato quindi centrale nella generazione dell’ipotesi, nel design sperimentale, nell’interpretazione dei dati e nella proposta di follow-up, ma non ha eliminato il controllo umano sulla ricerca chimica e sull’infrastruttura fisica.

La proposta più rilevante selezionata dal sistema è identificata come OAI-M1-03. Partendo dall’obiettivo aperto di migliorare la Chan–Lam coupling per la process chemistry, GPT-5.4 ha individuato le solfonammidi primarie come una classe di substrati complessa ma ad alto valore e ha suggerito l’uso di ossidanti blandi, in particolare TEMPO, come additivi potenzialmente utili. TEMPO, cioè 2,2,6,6-tetrametilpiperidinilossile, è un ossidante radicalico stabile, noto per il suo ruolo in alcune reazioni redox, ma secondo il lavoro pubblicato era stato poco esplorato come additivo sistematico per migliorare l’accoppiamento Chan–Lam delle solfonammidi primarie.

Il problema chimico affrontato è molto specifico. La Chan–Lam coupling è una reazione di cross-coupling catalizzata dal rame che permette di formare legami C–N, C–O e C–S tra reagenti organoboronici e nucleofili contenenti N–H, O–H o S–H. A differenza di molte alternative catalizzate dal palladio, la Chan–Lam richiede un ossidante terminale esterno per rigenerare la specie Cu(II) attiva a partire da Cu(I) dopo l’eliminazione riduttiva. Il suo valore sintetico deriva da condizioni operative miti, compatibilità con aria e umidità e uso di catalizzatori di rame relativamente economici e meno tossici.

Nel caso delle solfonammidi primarie, però, la reazione è difficile perché il gruppo solfonile è fortemente elettron-attrattore e rende il nucleofilo azotato debole, polare e sensibile a solvente, base, fonte di rame, carico catalitico e natura dell’acido boronico. Un ulteriore limite è la deboronazione ossidativa: il partner arilboronico può degradarsi prima di partecipare alla reazione produttiva, generando fenoli e altri sottoprodotti che sottraggono materiale di partenza e complicano la purificazione. Per questo molte procedure tradizionali richiedono un eccesso del partner organoboronico, spesso tra 1,5 e 3 equivalenti.

La campagna sperimentale condotta da Maria Lab ha incluso 10.080 reazioni a microscala in due cicli di high-throughput experimentation. Il primo ciclo comprendeva 5.088 reazioni ed era focalizzato sulla valutazione dell’identità dell’ossidante in combinazione con solvente, base e carico di rame. Il secondo ciclo comprendeva 4.992 reazioni e ha ottimizzato carico dell’ossidante, temperatura, base, fonte di rame, solvente, carico catalitico e varianti strutturali di TEMPO. Secondo il paper, si tratta del più grande dataset HTE riportato finora per una reazione Chan–Lam.

La matrice sperimentale comprendeva 12 solfonammidi primarie e 8 acidi boronici, per 96 combinazioni uniche di coppie di substrati in ciascuna campagna. Il set è stato scelto per rappresentare la diversità strutturale tipica della chimica medicinale, includendo solfonammidi aromatiche, eteroaromatiche e alifatiche, insieme ad acidi arilboronici ed eteroarilboronici con diversi profili elettronici e sterici. Questo disegno sperimentale ha permesso di valutare se l’effetto dell’ossidante fosse generale o limitato a specifiche combinazioni di substrati.

Le reazioni sono state eseguite in piastre a 96 pozzetti con workflow automatizzati di liquid handling. Ogni reazione è stata condotta a concentrazione di 14 mM e volume totale di 28,6 microlitri, una scala pensata per esplorare un ampio spazio di condizioni riducendo il consumo di materiale. I risultati sono stati quantificati tramite LC-PDA-MS con standard interno. Le rese di prodotto sono state stimate integrando i picchi del prodotto e dello standard interno e correggendo i dati attraverso profili di assorbimento previsti con metodi DFT.

Nel primo screening sono stati valutati dieci ossidanti con profili strutturali e meccanicistici differenti. Tra gli ossidanti blandi e organici non perossidici sono stati testati TEMPO, N-metilmorfolina N-ossido e p-benzochinone. Tra gli ossidanti più forti, radicalici o perossidici, sono stati inclusi tert-butil perossido, Selectfluor, Oxone, perossido di idrogeno, sodio percarbonato e ammonio persolfato. La selezione è stata costruita per verificare se l’aggiunta di un ossidante potesse favorire il turnover del rame senza accelerare la degradazione dell’acido boronico.

Nel primo ciclo, la condizione più robusta utilizzava TEMPO a 1 equivalente, K₂CO₃ a 2 equivalenti, miscela DMA/diglyme in rapporto 3:7, temperatura di 60 °C e durata di 18 ore, con carico di rame pari al 10 mol%. Senza ossidante aggiunto, alla stessa quantità di rame, solo il 9,9% delle reazioni superava la soglia del 30% di resa stimata e la resa media stimata era del 12,2%. Con TEMPO, la percentuale di reazioni sopra il 30% saliva al 26,6% e la resa media stimata raggiungeva il 19,6%.

Il risultato più importante non è semplicemente che TEMPO aumenta la resa media, ma che modifica il profilo della reazione in modo più favorevole rispetto ad altri ossidanti. Molti ossidanti forti, inclusi p-benzochinone, H₂O₂, Dess–Martin periodinane, Selectfluor, sodio percarbonato, Oxone e ammonio persolfato, hanno peggiorato la formazione del prodotto desiderato perché promuovevano la degradazione dell’acido boronico. TEMPO, invece, ha aumentato la formazione del legame C–N e contemporaneamente ridotto la resa stimata dei prodotti di deboronazione ossidativa.

La condizione ottimizzata finale indicata nel paper utilizza 2 equivalenti di TEMPO e 20 mol% di Cu(OAc)₂. Con queste condizioni, la resa media stimata del prodotto è passata dal 16,6% al 25,2%. Anche la quota di reazioni con resa superiore al 30% è aumentata in modo significativo, passando dal 15,6% al 37,5%. OpenAI riporta inoltre miglioramenti per l’88% degli acidi boronici e per l’83% delle solfonammidi testate.

Il sistema ha poi utilizzato i dati del primo ciclo per proporre un secondo ciclo sperimentale più mirato. In questa fase è emerso che TEMPO poteva essere sostituito con 4-idrossi-TEMPO, noto anche come TEMPOL, con una perdita limitata di prestazioni. Questo dettaglio è rilevante per la process chemistry perché TEMPOL è un analogo commercialmente disponibile, usato su scala industriale anche nell’industria delle materie plastiche, potenzialmente meno costoso e più facile da rimuovere dalla miscela di reazione grazie al gruppo idrossile in posizione C-4, che ne modifica la polarità e consente una più semplice estrazione acquosa rispetto al TEMPO lipofilo.

La validazione manuale è stata condotta da chimici umani su scala da banco, perché i risultati ottenuti a microscala possono talvolta produrre artefatti che non si riproducono in condizioni più pratiche. Nella validazione rappresentativa, l’effetto positivo di TEMPO è stato confermato in 11 coppie di substrati su 14. In 8 casi l’aumento di resa è stato superiore a due volte. La validazione a banco ha inoltre confermato con particolare evidenza il miglioramento per acidi boronici elettron-poveri.

Il progetto ha una componente AI rilevante perché GPT-5.4 non si è limitato a riassumere letteratura o generare suggerimenti generici. Il modello ha partecipato a una catena sperimentale completa: revisione della letteratura, identificazione di una classe di substrati problematica, proposta di un’ipotesi inattesa, generazione e ranking di strategie sperimentali, progettazione di esperimenti, interpretazione dei dati prodotti dal laboratorio automatico e proposta di cicli successivi. Maria AI e Maria Lab hanno trasformato questa capacità di pianificazione in esperimenti fisici su molecole reali, con rumore sperimentale, limitazioni di solubilità, scelta di solventi, fonti di rame, basi, carichi catalitici e prodotti collaterali misurabili.

Un dettaglio importante riguarda la correzione umana dei piani sperimentali. OpenAI indica che la modifica più significativa ha riguardato l’esclusione del DMSO come solvente, perché i chimici temevano che potesse reagire con gli ossidanti più forti usati come confronto. Questo conferma che il sistema non opera ancora come scienziato completamente autonomo, ma come infrastruttura ibrida in cui il modello genera ipotesi e piani, mentre i chimici mantengono supervisione sulle scelte sperimentali e sui rischi pratici.

Il lavoro si è svolto nell’arco di circa tre mesi, dal primo prompt del 4 marzo alla condivisione dei risultati di OAI-M1-03 con esperti indipendenti il 4 giugno. Quattro esperti esterni di chimica hanno esaminato il preprint. Tra questi, Tim Cernak, professore associato di chimica medicinale all’Università del Michigan, ha definito l’integrazione tra high-throughput experimentation e AI moderna come una nuova frontiera della scoperta scientifica, evidenziando le condizioni blande e l’ossidante pratico come elementi utili per una reazione molto usata nella sintesi di farmaci.

Le altre tre proposte generate da GPT-5.4 e testate da Maria durante il periodo di tre mesi hanno avuto esiti differenti: OAI-M1-02 e OAI-M1-04 sono state provate sperimentalmente in Maria Lab, mentre OAI-M1-01 è stata smentita. L’analisi di questi risultati è ancora in corso. Questo punto è importante perché mostra il comportamento del sistema in un contesto reale di ricerca: non tutte le ipotesi prodotte dall’AI risultano corrette, ma il workflow permette di selezionarle, testarle, scartarle o approfondirle attraverso esperimenti fisici.

OpenAI specifica anche i limiti del risultato. Il progetto dimostra che un modello può contribuire in modo utile a un problema di chimica organica, ma non dimostra che un’AI possa gestire in autonomia un programma di ricerca chimica dall’inizio alla fine. Il sistema dipende da infrastrutture specializzate di high-throughput experimentation, dalla supervisione di chimici esperti e da validazioni indipendenti. Inoltre, il risultato non prova ancora che il metodo sia generalizzabile ad altre reazioni di coupling, ad altre classi di substrati o a condizioni di produzione industriale.

Dal punto di vista scientifico, i passaggi successivi indicati sono l’estensione del test a un numero più ampio di materiali di partenza, lo studio del motivo per cui TEMPO e 4-idrossi-TEMPO migliorano la reazione, la mappatura dei casi in cui l’effetto funziona o fallisce, la verifica indipendente da parte di altri laboratori e una caratterizzazione più dettagliata del meccanismo. La spiegazione più probabile proposta dai dati è che gli additivi aminossilici creino un ambiente redox abbastanza mite da sostenere il turnover del rame senza accelerare la decomposizione ossidativa degli acidi boronici, ma il paper chiarisce che sono necessari ulteriori studi meccanicistici per confermare questa ipotesi.

Il lavoro include anche una sezione dedicata alla sicurezza. OpenAI precisa che l’esperimento è stato limitato a un problema legittimo di chimica medicinale, cioè il miglioramento di una reazione nota per produrre molecole drug-like. Gli esperimenti non hanno coinvolto tossine, armi chimiche o richieste di progettazione di composti dannosi. Il modello usato era già stato sottoposto a valutazioni rilevanti con l’UK AI Security Institute e il workflow sperimentale ha mantenuto un livello ulteriore di controllo attraverso la selezione umana delle proposte, la revisione dei piani e il controllo dell’infrastruttura fisica del laboratorio.

Il risultato è quindi significativo non perché consegni un “chimico AI” pienamente autonomo, ma perché mostra una pipeline concreta in cui un modello avanzato, un agente chimico specializzato, un laboratorio automatizzato e chimici umani collaborano su un problema sperimentale misurabile. In questo caso la catena ha prodotto un miglioramento documentato della Chan–Lam coupling delle solfonammidi primarie, ha individuato TEMPO come additivo efficace, ha ridotto la deboronazione ossidativa e ha fornito una base sperimentale da verificare su scala più ampia.

Di Fantasy