L’intelligenza artificiale sviluppata dalla startup italiana Ipazia ha ottenuto un risultato inatteso in una competizione tecnica organizzata da ServiceNow, superando modelli avanzati di Google, OpenAI e Anthropic in un benchmark dedicato alla risoluzione di problemi aziendali complessi. Non si tratta di un confronto basato su capacità generative o conversazionali, ma su scenari operativi reali, in cui i sistemi devono eseguire workflow articolati, manipolare dati e prendere decisioni coerenti in contesti strutturati. Questo elemento rende il risultato particolarmente significativo dal punto di vista industriale e applicativo, perché riguarda l’uso dell’intelligenza artificiale in contesti business concreti e non solo in ambito sperimentale o dimostrativo.
Il confronto è avvenuto all’interno del benchmark WorkArena++, uno dei test più utilizzati per misurare la capacità dei modelli linguistici di gestire attività operative complesse. In questo scenario, denominato L1, le intelligenze artificiali sono chiamate a eseguire operazioni articolate come navigare cataloghi di prodotti, ordinare articoli, recuperare informazioni da database eterogenei e compilare form aziendali. Non si tratta quindi di compiti puramente linguistici, ma di processi che richiedono pianificazione, coordinamento di azioni e mantenimento dello stato delle operazioni nel tempo. In questo contesto Ipazia ha ottenuto un punteggio del 90,3%, superando Gemini-3 Flash di Google con l’86,1%, GPT-5 di OpenAI con il 79,1% e Claude-4 Sonnet di Anthropic con il 63,3%.
Il risultato non deriva dalla creazione di un nuovo modello linguistico di base, ma da un approccio architetturale differente. Ipazia non modifica i grandi modelli esistenti, ma introduce uno strato di intelligenza superiore basato su agenti AI che operano come un team di specialisti coordinati. Questo sistema suddivide automaticamente un problema complesso in sotto-task più semplici, assegna ciascun compito a moduli dedicati e verifica progressivamente l’esecuzione. In questo modo l’intelligenza artificiale riesce a mantenere coerenza logica e operativa anche quando le attività richiedono più passaggi e interazioni con sistemi differenti.
L’approccio multi-agente rappresenta una delle evoluzioni più rilevanti nel campo dell’intelligenza artificiale applicata alle imprese. I modelli linguistici tradizionali sono molto efficaci nella generazione di testo o nell’analisi di informazioni, ma incontrano difficoltà quando devono pianificare sequenze operative lunghe e strutturate. L’architettura sviluppata da Ipazia introduce un livello di orchestrazione che consente di gestire flussi complessi, mantenere il contesto operativo e ridurre errori cumulativi. Secondo l’azienda, questo consente di ottenere una “capacità di ragionamento” più adatta all’uso aziendale, con tempi e costi prevedibili per l’implementazione.
Ipazia è una realtà relativamente piccola ma altamente specializzata. La startup è stata fondata nel 2021 a Milano da Giorgio Alverà, manager con esperienza in Goldman Sachs, insieme a un team di 18 professionisti, tra cui sette dottori di ricerca e figure provenienti da istituzioni come MIT, Microsoft e Fondazione Bruno Kessler. Nonostante le dimensioni contenute, l’azienda si è posizionata rapidamente nel panorama dell’intelligenza artificiale enterprise, puntando su soluzioni che integrano modelli linguistici esistenti con architetture di pianificazione avanzata.
La tecnologia sviluppata è già utilizzata in diversi settori, tra cui quello bancario, il recruiting e il cosiddetto “gioco responsabile”, ambito in cui algoritmi di analisi comportamentale vengono impiegati per individuare situazioni di rischio e proteggere gli utenti. Questo tipo di applicazioni dimostra che l’obiettivo non è la semplice sperimentazione tecnologica, ma l’integrazione diretta nei processi aziendali.
