Zoom Video Communications, l’azienda che per molti è sin da prima della pandemia sinonimo di videoconferenze e riunioni remote, ha recentemente acceso un vivace dibattito nel mondo dell’intelligenza artificiale annunciando un risultato impressionante su uno dei test più difficili concepiti per valutare le capacità dei sistemi AI. Secondo l’azienda, il suo sistema ha raggiunto il punteggio più alto mai registrato sul benchmark noto come Humanity’s Last Exam (HLE), un test che attinge a domande complesse nei campi della matematica avanzata, della filosofia e delle scienze specializzate. Con un punteggio del 48,1%, Zoom supera di poco il precedente record del 45,8% detenuto da Google Gemini 3 Pro, attirando l’attenzione degli addetti ai lavori e sollevando interrogativi sulla natura di questo risultato.
Il punto centrale della discussione non riguarda tanto il numero in sé quanto il modo in cui Zoom è arrivata a questo risultato. A differenza di laboratori come OpenAI, Google o Anthropic, l’azienda non ha addestrato un proprio modello linguistico di grandi dimensioni. Invece, ha sviluppato un sistema di orchestrazione che combina e confronta diverse intelligenze artificiali esistenti attraverso quello che definisce un approccio federated AI. In pratica, una sorta di “controllore del traffico” che smista, valuta e integra le risposte fornite da modelli di terze parti — come quelli di OpenAI, Google e Anthropic — utilizzando un proprio meccanismo interno chiamato Z-scorer per determinare quale output sia più adatto a una richiesta specifica.
Questa distinzione — tra costruire un modello ex novo e orchestrare modelli già esistenti — ha scatenato reazioni contrastanti nella comunità AI. Alcuni esperti hanno accolto l’approccio di Zoom come un esempio intelligente di ingegneria pratica che, in effetti, riflette una tendenza sempre più comune nel mondo degli algoritmi: l’uso combinato di più modelli per ottenere risultati più solidi, un po’ come accade nelle competizioni di data science dove gli “ensemble” di modelli spesso prevalgono su singolari soluzioni sofisticate. Altri, tuttavia, hanno espresso critiche più severe, sostenendo che presentare un risultato ottenuto attraverso l’integrazione di tecnologie di terze parti come un record “proprio” possa essere fuorviante, soprattutto quando il contesto del benchmarking non si traduce automaticamente in benefici concreti per gli utenti finali.
La figura chiave dietro questa spinta di Zoom verso l’AI è Xuedong Huang, il chief technology officer dell’azienda, che vanta una lunga carriera nell’intelligenza artificiale e in precedenza ha guidato gruppi di ricerca di Microsoft nell’ambito del riconoscimento vocale, della traduzione automatica e dell’interpretazione del linguaggio naturale. La sua presenza in Zoom segnala che l’azienda non sta semplicemente sperimentando con tecnologie AI, ma ha ambizioni strategiche ben definite di integrare queste capacità in prodotti di uso quotidiano, come ad esempio quello che Zoom chiama AI Companion 3.0, che promette di facilitare riassunti delle riunioni, automazioni dei flussi di lavoro e altri supporti intelligenti destinati a centinaia di milioni di utenti.
Il benchmark Humanity’s Last Exam è stato progettato per superare i limiti dei test tradizionali che troppo spesso permettono agli algoritmi di “barare” con pattern preimpostati. Invece, HLE richiede multi-step reasoning, comprensione profonda e capacità di sintetizzare informazioni in domini eterogenei, rendendolo uno strumento di valutazione rigoroso per misurare progressi significativi nella capacità delle macchine di affrontare compiti cognitivi avanzati. Anche così, un punteggio del 48,1% indica che siamo ancora lontani da un’AI in grado di risolvere pienamente problemi di livello umano senza supervisione, ma rappresenta comunque un punto di svolta interessante dal punto di vista comparativo tra sistemi.
La discussione sull’approccio di Zoom solleva una domanda più ampia: che cosa conta davvero nel campo dell’intelligenza artificiale? È più importante addestrare i modelli più potenti e sofisticati, o sviluppare infrastrutture intelligenti che sappiano sfruttare e combinare efficacemente le migliori tecnologie disponibili? In un mercato in cui nessuno può prevedere con certezza quale sarà il modello dominante nei prossimi mesi o anni, costruire sistemi che possano adattarsi, orchestrare e integrare diverse fonti di capacità può essere una strategia pragmatica e appetibile per molte imprese.
Tuttavia, la vera prova per Zoom non sarà sui benchmark, ma nell’esperienza quotidiana di milioni di utenti. Molti di coloro che partecipano a chiamate, pianificano riunioni o gestiscono progetti su Zoom non sono interessati ai dettagli di un benchmark accademico: vogliono strumenti che comprendano efficacemente i loro bisogni, producano riassunti accurati, gestiscano promemoria e automatizzino compiti ripetitivi. Quando AI Companion 3.0 sarà ampiamente distribuito, sarà quella esperienza a determinare se l’approccio orchestrativo di Zoom porterà benefici tangibili nella vita lavorativa delle persone, oppure se il dibattito rimarrà confinato agli ambienti specialistici della ricerca sull’intelligenza artificiale.
