Immagine AI

La vera evoluzione dell’AI non risiede solo nel generare risposte, ma nel compiere azioni autonome e multi-step per raggiungere obiettivi complessi. In questo contesto emergente, la startup OpenAGI è uscita dalle operazioni in sordina, lanciando un guanto di sfida diretto ai giganti del settore, in particolare a OpenAI, affermando che il suo agente AI supera nettamente la concorrenza nelle attività che contano davvero per l’utilizzo aziendale.

Il nucleo della rivendicazione di OpenAGI si basa sulla distinzione cruciale tra un modello linguistico e un Agente AI orientato agli obiettivi. Mentre un modello come GPT-4 è brillante nel capire e generare linguaggio naturale, le sue capacità di eseguire in modo affidabile una sequenza complessa di compiti, specialmente quelli che richiedono l’uso di strumenti esterni o la gestione della memoria a lungo termine, tendono a essere limitate o incoerenti.

L’agente sviluppato da OpenAGI è stato costruito con una filosofia diversa. La sua architettura è focalizzata sulla capacità di pianificazione dinamica, sul ragionamento coerente attraverso più fasi e sull’orchestrazione efficiente di strumenti esterni. Questo significa che l’agente non solo capisce l’obiettivo finale dell’utente, ma è in grado di scomporlo in sotto-attività gestibili, decidere quali applicazioni o risorse esterne (come browser web, database o software specifici) attivare in sequenza e, soprattutto, recuperare le informazioni rilevanti da un contesto in evoluzione per mantenere la coerenza nel tempo.

È proprio in questa sfera dell’azione autonoma e dell’affidabilità multi-task che OpenAGI afferma di aver creato un sistema in grado di “schiacciare” le prestazioni offerte dagli attuali benchmark dei modelli di OpenAI.

Queste affermazioni di superiorità non si basano su metri tradizionali come la fluidità del testo o la qualità della risposta singola. La competizione si è spostata su benchmark più avanzati che valutano l’efficacia degli agenti nelle simulazioni di lavoro reali. Questi test misurano la percentuale di compiti complessi a più fasi che un agente può completare con successo. Ad esempio, non si tratta solo di rispondere alla domanda “Qual è il miglior hotel a Parigi?”, ma di “Trova un hotel a Parigi che sia vicino al Louvre, abbia una palestra, sia disponibile per il prossimo weekend e prenota il volo più economico per arrivarci”.

OpenAGI sostiene che il suo agente mantiene una coerenza e un tasso di successo significativamente più elevati in queste sfide. Questo suggerisce che la loro innovazione risiede non tanto nel modello linguistico di base, quanto nello strato di ragionamento e nel framework di gestione della memoria e degli strumenti che circonda il modello centrale. Questo strato consente all’agente di imparare dall’esperienza fallita, correggere autonomamente il proprio piano e riprendere l’azione, una capacità ancora intermittente o assente in molti degli attuali sistemi AI.

L’emergere di OpenAGI e le sue audaci rivendicazioni segnano un punto di svolta strategico per il futuro dell’AI. Se le affermazioni si rivelassero commercialmente valide, le implicazioni per le aziende sarebbero immense. L’AI non sarebbe più limitata a fungere da assistente per i contenuti, ma diventerebbe un vero e proprio lavoratore digitale autonomo in grado di gestire pipeline operative, condurre analisi di mercato complesse, o gestire flussi di lavoro di ingegneria software con un livello di supervisione minimo.

Per le imprese, l’affidabilità è la valuta più importante. La capacità di un agente di completare sistematicamente un compito complesso senza interrompersi o commettere errori di logica a metà strada è ciò che determinerà l’adozione dell’AI a livello enterprise. OpenAGI si posiziona proprio per soddisfare questa esigenza di affidabilità mission-critical e di coerenza nel tool-use, promettendo di trasformare l’interazione umana con l’AI in un rapporto di delega di obiettivi, piuttosto che di semplici richieste. La battaglia per la supremazia nell’intelligenza artificiale si è spostata dal linguaggio all’azione, e OpenAGI è il primo contendente esplicito a sfidare gli incumbent su questo terreno cruciale.

Di Fantasy