In una tarda notte con un neonato, lo sviluppatore di OthersideAI, Josh Bickett, ha concepito un’idea rivoluzionaria: un “framework informatico auto-operativo”. Mentre nutriva sua figlia di quattro settimane, Bickett ha riflettuto sulle lezioni apprese dalla paternità e sull’ispirazione tratta dalle demo di GPT-4 Vision. Questa riflessione lo ha portato a schizzare un prototipo di base, nonostante le limitazioni nel controllo del mouse.
Matt Shumer, co-fondatore e CEO di OthersideAI, ha subito visto il grande potenziale di questo framework, paragonandolo all’innovazione delle auto a guida autonoma, ma applicato ai computer. Questo sistema utilizza gli screenshot come input per imitare le azioni umane come clic del mouse e digitazione sulla tastiera. Shumer enfatizza che, diversamente dai precedenti approcci basati su API, questo metodo permette una maggiore autonomia e versatilità.
Il framework, come descritto da Bickett, consente all’AI di gestire azioni del mouse e della tastiera basandosi su input visivi. Ciò segna un passo avanti rispetto ai metodi basati esclusivamente su testo. Il potenziale del framework non è tanto nella sua struttura semplice, ma nella possibilità di collegarlo a modelli avanzati di visione artificiale e di ragionamento. Bickett anticipa che l’adozione di modelli più sofisticati porterà a miglioramenti significativi.
Shumer immagina un futuro in cui questi computer auto-operativi agiranno come intermediari tra gli utenti e il mondo digitale, semplificando compiti che le persone trovano tediosi. Prevede una varietà di modelli di agenti informatici specializzati, ognuno adatto a compiti specifici.
Il framework è open source, il che, secondo Bickett, incoraggerà l’innovazione globale. Shumer vede un ampio spazio per diversi attori e applicazioni nel settore.
Nonostante l’entusiasmo, Bickett e Shumer riconoscono che realizzare pienamente questa visione richiederà notevoli risorse e innovazione continua. In questa direzione, Imbue, precedentemente Generally Intelligent, ha stretto una partnership da 150 milioni di dollari con Dell per costruire una piattaforma di formazione AI. Questa piattaforma, supportata da circa 10.000 GPU Nvidia H100, mira a sviluppare modelli con capacità di ragionamento avanzate. Kanjun Qiu, co-fondatore e CEO di Imbue, sottolinea l’importanza del ragionamento nel superare le sfide poste da compiti reali e complessi.
In sintesi, questa nuova struttura informatica auto-operativa rappresenta solo l’inizio di una nuova era. Bickett e Shumer vedono un futuro in cui gli agenti AI avanzati potrebbero operare autonomamente, rendendo le interfacce umane obsolete e trasformando il modo in cui interagiamo con i computer. Mentre continuano a lavorare per realizzare questa visione, le notti insonni potrebbero portare a ulteriori scoperte rivoluzionarie.