Oggi, Cognition , una startup AI di recente formazione sostenuta dal Founders Fund di Peter Thiel e leader del settore tecnologico tra cui l’ex dirigente di Twitter Elad Gil e il co-fondatore di Doordash Tony Xu, ha annunciato un ingegnere di software AI completamente autonomo chiamato “Devin”.
Sebbene esistano numerosi assistenti di codifica, incluso il famoso Github Copilot , si dice che Devin si distingua dalla massa per la sua capacità di gestire interi progetti di sviluppo end-to-end, fin dalla scrittura del codice e dalla correzione dei bug ad esso associati. all’esecuzione finale. Si tratta della prima offerta di questo tipo e persino in grado di gestire progetti su Upwork, ha dimostrato la startup.
L’annuncio di Devin segna un cambiamento significativo nello spazio di sviluppo assistito dall’intelligenza artificiale, offrendo agli ingegneri un lavoratore AI a tutti gli effetti per i loro progetti, piuttosto che un copilota che potrebbe semplicemente scrivere codice semplice o suggerire snippet.
Tuttavia, per ora, Devin rimane non pubblico, con la società che apre l’accesso solo a pochi clienti selezionati, tra cui la giornalista di Bloomberg Ashlee Vance, che ha scritto della sua esperienza nell’usarlo qui .
In un post sul blog pubblicato oggi sul sito Web di Cognition , Scott Wu, fondatore e CEO di Cognition e pluripremiato programmatore sportivo, ha spiegato che Devin può accedere a strumenti di sviluppo comuni, tra cui la propria shell, l’editor di codice e il browser, all’interno di un ambiente di elaborazione sandbox per pianificare ed eseguire attività ingegneristiche complesse che richiedono migliaia di decisioni.
L’utente umano digita semplicemente un messaggio in linguaggio naturale nell’interfaccia in stile chatbot di Devin e l’ingegnere del software AI lo prende da lì, sviluppando un piano dettagliato passo dopo passo per affrontare il problema. Quindi inizia il progetto utilizzando i suoi strumenti di sviluppo, proprio come li utilizzerebbe un essere umano, scrivendo il proprio codice, risolvendo problemi, testando e segnalando i suoi progressi in tempo reale, consentendo all’utente di tenere d’occhio tutto mentre funziona .
Se qualcosa non sembra corretto all’osservatore umano, l’utente può anche accedere all’interfaccia della chat e dare un comando all’IA per risolverlo. Ciò, afferma Cognition, consente ai team di ingegneri di delegare alcuni dei loro progetti all’intelligenza artificiale e concentrarsi su compiti più creativi che richiedono l’intelligenza umana.
In questo modo, Devin offre un nuovo paradigma che potrebbe dare un’idea del modo in cui tutto lo sviluppo del software – e il lavoro informatico in generale – potrebbe essere svolto nel prossimo futuro: da lavoratori dell’intelligenza artificiale supervisionati da supervisori/utenti umani.
Secondo le demo condivise da Wu, Devin è in grado di gestire una serie di compiti nella sua forma attuale. Ciò include progetti di ingegneria comuni come la distribuzione e il miglioramento di app/siti Web end-to-end e la ricerca e la correzione di bug nelle basi di codice fino a cose più complesse come l’impostazione della messa a punto per un modello linguistico di grandi dimensioni utilizzando il collegamento a un repository di ricerca su GitHub o l’apprendimento come utilizzare tecnologie sconosciute.
In un caso, ha imparato da un post sul blog come eseguire il codice per produrre immagini con messaggi nascosti. Nel frattempo, in un altro, ha gestito un progetto Upwork per eseguire un modello di visione artificiale scrivendo ed eseguendo il debug del codice.
Nel test SWE-bench, che sfida gli assistenti AI con problemi GitHub provenienti da progetti open source del mondo reale, l’ingegnere del software AI è stato in grado di risolvere correttamente il 13,86% dei casi end-to-end, senza alcuna assistenza da parte dell’uomo. In confronto, Claude 2 è riuscito a risolvere solo il 4,80% mentre SWE-Llama-13b e GPT-4 sono riusciti a gestire rispettivamente il 3,97% e l’1,74% dei problemi. Tutti questi modelli hanno addirittura richiesto assistenza, dove è stato detto loro quale file doveva essere corretto.
L’intelligenza artificiale nello sviluppo di software non è un’impresa nuova. Esistono strumenti in questo ambito già da un po’ di tempo, dai popolari GitHub Copilot e StarCoder a Replit , che ha alcuni piccoli modelli di codifica AI su Hugging Face, e Codeium , che recentemente ha ottenuto un finanziamento di serie B di 65 milioni di dollari con una valutazione di $ 500 milioni.
Tuttavia, la maggior parte di queste offerte si concentra principalmente sull’uso dell’intelligenza artificiale per assistere nella codifica. Possono generare codice semplice da prompt di testo, riassumerlo con il contesto IDE pertinente o recuperare snippet, accelerando il flusso di lavoro del team. Con Devin, Cognition AI sembra fare un passo avanti (o più passi) oltre, dando a un lavoratore AI a tutti gli effetti la possibilità di gestire interi progetti.
Sebbene lo strumento sia ancora da testare, la sua capacità di gestire più passaggi – rimanendo sulla buona strada – per completare un progetto di ingegneria del software è il più grande punto di forza. Cognition non ha condiviso come esattamente sia riuscita a raggiungere questa impresa e se stia utilizzando il proprio modello proprietario o quello di terzi, ma sottolinea che il lavoro è il risultato dei suoi “progressi nel ragionamento e nella pianificazione a lungo termine”.
Attualmente, la società è in procinto di aumentare la capacità e di offrire l’accesso anticipato a Devin solo a utenti selezionati. Dice che le parti interessate che desiderano aumentare il proprio lavoro di ingegneria possono contattare via e-mail per ottenere l’accesso. Si prevede che un accesso più ampio sarà reso disponibile in una fase successiva.
Cognition nota inoltre sul suo sito web che la codifica è “solo l’inizio”, il che sembra indicare che potrebbe sfruttare i suoi progressi nel ragionamento per lanciare agenti/lavoratori IA simili anche per altre discipline. Finora la società ha ricevuto finanziamenti per 21 milioni di dollari.