Immagine AI

Anthropic ha compiuto un passo audace svelando Claude Opus 4.5, un aggiornamento fondamentale della sua piattaforma di AI. L’azienda ha lanciato il nuovo modello presentandolo senza mezzi termini come “il miglior modello al mondo per la codifica, gli agenti e l’uso del computer,” una dichiarazione che lo pone in diretta competizione con i più recenti e discussi modelli lanciati dai competitor come Gemini 3 di Google e GPT-5.1 di OpenAI. Disponibile immediatamente tramite API e sulle principali piattaforme cloud, Opus 4.5 promette non solo di ridefinire gli standard di ragionamento, ma anche di trasformare radicalmente il lavoro di ingegneria del software e l’automazione dei processi aziendali.

L’enfasi posta da Anthropic sulle capacità di Opus 4.5 in termini di codifica è centrale. Il modello ha superato in modo convincente tutti gli altri modelli di frontiera nel test SWE-bench Verified, un benchmark che misura l’abilità nella risoluzione di problemi di ingegneria del software nel mondo reale. Questo non riguarda solo la scrittura di codice, ma la capacità di comprendere contesti complessi, eseguire debugging e gestire l’ambiguità con meno necessità di guida umana.

La superiorità di Opus 4.5 si estende in particolare alle sue capacità agenti, ovvero l’abilità di eseguire compiti complessi in modo autonomo, simulando la creatività e la strategia umana. Anthropic sottolinea che il modello non si limita a provare a risolvere un problema una sola volta, ma può raffinare iterativamente le sue capacità. In un test interno, l’agente basato su Opus 4.5 ha raggiunto il picco delle sue prestazioni dopo sole quattro iterazioni, a fronte delle dieci necessarie per altri LLM concorrenti. Questa efficienza nella risoluzione di problemi a lungo termine lo rende ideale per l’automazione di flussi di lavoro complessi, come la riscrittura di intere applicazioni che possono richiedere diverse ore. L’efficacia nel problem solving è stata ulteriormente evidenziata dal fatto che Opus 4.5 ha ottenuto il punteggio più alto mai registrato, superando qualsiasi candidato umano, nel test di ingegneria take-home di Anthropic.

Oltre alla programmazione, Claude Opus 4.5 porta con sé miglioramenti sostanziali in diverse aree cognitive, tra cui la visione, la matematica e le attività di ricerca. La visione del modello è stata perfezionata per workflow che dipendono da una complessa interpretazione visiva e da una navigazione a più fasi, come l’analisi di mockup di design o l’automazione di attività basate su browser, anche grazie a una nuova funzione di zoom che consente l’ispezione dettagliata delle regioni dello schermo.

Un elemento di innovazione pratica per gli sviluppatori è l’introduzione del controllo dello sforzo (effort control) tramite API. Questa funzionalità consente agli sviluppatori di bilanciare le prestazioni e il consumo di risorse: impostando l’opzione su sforzo elevato, il modello supera i punteggi del suo predecessore pur utilizzando meno della metà del volume di token in uscita. Ciò non solo garantisce prestazioni di punta, ma rende le capacità avanzate di livello Opus più accessibili economicamente, con un costo di cinque dollari per milione di token.

La sicurezza e l’etica rimangono centrali nella filosofia di Anthropic. Opus 4.5 è stato presentato come il modello più sicuro dell’azienda fino ad oggi, caratterizzato da una migliore resistenza agli attacchi di prompt injection e da tassi inferiori di “comportamento discutibile” nelle valutazioni di disallineamento.

Opus 4.5 si posiziona come il modello di punta della serie Claude 4.5, affiancando Sonnet 4.5 (alternativa di fascia media) e Haiku 4.5 (alternativa entry-level e veloce). Questo trio consente alle aziende di distribuire agenti specializzati, utilizzando Opus 4.5 come agente principale per la pianificazione complessa e Haiku 4.5 per le fasi di elaborazione più leggere, ottimizzando così i costi di inferenza.

Anthropic ha chiarito che Opus 4.5 è mirato a sbloccare nuove funzionalità di lavoro, non solo la generazione di contenuti. Il modello è costruito per produrre documenti, spreadsheet e presentazioni e per automatizzare compiti d’ufficio standard utilizzando l’ambiente informatico e il browser dell’utente. Con la sua capacità di mantenere la continuità del ragionamento attraverso interazioni estese e a lungo termine, Opus 4.5 è destinato a trasformare il modo in cui vengono affrontati i progetti tecnici e professionali più impegnativi. La sfida è lanciata: Anthropic ritiene che con Opus 4.5, l’Intelligenza Artificiale non solo risolva i problemi, ma in un certo senso li “capisca” come un essere umano.

Di Fantasy