Claude 2 vs GPT-4

Anthropic, un laboratorio di intelligenza artificiale con sede a San Francisco, sostenuto da Google, ha appena presentato Claude 2, un’alternativa pubblicamente accessibile a GPT-4. Mentre la versione precedente di Claude era disponibile solo per le aziende, questa nuova versione è ora aperta al pubblico negli Stati Uniti e nel Regno Unito. Claude 2 si differenzia dal suo predecessore perché è accessibile sia attraverso un sito Web beta che tramite un’API.

Il lancio di Claude-2 non poteva arrivare in un momento migliore. La popolarità di GPT è diminuita negli ultimi mesi, e gli utenti sono alla ricerca di alternative che offrano prestazioni migliori e un costo più conveniente. Claude-2 sembra soddisfare queste esigenze, grazie alle sue capacità avanzate e alla sua efficacia in termini di costi.

Anthropic ha imparato dagli esempi di successo come Bard di Google e ChatGPT di OpenAI e ha tenuto conto del feedback degli utenti per apportare significativi miglioramenti a Claude-2. Gli utenti su Twitter hanno elogiato la capacità di Claude di impegnarsi in conversazioni in linguaggio naturale, spiegare chiaramente il suo ragionamento e produrre risultati meno dannosi. Claude-2 sfrutta questi punti di forza e introduce diverse caratteristiche chiave che portano le sue prestazioni a un livello superiore.

Un notevole miglioramento di Claude-2 riguarda le sue capacità avanzate di programmazione, matematica e ragionamento. Questo include la lettura di PDF, una funzionalità che i modelli basati su GPT hanno ancora difficoltà a gestire. È interessante notare che OpenAI ha recentemente introdotto il Code Interpreter nei suoi modelli a pagamento.

Anthropic ha dedicato notevoli sforzi per perfezionare il modello. Secondo le informazioni fornite sulla scheda modello di Claude-2, il modello è stato costruito utilizzando l’apprendimento non supervisionato e l’apprendimento per rinforzo con feedback umano (RLHF), simile a quanto fatto da OpenAI per GPT. Inoltre, il modello è stato addestrato utilizzando dati fino all’inizio del 2023, ma non ha accesso a Internet.

Claude-2 ha ottenuto un impressionante punteggio del 71,2% sul Codex HumanEval, un test di codifica Python, rispetto al 56,0% ottenuto dal suo predecessore, Claude-1.3. Questo risultato è migliore del 67% di GPT-4. In termini di punteggio, Claude-2 ha il sopravvento.

Inoltre, su un set di problemi matematici chiamato GSM8k, Claude-2 ha ottenuto un punteggio dell’88%, migliorando il risultato del 85,2% ottenuto da Claude-1.3. Questi progressi posizionano Claude-2 come una risorsa preziosa per sviluppatori e persone alla ricerca di assistenza nelle sfide tecniche. Tuttavia, GPT-4 vince con un punteggio del 92%.

Un aspetto importante riguarda l’espansione delle capacità di input e output di Claude-2. Gli utenti possono ora inserire fino a 100.000 token per prompt, rispetto ai 32.000 di GPT-4, permettendo a Claude-2 di elaborare documentazione tecnica molto estesa o addirittura interi libri. Inoltre, Claude-2 può generare documenti più lunghi, che vanno dai promemoria alle lettere alle storie, con una lunghezza di alcuni migliaia di token.

Inoltre, il costo di Claude-2 è 4-5 volte inferiore rispetto a GPT-4-32K. I token di input del prompt costano $11 per milione di token, rispetto ai $60 milioni per GPT, e il completamento ha un costo di $32 rispetto a $120 per milione di token, considerando una simile lunghezza di tokenizzazione. Questo sicuramente incoraggerà molti utenti a iniziare a utilizzare Claude-2 anziché GPT-4.

Anthropic ha reso Claude-2 disponibile attraverso diversi canali. Gli utenti possono accedervi tramite l’API, consentendo alle aziende di integrarlo senza problemi nei propri sistemi. Sorprendentemente, Anthropic ha mantenuto lo stesso prezzo dell’API per Claude-2 rispetto al suo predecessore, Claude-1.3, rendendo l’aggiornamento all’ultimo modello ancora più allettante per gli utenti che tengono sotto controllo il budget.

Partner come Jasper, una piattaforma di intelligenza artificiale generativa, hanno segnalato la potenza di Claude-2 in una vasta gamma di casi d’uso, in particolare quelli che richiedono la generazione di contenuti estesi. Con una finestra di contesto 3 volte più grande e una semantica migliorata, Claude-2 ha aiutato i clienti di Jasper a rimanere al passo con i tempi e a raggiungere i propri obiettivi di strategia dei contenuti.

Un’altra collaborazione degna di nota coinvolge Sourcegraph, una piattaforma di intelligenza artificiale per il codice che assiste gli sviluppatori nella scrittura, correzione e manutenzione del codice. L’assistente di codifica di Sourcegraph, Cody, sfrutta il miglioramento del ragionamento di Claude-2 e l’accesso a una finestra di contesto più ampia fino a 100.000 token. Fornendo risposte accurate e integrando il contesto della base di codice, Cody aiuta gli sviluppatori ad accelerare il proprio flusso di lavoro e a rimanere aggiornati con i framework e le librerie più recenti.

Anthropic afferma che il modello di Claude-2 è stato sottoposto a una rigorosa valutazione, inclusi test interni e test automatizzati con prompt potenzialmente dannosi. In queste valutazioni, Claude-2 ha dimostrato di migliorare nel fornire risposte innocue rispetto a Claude-1.3. Tuttavia, è importante sottolineare che nessun modello è completamente immune all’abuso e Anthropic lo riconosce.

“Ad esempio, i modelli di Claude possono supportare un avvocato ma non dovrebbero sostituirlo, e ogni lavoro dovrebbe comunque essere revisionato da un essere umano”, si legge nel documento. Alcune persone su Twitter hanno già fatto notare che le affermazioni di essere bravi in matematica sono sopravvalutate.

Anthropic riconosce la natura in continua evoluzione dell’intelligenza artificiale e si impegna per un’implementazione responsabile. Claude-2 è pronto a diventare un compagno fidato per gli individui e uno strumento prezioso per le aziende.

Mentre gli utenti cercano alternative al declino dell’utilizzo di ChatGPT, l’offerta economica di Claude-2 e il notevole set di funzionalità lo rendono un’opzione allettante. Sembra che finalmente sia arrivato un vero concorrente per OpenAI, il che potrebbe portare a una riduzione dei prezzi da parte dell’azienda e ad una competizione più equilibrata.

Claude 2 vs GPT-4

DiFantasy

Di Fantasy

Articoli correlati

Google presenta Gemini Robotics ER 2 per coordinare attività complesse e squadre di robot

OpenAI riduce fino all’80% i prezzi API di GPT-5.6 Luna e Terra

Modelli Claude accedono ai sistemi reali di tre organizzazioni durante test di sicurezza

Ultimi Post

Google presenta Gemini Robotics ER 2 per coordinare attività complesse e squadre di robot

OpenAI riduce fino all’80% i prezzi API di GPT-5.6 Luna e Terra

Modelli Claude accedono ai sistemi reali di tre organizzazioni durante test di sicurezza

Vulnerabilità di Microsoft 365 Copilot potevano esporre email e file aziendali