Il chatbot “Claude” di intelligenza artificiale (AI) di Antropic, che ha ampliato la finestra di contesto a 100.000 token, ha meno chatbot rispetto a ChatGPT di OpenAI, “Bingchat” di Microsoft e “Bard” di Google. È stato dimostrato che le allucinazioni generano più testo più velocemente.
Search Engine Journal, un media di ricerca specializzato, ha riferito che Claude, ChatGPT, Bingchat e Bard sono stati utilizzati per confrontare le attività di creazione di testo e, di conseguenza, Claude ha superato in modo significativo altri chatbot AI.
Antropic ha rilasciato “Claude-instant-100k” a maggio, che ha ampliato la finestra di contesto di Claude da 9.000 token a 100.000 token.
La finestra di contesto è il numero di token a cui si fa riferimento per prevedere la parola successiva. Una parola corrisponde a uno o più token. 100.000 token corrispondono a circa 75.000 parole. In sostanza, una finestra di contesto più lunga consente al modello di ricordare più testo.
I modelli con finestre di contesto brevi tendono a dimenticare le conversazioni recenti, portandole fuori tema. Dopo qualche migliaio di parole o giù di lì, dimentica la richiesta iniziale e invece deduce l’azione dall’ultima informazione nella finestra del contesto piuttosto che dalla richiesta originale.
Il modello GPT-4 standard di OpenAI supporta 8.000 token come finestra di contesto e il suo modello esteso supporta 32.000 token (circa 25.000 parole).
Bingchat di Microsoft visualizza 0/4000 nella casella di input del prompt, consentendo solo fino a 4.000 caratteri, ma in realtà può ricevere fino a 40.400 caratteri, equivalenti a 6.000 parole, come input.
Bard di Google consente fino a 10.000 caratteri.
Claude consente 3 volte più input rispetto al modello di estensione GPT-4. In termini di prompt input, finestre di contesto più grandi possono rispondere a query più complesse perché è possibile fornire più dati come input.
Utilizzando una lunga finestra di contesto, puoi rispondere con precisione a una determinata query utilizzando dati che non hai mai visto prima, attraverso l'”apprendimento a colpo singolo”, che fornisce direttamente nuovi dati come input senza modificare effettivamente i pesi del modello attraverso la messa a punto.
Per confrontare i risultati del lavoro generati da Claude, ChatGPT, Bingchat e Bard per la stessa query di input, abbiamo prima chiesto di riscrivere ciascun elemento in un elenco di 126 elementi composto da 1850 parole (12.500 caratteri).
Di conseguenza, Claude ha completato la riscrittura di tutti i 126 articoli senza allucinazioni. Ha eseguito le attività più velocemente rispetto ad altri chatbot.
ChatGPT invece ha smesso di funzionare al 37esimo elemento (#38). Ha continuato al comandiìo ‘genera’, ha completato l’elemento 37 e si è fermato di nuovo. In questo modo, le attività richieste sono state completate fino alla 126esima (#127), ma la riscrittura è stata completata dopo la creazione di elementi (da #128 a #143) che non erano nelle attività originariamente richieste.
Bingchat ha completato la riscrittura fino al 126esimo (#127) elemento senza allucinazioni, ma per gli elementi successivi al 18esimo (#19), ha creato lo stesso contenuto dell’elemento di input.
Nel caso di Google, solo 99 (n. 100) elementi potevano essere inviati nell’elenco dei prompt a causa del limite di immissione di 10.000 caratteri.
Per il nostro secondo compito di confronto, ci è stato chiesto di riassumere un testo composto da 23.508 parole (125.104 caratteri) di un PDF che documenta la risposta di TikTok a un’audizione su come la piattaforma social potrebbe proteggere i cittadini americani.
D’altra parte, ChatGPT ha richiesto un testo di input più breve, Bingchat si è disconnesso a metà operazione e Bard ha riassunto solo i primi 10.000 caratteri.