OpenAI ha lanciato un nuovo web crawler denominato GPTBot, progettato per indicizzare il contenuto online. Questo rilascio è stato fatto in sordina, con la disponibilità di documentazione aggiornata su come interagire e riconoscere il crawler, anziché con grandi annunci.

Come molti web crawler, anche GPTBot esplora il vasto web per raccogliere dati. Il suo obiettivo è trovare contenuti che arricchiscano ulteriormente i modelli linguistici di OpenAI, come GPT-4 e le versioni successive, incluso un possibile GPT-5 o G3PO open source. OpenAI desidera, attraverso questo mezzo, avere un migliore dominio dei dati con cui addestra i suoi modelli, piuttosto che affidarsi a set di dati di terzi. Si aspetta che GPTBot escluda contenuti dietro paywall o in conflitto con le politiche di privacy dell’azienda. Anche se avere GPTBot sul tuo sito potrebbe contribuire a perfezionare la qualità dell’IA, OpenAI ha fornito agli sviluppatori web gli strumenti per limitare o bloccare del tutto l’accesso di GPTBot attraverso il file robots.txt.

Secondo la documentazione di OpenAI: “I contenuti esplorati da GPTBot potrebbero essere impiegati per arricchire modelli futuri, ma vengono filtrati per escludere contenuti a pagamento, fonti che raccolgono dati personali o che violano le nostre linee guida. Permettere a GPTBot di esplorare il tuo sito potrebbe rendere l’IA più efficace e sicura.”

La decisione di formare un modello di IA con dati da web solleva inevitabilmente questioni sia di etica che legali. Mentre GPTBot offre trasparenza, rimane aperto il dibattito sull’effettivo beneficio per i proprietari di siti web. Mentre i tradizionali web crawler migliorano la visibilità del tuo sito, i modelli come GPT-4 non forniscono sempre riferimenti chiari o link. Bret Kinsella, leader nel campo della voce digitale, osserva che le nuove opzioni rendono OpenAI un “cittadino digitale più responsabile” in un momento in cui le autorità globali stanno esaminando con attenzione il settore dell’IA.

Kinsella afferma: “Questa funzionalità potrebbe ridurre i potenziali rischi legali per OpenAI, ma non fornirà una copertura completa. Tuttavia, mostra un approccio basato su un consenso implicito con la possibilità di opt-out, indicando che OpenAI potrebbe giustificare il suo metodo simile all’utilizzo dei motori di ricerca.”

Anche se ChatGPT non porta traffico diretto ai siti, la sua vasta audience potrebbe comunque attrarre l’attenzione degli editori. E, come dimostrato da altre piattaforme AI, fornire riferimenti potrebbe diventare una caratteristica standard nei futuri chatbot IA.

Di Fantasy