Il Washington Post ha pubblicato un interessante sito web interattivo che spiega quali sono le fonti utilizzate da Google e da altri costruttori di intelligenza artificiale per addestrare i loro chatbot. Questi strumenti, a differenza degli esseri umani, non “capiscono” ciò che viene loro detto, ma possono mimare il linguaggio umano grazie all’IA. Le loro conoscenze derivano dall’apprendimento di grandi quantità di testi presenti sul web.

Il giornale americano ha esaminato il dataset Google C4, che contiene 15 milioni di siti web utilizzati da Google per T5, Bard e da Facebook per il suo modello linguistico LLaMA. Sebbene manchi il dataset di OpenAI per ChatGPT, il Washington Post ipotizza che sia simile a quelli di Google e Facebook.

Google Patents e Wikipedia sono le due principali fonti di informazione utilizzate dall’IA, rispettivamente al primo e al secondo posto. Google Patents raccoglie testi di brevetti da tutto il mondo, mentre Wikipedia è un’enciclopedia online di libero accesso. In terza posizione si trova Scribd.com, una grande biblioteca digitale con molti libri e riviste in versione full-text.

Tuttavia, preoccupa la presenza di database contenenti dati personali di persone fisiche, come ColoradoVoters.info e FLVoters.com, che contengono informazioni sugli elettori registrati in Stati come la Florida e il Colorado. Sebbene questi dati siano pubblici negli Stati Uniti, la loro inclusione tra le informazioni utilizzate dall’IA potrebbe creare problemi di privacy.

La maggior parte dei siti web visitati dall’IA sono aziende, e-commerce e industrie di vario tipo in tutto il mondo. Seguono tecnologia, notizie, arte, intrattenimento, scienza e salute. Tra i siti web più visitati nella categoria “business and industrial” ci sono piattaforme famose come Kickstarter e Patreon, ma anche il sito Fool.com, che fornisce consigli di investimento.

Il sito web interattivo del Washington Post è un’ottima risorsa per comprendere come funziona l’addestramento dei chatbot basati sull’IA. Questo strumento può essere molto utile per migliorare l’esperienza utente e rendere più efficiente la comunicazione con i clienti. Tuttavia, come evidenziato dalla presenza di database di dati personali degli elettori, è importante prestare attenzione alla protezione della privacy dei dati degli utenti.

Inoltre, la dipendenza dell’IA dalle fonti web per l’apprendimento delle informazioni può creare una sorta di “filtro a campana” che limita l’accesso a fonti di conoscenza meno frequentate. Ciò potrebbe portare a una visione limitata e distorsa delle informazioni, soprattutto se gli algoritmi di selezione delle fonti sono influenzati da bias.

In generale, è importante continuare a monitorare lo sviluppo dell’IA e le sue implicazioni per la privacy, l’etica e l’accesso alle informazioni. In questo modo, possiamo assicurare che questi strumenti vengano utilizzati in modo responsabile e per il bene comune.

Di Fantasy