AI Startup Diffbot legge l’intera Internet pubblica per perseguire la generazione di testo basata sui fatti
I recenti progressi nell’elaborazione del linguaggio naturale e nella generazione di testo realizzati da OpenAI attraverso i loro modelli di linguaggio GPT-2 e GPT-3 sono stati impressionanti, in grado di generare testo che sembra essere stato scritto veramente da un essere umano. Sfortunatamente, sebbene questi modelli eccellano nella scrittura di testi dal suono naturale, non sono attrezzati per scrivere testi che siano reali. I modelli linguistici avanzati assemblano frasi a partire da parole che hanno più senso nel contesto, senza prestare alcuna attenzione alla veridicità delle affermazioni all’interno del testo generato. Come riportato dalla revisione tecnologica del MIT , una startup nota come Diffbot mira a risolvere questo problema facendo in modo che un’intelligenza artificiale estragga quanti più fatti possibile da Internet.
Diffbot è una startup che spera di rendere l’intelligenza artificiale più utile per attività pratiche di generazione di testo come fogli di calcolo a compilazione automatica e frasi o codice a completamento automatico. Affinché il testo generato dall’IA sia affidabile, l’IA stessa deve essere affidabile e deve avere un concetto di affermazioni fattuali e fittizie. L’approccio di Diffbot per dare a un programma di generazione di testo la capacità di generare dichiarazioni fattuali inizia raccogliendo enormi quantità di testo praticamente dall’intero web pubblico. Diffbot analizza il testo in più lingue e divide il testo in insiemi di terzine basate sui fatti, con il soggetto, l’oggetto e il verbo di un dato fatto utilizzati per collegare un concetto a un altro. Ad esempio, potrebbe rappresentare fatti riguardanti Bill Gates e Microsoft come questo:
Bill Gates è il fondatore di Microsoft. Microsoft è una società di tecnologia informatica.
Diffbot prende tutti questi brevi fatti e li unisce per creare un grafico della conoscenza. I grafici della conoscenza creano reti di relazioni tra concetti, spesso insieme a un ragionatore che aiuta nella creazione di nuove conclusioni basate su queste relazioni. In altre parole, i grafici della conoscenza utilizzano l’interconnessione dei dati e possono aiutare l’apprendimento automaticoalgoritmi per modellare domini di conoscenza. I grafici della conoscenza esistono da decenni e molti dei primi ricercatori di IA li consideravano strumenti importanti per consentire all’IA di comprendere il mondo umano. Tuttavia, i grafici della conoscenza venivano generalmente creati a mano, il che è un processo difficile e doloroso. L’automazione della creazione di grafici della conoscenza potrebbe consentire alle IA di ottenere una comprensione dei concetti molto più ampia e contestuale e di produrre testo basato sui fatti.
Google ha iniziato a utilizzare i grafici della conoscenza alcuni anni fa per fornire un riepilogo delle informazioni quando viene cercato un argomento popolare. Il grafico della conoscenza viene utilizzato per estrarre i fatti più rilevanti e rappresentarli come un riepilogo. Diffbot vuole fare la stessa cosa per ogni argomento, non solo per quelli più popolari. Ciò richiede la creazione di un grafo della conoscenza assolutamente enorme, compilato eseguendo la scansione dell’intero Web pubblico, cosa che solo Google e Microsoft fanno altrimenti. Diffbot esegue la scansione dell’intero Web e aggiorna il grafico della conoscenza con nuove informazioni ogni quattro o cinque giorni e nel corso di un mese aggiunge da 100 a 150 milioni di voci.
Diffbot non legge il testo di un sito web come i normali web-crawler, piuttosto utilizza algoritmi di visione artificiale per estrarre i pixel grezzi di una pagina web ed estrarre dati di video, immagini, articoli e discussioni dalla pagina. Identifica gli elementi chiave della pagina web e quindi estrae i fatti in una varietà di lingue, in aderenza allo schema dei fatti in tre parti.
Attualmente, Diffbot offre l’accesso sia a pagamento che gratuito al suo grafico della conoscenza. Mentre i ricercatori possono accedere al grafico gratuitamente, aziende come DuckDuckGo e Snapchat lo utilizzano per riassumere il testo ed estrarre frammenti di notizie di tendenza. Nel frattempo, Nike e Adidas utilizzano la piattaforma per trovare siti che vendono prodotti contraffatti, il che è possibile perché Diffbot è in grado di accertare quali siti vendono effettivamente scarpe, non solo discutendone.
In futuro, Diffbot prevede di espandere le sue capacità e aggiungere un’interfaccia in linguaggio naturale alla piattaforma, in grado di rispondere a quasi tutte le domande che gli vengono poste e di eseguire il backup di tali risposte con le fonti. Idealmente, le capacità di Diffbot sarebbero combinate con un potente modello di sintesi linguistica come GPT-3.