Harvard University ha recentemente reso disponibile un vasto dataset di intelligenza artificiale, composto da un milione di libri di pubblico dominio, con l’obiettivo di facilitare l’accesso a dati di alta qualità per startup e ricercatori. Questo progetto ha ricevuto il supporto di giganti tecnologici come Google, Microsoft e OpenAI, segnando un passo significativo verso la democratizzazione dell’AI.
Il dataset comprende opere di autori come Charles Dickens, Dante Alighieri e William Shakespeare, i cui diritti d’autore sono scaduti, rendendole di pubblico dominio. Con una dimensione cinque volte superiore al precedente dataset “Books3”, questa raccolta offre una risorsa preziosa per l’addestramento di modelli di intelligenza artificiale, in particolare nel campo dell’elaborazione del linguaggio naturale (NLP).
La creazione di questo dataset è stata possibile grazie al progetto “Google Books”, che ha digitalizzato milioni di libri. Inoltre, OpenAI e Microsoft hanno fornito supporto finanziario, sottolineando l’importanza di rendere accessibili risorse di alta qualità per la comunità AI.
Greg Lapham, direttore dell’Institute for Data Innovation (IDI) di Harvard, ha dichiarato che l’iniziativa mira a livellare il campo di gioco per piccoli sviluppatori di AI, che spesso non hanno accesso a dataset estesi utilizzati dalle grandi aziende tecnologiche. Rendendo questo dataset disponibile, si promuove l’innovazione e si incoraggia la collaborazione in vari campi, tra cui NLP, machine learning e sviluppo di intelligenza artificiale.
La disponibilità di questo dataset potrebbe accelerare i progressi in numerosi settori, offrendo alle startup l’opportunità di sviluppare modelli più accurati e sofisticati. Inoltre, facilita la ricerca accademica, permettendo agli studiosi di esplorare nuove frontiere nell’AI senza le barriere imposte dalla mancanza di dati.