IBM ha annunciato il suo impegno a prendere la piena responsabilità per tutte le questioni relative ai diritti d’autore derivanti dall’uso dell’intelligenza artificiale generativa (AI). Inoltre, ha dichiarato che renderà pubblico il set di dati utilizzato per l’addestramento dell’intelligenza artificiale, mettendo in atto un’offerta rivoluzionaria nel campo dell’intelligenza artificiale aziendale.
Il New York Times ha riportato il 28 del mese (ora locale) che IBM sta adottando un approccio particolarmente aggressivo per affrontare le preoccupazioni legate ai diritti d’autore nell’ambito dell’intelligenza artificiale, cercando di alleviare l’ansia dei suoi clienti.
L’8, IBM ha lanciato un nuovo modello linguistico su larga scala (LLM) denominato “Granite”, progettato per essere utilizzato con il suo sistema “Watson”. Questo annuncio è stato accompagnato da una vasta gamma di prodotti mirati alla creazione di modelli di intelligenza artificiale generativa, tra cui database vettoriali. Questo sforzo ha contribuito a creare ciò che IBM definisce un “sistema di servizi AI completo” per le aziende.
Quello che è emerso di recente è ancora più sorprendente. Microsoft (MS) ha rilasciato una dichiarazione simile all’inizio del mese, impegnandosi a prendere la piena responsabilità per eventuali questioni di copyright legate all’uso dell’intelligenza artificiale generativa da parte dei suoi utenti. Anche società specializzate nei servizi di intelligenza artificiale per la creazione di immagini, come Adobe e Shutterstock, hanno fatto promesse simili. Tuttavia, IBM è stata la prima a annunciare che renderà pubblici tutti i set di dati utilizzati per l’addestramento dell’AI.
Patrick Moorhead, CEO di Insight & Strategies, ha commentato questa mossa di IBM affermando che essa riflette la direzione che il mercato aziendale dell’intelligenza artificiale sta prendendo.
In particolare, in merito alla divulgazione dei set di dati, ha spiegato: “Le aziende devono essere in grado di tracciare quali dati sono stati utilizzati nell’addestramento dell’intelligenza artificiale e comprendere il motivo per cui l’AI ha generato una specifica risposta.” Ha sottolineato che l’inserimento di dati sensibili o appartenenti ai clienti in un modello di intelligenza artificiale rappresenta un rischio significativo.
Inoltre, i modelli LLM (Large Language Model) ad uso generico, come “GPT-4” di OpenAI o “Palm 2” di Google, sono spesso considerati “black box”, il che significa che non rivelano quale set di dati è stato utilizzato per il loro addestramento. Questo aspetto rende difficile per le aziende ottenere questa informazione.
Per esempio, il servizio Watson X di IBM è progettato esclusivamente per le aziende, differenziandosi dai chatbot per uso generico. Anche il suo modello “Granite” è notevolmente più piccolo, con soli 13 miliardi di parametri, rispetto ai circa 1,5 trilioni di parametri stimati per “GPT-4”.
Inoltre, la maggior parte dei modelli LLM open source destinati all’uso aziendale sono caratterizzati da un numero molto inferiore di parametri rispetto a quelli destinati al pubblico generico. Questi modelli aziendali vengono addestrati utilizzando dati professionali su piccola scala, attentamente selezionati e con diritti d’autore risolti, anziché utilizzare dati di ampia portata raccolti pubblicamente da Internet.
Rob Thomas, vicepresidente senior di IBM Software, ha sottolineato: “Man mano che la quantità di dati di addestramento diminuisce, la precisione migliora”. Ha aggiunto che i modelli LLM più piccoli richiedono notevolmente meno potenza di calcolo rispetto ai grandi chatbot per uso generico, portando a risparmi significativi di tempo e denaro per le aziende.