OpenAI ha dichiarato che senza utilizzare materiali protetti da copyright, sarebbe impossibile addestrare i principali modelli di intelligenza artificiale attuali. Questo è emerso dal documento presentato alla Camera dei Lord del Regno Unito all’inizio di quest’anno, che ha suscitato grande interesse online.
Questo argomento è centrale nella difesa pubblica e legale di OpenAI per le sue discusse pratiche di raccolta di dati di massa utilizzate per addestrare i suoi modelli di intelligenza artificiale, come ad esempio i modelli LLM (Large Language Model) come GPT-3.5/4, che alimentano il suo prodotto di successo, ChatGPT. Allo stesso modo, anche i concorrenti come Google, Mistral, Meta, Anthropic e Cohere potrebbero essere implicati. I critici affermano che OpenAI avrebbe dovuto ottenere un consenso esplicito e/o pagare i costi di licenza per l’uso di dati protetti da copyright. Tuttavia, l’azienda sostiene che le sue pratiche costituiscano un uso trasformativo equo e che siano conformi alle norme consolidate di Internet, dove il contenuto è stato raschiato per anni da molte altre società per migliorare gli indici dei motori di ricerca e altre funzionalità, senza sollevare polemiche di massa. Questa disputa continua attraverso varie cause legali in corso.
Tuttavia, un nuovo modello sta mettendo in discussione questo presupposto, almeno nel senso che sfida l’idea che sia impossibile creare un modello utile senza fare affidamento su dati protetti da copyright.
Questo nuovo modello LLM si chiama KL3M (Kelvin Legal Large Language Model, pronunciato “Clem”) ed è stato sviluppato da 273 Ventures, una startup fondata due anni fa da Daniel Martin Katz, professore di diritto presso l’Illinois Institute of Technology e Chief Strategy Officer (CSO) dell’azienda, insieme al suo “frequente collaboratore” Michael Bommarito, imprenditore nel settore della tecnologia legale e CEO di 273 Ventures. Il duo aveva precedentemente fondato LexPredict, una startup legale basata sull’intelligenza artificiale, che è stata successivamente venduta alla società legale globale Elevate.
KL3M è stato rilasciato alla fine di febbraio 2024 ed è diventato il primo LLM a ricevere una “Certificazione modello con licenza (L)” da Fairly Trained, un’organizzazione no-profit fondata da Ed Newton-Rex, ex dirigente di Stability AI, all’inizio di quest’anno. Wired, di cui la moglie di Katz lavora come caporedattrice, è stata la prima a riportare la notizia.
La certificazione Fairly Trained (L) è assegnata solo alle aziende che dimostrano attraverso un processo di richiesta e revisione di utilizzare dati di addestramento ottenuti legalmente, secondo un accordo contrattuale o di pubblico dominio/licenza aperta. Il costo di questa certificazione varia da $150 a $500 all’anno. KL3M ha soddisfatto questi requisiti.
KL3M è stato addestrato utilizzando un sottoinsieme inglese curato e di alta qualità del Kelvin Legal DataPack, che contiene documenti e dati di pubblico dominio raccolti scrupolosamente da fonti come documenti governativi statunitensi e vecchi documenti legali. Questi dati sono stati raggruppati in un prodotto chiamato Kelvin Legal DataPack e rilasciato nell’agosto 2023. KL3M è stato addestrato su questo dataset, che include una revisione manuale di 10.000 documenti e un set di dati con circa 350 miliardi di token.
KL3M ha dimostrato risultati promettenti, con due versioni rilasciate finora: kl3m-170m con 170 milioni di parametri e kl3m-1.7b con 1,7 miliardi di parametri. Quest’ultimo modello richiede hardware più potente per l’esecuzione. 273 Ventures sta anche lavorando a una variante da 3,7 miliardi di parametri di KL3M.
KL3M è stato progettato per essere utile nella redazione e revisione di documenti legali, contratti, rapporti finanziari SEC e brevetti. Anche se pensato principalmente per il settore legale, KL3M può essere applicato in ambiti più ampi della società, secondo Katz.
273 Ventures ha confrontato le prestazioni di KL3M con altri modelli della stessa categoria, scoprendo che KL3M ha prestazioni migliori in termini di errori di previsione dei token e di emissioni tossiche rispetto ad altri modelli concorrenti.
Attualmente, il costo di KL3M non è reso pubblico e il modello è già utilizzato da diversi clienti nel settore legale.