Meta, l’azienda madre di Facebook, ha recentemente rivelato dettagli sullo sviluppo del suo modello di intelligenza artificiale, Llama 3, evidenziando l’obiettivo di superare GPT-4 di OpenAI. Durante questo processo, Meta ha minimizzato la concorrenza di Mistral AI, un’altra entità nel campo dell’open source AI.

Queste informazioni sono emerse attraverso documenti legali presentati in una causa per violazione del copyright intentata da un gruppo di scrittori, tra cui la comica Sarah Silverman e l’autore Ta-Nehisi Coates, contro Meta. I querelanti sostengono che Meta abbia utilizzato dati protetti da copyright senza autorizzazione per addestrare Llama 3, accumulando massicciamente contenuti da fonti non autorizzate.

Secondo i documenti, Ahmad Al-Dahle, vicepresidente del settore AI generativa di Meta, ha comunicato al ricercatore Hugo Touvron nell’ottobre 2023: “Il nostro obiettivo è superare GPT-4”. Al-Dahle ha sottolineato che i modelli AI di Meta dovrebbero essere confrontati con quelli di OpenAI e Anthropic, considerando Mistral AI come una minaccia minore, definendola “irrilevante” e affermando: “Possiamo fare di meglio”.

I documenti rivelano anche l’approccio aggressivo di Meta nell’acquisizione di dati per l’addestramento di Llama 3. I dirigenti hanno insistito sull’ottenimento di dataset adeguati, criticando la qualità dei dati utilizzati per Llama 2 e cercando fonti migliori per migliorare le prestazioni del nuovo modello. È emerso che Meta ha discusso l’utilizzo di “LibGen”, un repository contenente copie non autorizzate di libri, per l’addestramento di Llama 3. Nonostante la consapevolezza dei potenziali problemi legali associati, si sostiene che il CEO Mark Zuckerberg abbia approvato l’uso di tali dati.

Meta ha lanciato Llama 3 nell’aprile 2024, presentandolo come un modello open source in grado di competere con modelli chiusi come quelli di OpenAI, Google e Anthropic. Zuckerberg ha enfatizzato che Llama 3 rappresenta un punto di svolta, dimostrando che i modelli open source possono superare quelli proprietari.

Tuttavia, l’uso di dati non autorizzati per l’addestramento di Llama 3 ha sollevato preoccupazioni legali ed etiche. La causa in corso potrebbe avere implicazioni significative per l’industria dell’intelligenza artificiale, sollevando interrogativi sull’equilibrio tra innovazione tecnologica e rispetto dei diritti di proprietà intellettuale.

Di ihal