Immagine AI

Il recente rilascio del modello di intelligenza artificiale R1-0528 da parte della startup cinese DeepSeek ha suscitato notevole interesse nel settore tecnologico grazie alle sue prestazioni avanzate in matematica, programmazione e ragionamento logico. Tuttavia, questo successo è accompagnato da accuse di utilizzo non autorizzato di dati provenienti da modelli concorrenti, sollevando preoccupazioni etiche e legali.

Secondo quanto riportato da TechCrunch, l’aggiornamento del modello R1-0528 ha portato a un miglioramento significativo delle capacità di ragionamento, con un aumento dell’accuratezza dal 70% all’87,5% in un test matematico di AIME 2025. Tuttavia, sviluppatori come Sam Paech hanno osservato che il modello sembra preferire espressioni e vocabolario simili a quelli del modello Gemini 2.5 Pro di Google, suggerendo una possibile “distillazione” dei dati di Gemini. Un altro sviluppatore ha notato che il processo di pensiero del modello DeepSec appare simile a quello di Gemini, sebbene queste osservazioni non costituiscano prove definitive di plagio.

Le accuse di DeepSeek di utilizzare dati di modelli concorrenti non sono nuove. Nel dicembre dello scorso anno, il modello DeepSeek-V3 si riferiva a se stesso come “ChatGPT”, sollevando dubbi sull’uso dei log delle chat di OpenAI come dati di addestramento. Inoltre, OpenAI ha dichiarato di aver rilevato prove dell’uso di distillazione da parte di DeepSeek, una tecnica che sfrutta i dati di output di modelli di intelligenza artificiale ad alte prestazioni per addestrare modelli più piccoli. Bloomberg ha anche riferito che Microsoft ha rilevato una grande quantità di fuga di dati tramite gli account degli sviluppatori di OpenAI alla fine del 2024, collegati a DeepSeek.

Sebbene la distillazione sia una tecnica comune nel settore dell’intelligenza artificiale, OpenAI proibisce esplicitamente lo sviluppo di modelli concorrenti basati sul suo output. Gli esperti ritengono che la difficoltà nel filtrare completamente l’output dell’intelligenza artificiale dai dati di addestramento, noto come “AI slop”, possa aver contribuito a questa situazione. Le content farm distribuiscono indiscriminatamente contenuti generati dall’IA per attrarre clic, e anche importanti piattaforme come Reddit e X sono inondate di contenuti generati dall’IA. Ciò aumenta la probabilità che modelli come DeepSeek apprendano contenuti scritti da modelli concorrenti in situazioni non intenzionali.

Nonostante le controversie, DeepSeek ha continuato a sviluppare e rilasciare modelli avanzati, come il modello R1-0528, che ha attirato l’attenzione per le sue prestazioni superiori a un costo inferiore rispetto ai concorrenti. La situazione solleva interrogativi sul bilanciamento tra innovazione, etica e protezione della proprietà intellettuale nel campo dell’intelligenza artificiale.

Di Fantasy