Recentemente, la comunità dell’intelligenza artificiale ha assistito al lancio di DeepSeek-V3, un modello open source sviluppato dall’azienda cinese DeepSeek. Questo modello, che vanta 671 miliardi di parametri, è attualmente il più grande LLM (Large Language Model) open source disponibile, superando modelli precedenti come Llama 3.1 di Meta e Qwen 2.5 di Alibaba.
Tuttavia, ciò che ha suscitato particolare interesse è il comportamento di DeepSeek-V3 durante le interazioni. In diverse occasioni, il modello ha affermato di essere GPT-4 di OpenAI, fornendo persino istruzioni sull’utilizzo dell’API di OpenAI e replicando battute tipiche di GPT-4. Questo fenomeno suggerisce che DeepSeek-V3 potrebbe essere stato addestrato utilizzando dati generati da GPT-4, portandolo a “credere” di essere quel modello.
L’addestramento di modelli AI su dati generati da altri modelli solleva preoccupazioni significative. Secondo Mike Cook, ricercatore presso il King’s College di Londra, questo approccio può compromettere la qualità del modello, aumentando il rischio di allucinazioni o risposte errate. Il fenomeno, noto come “model collapse” o collasso del modello, si verifica quando un modello perde progressivamente la connessione con informazioni reali, diventando meno accurato nel tempo.
Inoltre, l’utilizzo di output di modelli proprietari come dati di addestramento può violare i termini di servizio delle aziende che li hanno sviluppati. OpenAI, ad esempio, proibisce l’uso dei propri output per la creazione di modelli concorrenti. In risposta a queste pratiche, Sam Altman, CEO di OpenAI, ha sottolineato che, sebbene sia facile replicare ciò che già funziona, è attraverso l’innovazione e l’assunzione di rischi che si ottengono i maggiori riconoscimenti nel campo della ricerca.
Questo caso evidenzia una sfida emergente nel campo dell’intelligenza artificiale: l’addestramento di modelli su dati generati da altri modelli. Con la crescente diffusione di contenuti generati da AI sul web, esiste il rischio che i modelli futuri vengano addestrati su dati sintetici, compromettendo la loro qualità e affidabilità. Heidi Klaaf, capo scienziato AI presso AI Now, suggerisce che, per ridurre i costi, potrebbe essere più efficace utilizzare tecniche di “distillazione” delle conoscenze dei modelli esistenti, evitando così di replicare direttamente gli output di altri modelli.