Il termine “IA Asburgica” è emerso recentemente come una metafora per descrivere il potenziale collasso dei modelli di intelligenza artificiale (IA) causato dall’uso eccessivo di dati sintetici. Il termine richiama il crollo dell’Impero Asburgico, che ha subito gravi conseguenze a causa dei matrimoni tra parenti, suggerendo che l’uso di dati sintetici potrebbe portare a problemi simili nel campo dell’IA.
Con la crescente carenza di dati reali per l’addestramento dei modelli di IA, i dati sintetici sono stati proposti come alternativa. Tuttavia, diversi studi recenti mettono in dubbio l’efficacia di questa soluzione. Ad esempio, un documento di ricerca intitolato “Llama 3.1” ha evidenziato che l’uso di dati autogenerati può non solo essere inefficace, ma persino deteriorare le prestazioni dei modelli.
Un altro studio, pubblicato a giugno dello scorso anno da ricercatori dell’Università di Cambridge, ha mostrato che i modelli di IA tendono a enfatizzare i dati dominanti durante l’apprendimento e ignorare quelli parziali. Questo fenomeno può portare al collasso dei modelli, rendendoli incapaci di generalizzare correttamente.
L’analogia con l’Impero Asburgico deriva dal fatto che, proprio come i matrimoni in famiglia contribuirono al declino dell’impero, l’eccessivo affidamento sui dati sintetici potrebbe portare a problemi analoghi nell’IA. La dinastia Asburgica, che governò l’Europa dal XVI al XIX secolo, usò i matrimoni come mezzo per espandere il potere, ma la consanguineità ha portato a malattie ereditarie e, infine, al collasso dell’impero.
Jathan Sadowski, ricercatore senior della Monash University, ha coniato il termine “IA Asburgica” e avverte che i ricercatori e le aziende devono fare attenzione alla quantità di dati sintetici utilizzati. Sadsowski suggerisce di esplorare tutte le possibili soluzioni invece di affidarsi esclusivamente ai dati sintetici.
Alcuni propongono un approccio “ibrido” che combina dati sintetici e reali per evitare il collasso dei modelli. Il CEO di OpenAI, Sam Altman, ritiene che è possibile risolvere i problemi con “buoni dati sintetici”, ma la questione rimane controversa.
Gary Marcus, analista di intelligenza artificiale e professore emerito alla New York University, sottolinea che, nonostante l’uso di più dati, i Large Language Models (LLM) hanno raggiunto un punto di saturazione. Marcus avverte che i dati sintetici possono risolvere solo alcuni problemi, ma non affrontano i limiti fondamentali dei modelli di IA, che non sono capaci di ragionare o pianificare come farebbe un essere umano.