Emma-5, il modello linguistico presentato da Egomnia come un’intelligenza artificiale nata in Italia, è stato sospeso temporaneamente pochi giorni dopo l’apertura al pubblico. La piattaforma aveva raccolto oltre 60.000 conversazioni, ma i test condotti dagli utenti hanno evidenziato errori elementari di ragionamento, risposte fattualmente errate, difficoltà nel gestire richieste semplici e tempi di risposta spesso incompatibili con un normale utilizzo conversazionale.

Il caso riguarda soprattutto il modo in cui un modello linguistico viene esposto al pubblico durante una fase sperimentale. Emma-5 non è stata utilizzata soltanto per compiti creativi o per generazione di testo, ma è stata sottoposta immediatamente a domande di logica, calcolo, conoscenza generale e sicurezza. In queste condizioni sono emerse risposte come l’attribuzione di un peso diverso a un chilo di pane e a un chilo di piume, l’affermazione che un cane possa volare oppure indicazioni inadeguate davanti a richieste che coinvolgevano un’arma destinata a un bambino.

Questi errori non dipendono necessariamente da una singola componente difettosa. In un LLM, la qualità finale è il risultato della combinazione tra dimensione del modello, quantità e selezione dei dati di addestramento, qualità del fine-tuning, procedure di allineamento, filtri di sicurezza, sistemi di retrieval, prompt di sistema e infrastruttura di inferenza. Un modello può produrre testi formalmente corretti sul piano grammaticale e, allo stesso tempo, non possedere capacità affidabili di calcolo, ragionamento simbolico o verifica dei fatti.

Matteo Achilli, fondatore di Egomnia, ha descritto Emma come un progetto sperimentale con pochi gigabyte di dataset e parametri limitati rispetto ai grandi modelli generalisti. L’indicazione è rilevante perché un modello con scala ridotta può essere più economico da addestrare, distribuire e gestire, ma non può essere confrontato direttamente con sistemi che utilizzano quantità molto maggiori di dati, potenza di calcolo e procedure di post-addestramento. La dimensione non è l’unico fattore che determina le prestazioni, ma influenza la capacità del modello di rappresentare conoscenze, mantenere coerenza su contesti lunghi e gestire compiti non previsti in modo robusto.

Emma-5 è stata inizialmente proposta come strumento per lavorare su testi, canzoni e poesie, cioè attività nelle quali la generazione linguistica può essere valutata soprattutto per stile, struttura e capacità di riformulazione. Il problema è che un’interfaccia chat aperta al pubblico viene interpretata dagli utenti come un assistente generalista. Appena un modello è accessibile attraverso una conversazione libera, viene sottoposto a domande imprevedibili, richieste avversariali, prompt volutamente ambigui e verifiche immediate su elementi che una persona considera banali.

La sospensione di Emma-5 è stata motivata da Egomnia con l’utilizzo emerso, ritenuto non pienamente coerente con gli obiettivi previsti per il test. La società ha dichiarato di aver raccolto dati sufficienti per lo sviluppo dei modelli successivi e ha aperto una raccolta di candidature per tester di Emma-6. Il passaggio da Emma-5 a Emma-6 implica quindi una nuova fase di addestramento e valutazione, nella quale i log delle interazioni, gli errori segnalati e le tipologie di prompt ricevute possono essere usati per migliorare il modello.

I dati raccolti in una fase pubblica possono servire per costruire dataset di preferenza, classificare gli errori ricorrenti, identificare richieste fuori dominio e rafforzare i filtri di sicurezza. Il processo può includere supervised fine-tuning su esempi corretti, reinforcement learning con feedback umano, addestramento di classificatori per intercettare richieste pericolose e sviluppo di sistemi di retrieval per collegare il modello a fonti verificabili. Tuttavia, nessuna di queste tecniche risolve automaticamente il problema: servono dati annotati, metriche di valutazione, test indipendenti e un controllo rigoroso sulle risposte prodotte.

Per un modello destinato a utenti italiani, il tema non riguarda soltanto la lingua. Un sistema realmente utile deve gestire correttamente riferimenti culturali, norme, amministrazione, lessico professionale, documenti, fonti locali e contesti settoriali. La localizzazione linguistica può rappresentare un vantaggio concreto, ma deve essere accompagnata da capacità di verifica, gestione dell’incertezza e dichiarazione trasparente dei limiti del sistema.

Emma-5 mostra quanto sia delicato il confine tra un prototipo sperimentale e un servizio percepito come pronto all’uso. La raccolta di conversazioni pubbliche può accelerare il miglioramento del modello, ma richiede un perimetro dichiarato con precisione: quali compiti il sistema può svolgere, quali non è progettato per affrontare, come vengono utilizzati i dati delle interazioni e quali controlli vengono applicati prima della distribuzione di una nuova versione. Emma-6 sarà valutata soprattutto su questi elementi, oltre che sulla qualità delle risposte: velocità, affidabilità, sicurezza, coerenza e capacità di riconoscere quando non dispone di informazioni sufficienti.

Di Fantasy