ELABORAZIONE DEL LINGUAGGIO NATURALE
L’impronta ad alto tenore di carbonio dei modelli di traduzione automatica tedeschi
Una nuova ricerca sull’impronta di carbonio creata dai modelli di traduzione dell’apprendimento automatico indica che il tedesco potrebbe essere la lingua popolare a più alta intensità di carbonio da addestrare, anche se non è del tutto chiaro il motivo. Il nuovo rapporto intende aprire ulteriori vie di ricerca su metodi di formazione dell’IA più efficienti in termini di emissioni di carbonio, nel contesto della crescente consapevolezza della misura in cui i sistemi di apprendimento automatico consumano elettricità.
Il documento prestampato si intitola Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation e proviene da ricercatori del Manipal Institute of Technology in India.
Gli autori hanno testato i tempi di formazione e calcolato i valori delle emissioni di carbonio per una varietà di possibili modelli di traduzione interlinguistica e hanno riscontrato “una notevole disparità” tra il tempo impiegato per tradurre i tre abbinamenti linguistici a maggiore intensità di carbonio e i tre modelli più economici in termini di carbonio. .
Una media di emissioni di carbonio rilasciate in 10 epoche di formazione. A sinistra, i risultati che utilizzano ConvSeq (vedi sotto), a destra Transformers. Fonte: https://arxiv.org/pdf/2109.12584.pdf
Il documento ha rilevato che gli abbinamenti linguistici più “ecologici” da addestrare sono inglese>francese, francese>inglese e, paradossalmente, tedesco-inglese, mentre il tedesco è presente in tutte le coppie di maggior consumo: francese>tedesco, inglese>tedesco e tedesco> Francese.
Interesse composto
I risultati suggeriscono che la diversità lessicale “è direttamente proporzionale al tempo di formazione per raggiungere un livello adeguato di prestazioni” e notano che la lingua tedesca ha il più alto punteggio di diversità lessicale tra le tre lingue testate come stimato dal suo Type-Token Ratio (TTR) – una misurazione della dimensione del vocabolario basata sulla lunghezza del testo.
Le crescenti esigenze di elaborazione del tedesco nei modelli di traduzione non si riflettono nei dati di origine utilizzati per l’esperimento. In effetti, i token in lingua tedesca generati dai dati di origine hanno meno token derivati (299445) rispetto all’inglese (320108) e molto meno rispetto al francese (335917).
La sfida, dal punto di vista dell’elaborazione del linguaggio naturale (PNL), è scomporre le parole tedesche composte in parole costitutive. I sistemi di PNL spesso devono farlo per il tedesco senza la grammatica circostante pre-‘divisa’ o gli indizi contestuali che possono essere trovati nelle lingue con punteggi TTR più bassi, come l’inglese. Il processo è chiamato scissione dei composti o scomposizione .
La lingua tedesca ha alcune delle parole singole più lunghe del mondo, anche se nel 2013 ha perso il riconoscimento ufficiale del suo ex record di 65 caratteri, che è abbastanza lungo da richiedere una propria riga in questo articolo:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
La parola si riferisce a una legge che delegava il monitoraggio dell’etichetta della carne bovina, ma cadde a causa di un cambiamento nelle normative europee quell’anno, concedendo il posto ad altri sostenitori popolari, come “vedova di un capitano di una compagnia di battelli a vapore del Danubio” (49 caratteri):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
In generale, la struttura sintattica del tedesco richiede un allontanamento dai presupposti dell’ordine delle parole alla base delle pratiche di PNL in molte lingue occidentali, con il popolare framework spaCY NLP (con sede a Berlino) che adotta la propria lingua madre nel 2016 .
Le mappature proiettive in una frase inglese e tedesca dimostrano le complesse interrelazioni tra gli elementi lessicali nella lingua tedesca. Fonte: https://explosion.ai/blog/german-model
Dati e test
Per i dati di origine, i ricercatori hanno utilizzato il set di dati Multi30k , contenente 30.000 campioni in francese, tedesco e inglese.
Il primo dei due modelli utilizzati dai ricercatori è stato Convolutional Sequence to Sequence ( ConvSeq ) 2017 di Facebook AI , una rete neurale che contiene livelli convoluzionali ma che non dispone di unità ricorrenti e utilizza invece filtri per derivare funzionalità dal testo. Ciò consente a tutte le operazioni di svolgersi in modo parallelo efficiente dal punto di vista computazionale.
Il secondo approccio ha utilizzato l’influente architettura Transformers di Google , anch’essa del 2017. Transformers utilizza livelli lineari, meccanismi di attenzione e routine di normalizzazione. Certo, il modello originale rilasciato è stato criticato per l’inefficienza del carbonio, con rivendicazioni di miglioramenti successivi contestati .
Gli esperimenti sono stati condotti su Google Colab, uniformemente su una GPU Tesla K80 . Le lingue sono stati confrontati con un BLEU (doppia valutazione Understudy) punteggio metrica, e le CodeCarbon emissioni Machine Learning Calculator . I dati sono stati addestrati su 10 epoche.
risultati
I ricercatori hanno scoperto che è stata la durata estesa della formazione per le coppie linguistiche legate al tedesco a far pendere l’equilibrio in un maggiore consumo di carbonio. Sebbene alcune altre coppie linguistiche, come inglese>francese e francese>inglese, avessero un consumo di carbonio ancora più elevato, si sono formate più rapidamente e si sono risolte più facilmente, con questi scatti di consumo caratterizzati dai ricercatori come “relativamente insignificanti” in relazione al consumo di abbinamenti linguistici che includono il tedesco.
Analisi delle coppie linguistiche emissioni di carbonio encoder/decoder.
I ricercatori concludono:
“I nostri risultati forniscono una chiara indicazione che alcune coppie linguistiche sono più intense di carbonio da addestrare rispetto ad altre, una tendenza che si riflette anche su diverse architetture.”
Continuano:
“Tuttavia, rimangono domande senza risposta sul motivo per cui esistono differenze così nette nei modelli di formazione per una particolare coppia linguistica rispetto a un’altra e se architetture diverse potrebbero essere più adatte per queste coppie linguistiche ad alta intensità di carbonio, e perché questo sarebbe il caso se fosse vero .’
Il documento sottolinea che le ragioni della disparità di consumo di carbonio tra i modelli di formazione non sono del tutto chiare. Prevedono di sviluppare questa linea di studi con lingue non latine.