Dopo CVPR , la 61a conferenza annuale dell’Association for Computational Linguistics (ACL) è in corso dal 9 al 14 luglio a Toronto, in Canada. In qualità di sponsor Diamond Level, Google presenterà oltre 50 pubblicazioni e contribuirà attivamente a workshop e tutorial. Il padrino delle reti neurali, Geoffrey Hinton, che è stato il relatore principale della conferenza, ha evidenziato l’esperienza soggettiva rispetto alla sensibilità dei modelli linguistici più ampi. L’evento ha trattato argomenti come le scienze sociali computazionali e l’analisi culturale, il dialogo, i sistemi interattivi, il discorso e la pragmatica.
NusaCrowd: iniziativa open source per le risorse NLP indonesiane. Il documento introduce NusaCrowd, che mira a raccogliere e consolidare le risorse esistenti per le lingue indonesiane, comprese quelle precedentemente inaccessibili. Combinando 137 set di dati e 118 caricatori di dati standardizzati, il progetto fornisce preziose risorse per la comprensione e la generazione del linguaggio naturale. Attraverso valutazioni manuali e automatizzate, la qualità dei set di dati è stata verificata. NusaCrowd facilita lo sviluppo di benchmark zero-shot per l’indonesiano e le lingue locali, nonché il primo benchmark di riconoscimento vocale automatico multilingue. Questo lavoro mira a far progredire la ricerca nell’elaborazione del linguaggio naturale per le lingue sottorappresentate ma ampiamente parlate.
SamToNe: miglioramento della perdita di contrasto per i modelli di recupero a doppio codificatore con negativi della stessa torre. In questo documento viene svelato un nuovo approccio chiamato “perdita contrastiva con SAMe TOwer NEgatives” (SamToNe) per l’addestramento di codificatori doppi utilizzati nelle attività di recupero e nell’apprendimento della rappresentazione. Includendo come negativi query o documenti provenienti dalle stesse torri del codificatore, SamToNe migliora la qualità del recupero sia nei codificatori doppi simmetrici che asimmetrici. L’efficacia di SamToNe è dimostrata attraverso valutazioni su vari benchmark. Inoltre, il metodo garantisce l’allineamento tra gli spazi di incorporamento delle torri dell’encoder, come osservato attraverso l’algoritmo t-SNE. Il documento fornisce anche approfondimenti sull’efficacia di SamToNe in termini di regolarizzazione sulla base dell’analisi delle distribuzioni di distanza incorporate.
RISE: Sfruttare le tecniche di recupero per la valutazione del riepilogo. Google Research e Google DeepMind presentano RISE, un nuovo metodo per valutare riepiloghi testuali generati automaticamente. RISE utilizza tecniche di recupero delle informazioni ed è addestrato come attività di recupero utilizzando una configurazione a doppio codificatore. Può valutare i riepiloghi generati senza la necessità di riepiloghi di riferimento gold, rendendolo adatto a nuovi set di dati. I risultati sperimentali sui set di dati di riferimento dimostrano che RISE supera costantemente gli approcci precedenti in termini di correlazione con le valutazioni umane. Inoltre, RISE mostra efficienza dei dati e generalizzabilità in tutte le lingue.
OPINESUM: autoformazione basata sull’entailment per la sintesi astratta delle opinioni. Lo scopo dei ricercatori in questo articolo è risolvere l’annosa sfida di riassumere un gran numero di recensioni per un prodotto o un luogo. Sebbene i sistemi supervisionati abbiano avuto successo nei domini delle notizie, mancano della disponibilità di set di dati su larga scala per i testi di opinione. Per colmare questa lacuna, il documento propone un approccio di autoformazione senza supervisione chiamato OPINESUM per la sintesi astratta delle opinioni. Questo approccio utilizza l’implicazione testuale per acquisire il consenso delle opinioni da più revisioni e generare riepiloghi. OPINESUM è in grado di generare riepiloghi silver standard su larga scala e ottenere prestazioni all’avanguardia sia in contesti senza supervisione che con poche riprese.
Modelli di linguaggio di grandi dimensioni con memoria di lavoro controllabile. In questo documento, l’attenzione è rivolta alla controllabilità e alla robustezza degli LLM. È dimostrato che i modelli all’avanguardia come T5 e PaLM possono mancare di queste qualità, soprattutto con l’aumentare delle dimensioni del modello. Per risolvere questo problema, viene proposto un nuovo approccio chiamato knowledge aware finetuning (KAFT), che migliora la controllabilità e la robustezza incorporando contesti controfattuali e irrilevanti durante la formazione. L’efficacia di KAFT è dimostrata attraverso valutazioni complete su diverse architetture e dimensioni del modello.
Stima dei valori p da un singolo set di test con varianza di elementi e risposte. Questo documento si concentra sulla mancanza di fiducia riportata nei risultati all’interno della cultura della classifica della PNL. Gli autori propongono un framework e un simulatore per stimare i valori p per confrontare le prestazioni di due sistemi, con l’obiettivo di determinare la fiducia che un sistema sia veramente migliore dell’altro. Stabiliscono un’ipotesi nulla assumendo che i punteggi metrici di entrambi i sistemi provengano dalla stessa distribuzione. Creando un set di test che combina le risposte di entrambi i sistemi, studiano diversi metodi per stimare accuratamente il valore p considerando fattori come la varianza della risposta, la scelta della metrica e il metodo di campionamento, sottolineando la loro importanza nel fornire garanzie statistiche affidabili per i confronti dei modelli.
Distilling step-by-step. Superare i modelli linguistici più grandi con meno dati di addestramento e dimensioni dei modelli più piccole. Il documento introduce un nuovo metodo chiamato “Distilling step-by-step” per affrontare le sfide dell’implementazione di modelli linguistici di grandi dimensioni (LLM). Addestra modelli più piccoli che superano gli LLM utilizzando le logiche LLM come supervisione aggiuntiva all’interno di un framework multi-task. Il metodo ottiene prestazioni migliori con meno esempi di addestramento etichettati/non etichettati rispetto alla messa a punto e alla distillazione. Raggiunge anche prestazioni migliori con modelli di dimensioni inferiori rispetto agli LLM con pochi colpi. Inoltre, il metodo riduce la dimensione del modello e la quantità di dati necessari per superare gli LLM, come dimostrato dai risultati sui benchmark NLP.
PROPSEGMENT: un corpus su larga scala per la segmentazione a livello di proposizione e il riconoscimento del coinvolgimento. Il paper propone PROPSEGMENT, una raccolta di oltre 45.000 proposizioni annotate da esperti. Il set di dati si concentra su due attività: segmentare le frasi in proposizioni e classificare la relazione di implicazione tra ciascuna proposizione e un altro documento sullo stesso argomento. Il documento stabilisce punti di partenza efficaci per questi compiti e mette in mostra il potenziale di PROPSEGMENT nel rilevare allucinazioni sommarie e comprendere la composizionalità delle etichette di inferenza del linguaggio naturale (NLI) a livello di documento.
TOUR, ottimizzazione delle rappresentazioni delle query in fase di test per il recupero denso. Qui vediamo TOUR, un nuovo metodo per ottimizzare le rappresentazioni delle query nel recupero denso. Sfrutta un crossencoder re-ranker per fornire pseudo etichette per i risultati del recupero e migliora in modo iterativo le rappresentazioni delle query utilizzando la discesa del gradiente. TOUR ha dimostrato di migliorare l’accuratezza delle risposte alle domande a dominio aperto, le prestazioni di recupero dei passaggi e la velocità di riclassificazione diretta.