Microsoft Diff Transformer per ridurre il rumore negli LLM
Microsoft e la Tsinghua University hanno sviluppato una nuova architettura per modelli linguistici di grandi dimensioni (LLM) chiamata Differential Transformer (Diff Transformer), progettata per migliorare la capacità di recupero delle…