编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。
4月24日至4月28日,全球最负盛名的深度学习盛会之一 ICLR 大会将在新加坡举办。我们将通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 ICLR 2025 的精选论文解读。第一期的研究工作将涵盖大模型优化、信息检索、记忆构建等方向。
大语言模型(LLMs)能力与效率的提升,将重塑人工智能技术的边界。在 ICLR 2025 的第一期精选论文中,微软亚洲研究院通过理论创新与工程优化双轮驱动的方式,系统性地解决了 LLMs 在推理、对齐、数据利用及实际应用中的关键挑战。这些突破不仅让大模型更“聪明”,也将推动其向实用化、普及化迈出关键一步。
本期内容速览
01. 通过最优控制进行语言模型的数据选择
02. Differential Transformer
03. Integrative Decoding:隐式自洽解码技术,突破大模型幻觉瓶颈
04. SeCom:面向个性化对话代理的记忆构建与检索方法
05. 通过伪反馈优化大语言模型的推理能力
06. SCBench:以KV缓存为中心的长文本方法分析
07. 利用合成偏好实现大语言模型的自助对齐
08. 通过二进制词袋索引实现半参数化检索
01. 通过最优控制进行语言模型的数据选择

论文链接:https://arxiv.org/abs/2410.07064 (opens in new tab)
由于对高质量预训练数据的需求不断增加,大语言模型在计算成本和可用网络抓取语料库的“库存”方面面临重大挑战。为解决这些问题,微软亚洲研究院的研究员们通过探索选择最佳预训练数据来提高 LLMs 在下游任务中的表现。研究动机是希望提高数据利用效率,加速 LLMs 的学习过程,从而减少整体的计算负担。
该研究采用的方法是将数据选择表述为一个广义的最优控制问题。这种方法利用庞特里亚金最大值原理(PMP)推导出描述最佳数据选择与 LLMs 训练动态关系的必要条件。引入基于 PMP 的数据选择(PDS)框架,研究员们可以通过求解 PMP 条件来近似最佳数据选择。而且 PDS 框架被应用于从 CommonCrawl 语料库中选择数据,并通过各种实验评估其有效性。
该研究的主要发现表明,PDS 选择的语料库显著加速了 LLMs 的学习,并在各种下游任务和模型规模上持续提高其性能。值得注意的是,PDS 的好处能够扩展到大规模模型,包括那些在大约10万亿个标记上训练的约4000亿参数的模型。研究还表明,当预训练数据有限时,PDS 提高了数据利用率,将数据需求减少了1.8倍。这种减少缓解了可用网络抓取语料库的快速耗尽,使预训练过程更加可持续。

该研究为 LLMs 的预训练数据选择提供了一种新颖且有效的方法,在学习效率和性能方面取得了显著成效。
02. Differential Transformer

论文链接:https://arxiv.org/abs/2410.05258 (opens in new tab)
微软亚洲研究院提出了一种全新的 Transformer 架构 DIFF Transformer(差分 Transformer)。通过差分注意力机制,DIFF Transformer 能够增强对关键信息的关注,同时减少对噪声的干扰,从而在多项语言任务中取得了显著优于 Transformer 模型的性能提升。DIFF Transformer 与此前微软亚洲研究院发布的 BitNet(b1.58) (opens in new tab)、Q-Sparse (opens in new tab) 和 YOCO (opens in new tab) 等工作,正交且互补。研究员们致力于从基础研究角度为大语言模型的发展带来变革,为大语言模型的理论研究以及未来的实际应用带来更多新的可能性。
了解更多详情:简单而强大:DIFF Transformer降噪式学习,开启模型架构新思路 (opens in new tab)
03. Integrative Decoding:隐式自洽解码技术,突破大模型幻觉瓶颈

论文链接:https://arxiv.org/abs/2410.01556 (opens in new tab)
在大语言模型席卷全球的当下,幻觉(hallucination)问题始终是制约其广泛应用的阿喀琉斯之踵。微软研究院联合多所高校提出的 Integrative Decoding(ID)技术,利用隐式的模型自洽性(self-consistency)进行生成解码,在 TruthfulQA 等三大基准实现了最高15.4%的事实性跃升,为破解开放生成幻觉难题开辟了新路径。
ID 解码技术能够巧妙地将自洽性隐式地融入解码目标,有效突破幻觉瓶颈,并在计算开销、事实性提升、方法稳健性等方面具备显著优势。

ID 的实际工作流程极其简洁,只涉及两个步骤。首先,从大语言模型中进行多次采样,生成多个输出。然后,将每个采样的输出与原始输入连接,形成一组新的输入,并同时处理这些输入重新做一次推理生成。在这一轮解码过程中,ID 通过整合所有输入的预测,选择每一步中最自洽的词元,从而生成更为自洽的输出。
在实验部分,ID 在六种大模型上进行实验,均获得了显著的提升。而且,与同类型方法相比,ID 具有极强的鲁棒性,在不同文本长度的生成任务上都取得了稳定提升,并突破了传统方法中生成信息量与事实性难以平衡的困境。
通过引入隐式自洽性,ID 为突破大语言模型的幻觉问题提供了一种高效的解决方案。实验结果表明,ID 不仅大大改善了模型在多个基准测试中的事实性表现,还展现出了强大的扩展性和稳健性,能够在不同模型规模和采样策略下稳定提升性能。通过在解码过程中整合多次采样的响应,ID 在不显著增加输入长度的情况下,实现了事实性的优化,极大增强了模型在开放生成任务中的实用价值。
04. SeCom:面向个性化对话代理的记忆构建与检索方法

论文链接:https://arxiv.org/abs/2502.05589 (opens in new tab)
项目链接:https://aka.ms/SeCom (opens in new tab)
对话式智能体应如何处理并检索过去的对话内容,为用户提供更连贯、更个性化的体验?来自微软亚洲研究院的最新研究成果 SeCom 记忆构建与检索方法,正是针对这一问题而提出的探索和尝试。
现有方法通常基于历史对话构建记忆库,进而以检索增强的方式生成智能体回复。这些记忆库中的记忆单元既可能是单条对话 (turn-level),也可能是某段时间内的完整对话(session-level)或其摘要(summarization based)。在 SeCom 中,研究员们提出了两个关键发现:
(1) 记忆单元的颗粒度至关重要,基于上述三种方法构建的记忆单元在检索准确性和检索内容的语义质量方面均存在局限性:turn-level 记忆单元过于细粒度,容易造成上下文不完整;session-level 记忆单元过于粗粒度,其中可能包含过多与当前对话不相关的内容;summarization based 记忆单元则容易在摘要生成过程中发生信息丢失。
(2) 大模型提示压缩方法(如 LLMLingua-2)能够有效地充当一种去噪机制,提高不同粒度下的记忆检索准确性。
基于上述发现,研究员们提出了 SeCom 方法。该方法通过引入一个对话分割模型,将用户与智能体间的历史对话划分为若干个主题连贯的片段,以单个片段作为记忆单元构建记忆库(segment-level),并对记忆单元应用大模型提示压缩方法来进行去噪,有效提高了记忆检索的准确性和最终生成的回复质量。实验结果表明,SeCom 在长期对话基准测试 LOCOMO 和 Long-MT-Bench+ 上表现显著优于现有的基线方法。

05. 通过伪反馈优化大语言模型的推理能力

论文链接:https://arxiv.org/abs/2411.16345 (opens in new tab)
推理任务缺乏高质量、人类验证的标签,使得大语言模型推理能力的增强面临着极大挑战。这一限制阻碍了依赖这些标签生成偏好对的偏好优化技术(如直接偏好优化,DPO)的有效性。本篇论文希望通过开发可以生成可靠伪反馈的方法来克服这些挑战,从而减少对大量人工标注的依赖。
对此,研究员们提出了一种全新方法,通过将推理问题解决方案的标注视为针对相关测试用例的评估,为推理任务生成伪反馈。研究员们探索了两种形式的伪反馈:一种由前沿 LLMs 生成,另一种是将自一致性扩展到多测试用例场景来生成。其生成方法是在数学推理和编码任务上进行实验,然后再使用这些伪反馈形式进行偏好优化。

该研究的主要发现表明,推理任务取得了显著的改进。以 Mathstral-7B 为基础模型,研究员们观察到 MATH 结果从58.3提高到68.6,超过了 NuminaMath-72B 和 GPT-4-Turbo-1106-preview 等模型的性能。在其他基准测试如 GSM8K 和 College Math 中,分数分别从85.6提高到90.3以及从34.3提高到42.3。此外,基于 Deepseek-coder-7B-v1.5,研究在 LiveCodeBench 上取得了24.6的分数,高于21.1,超过了 Claude-3-Haiku。
这些结果展现了伪反馈在增强 LLMs 推理能力方面的潜力。该方法的提出也为应对人工标注的高成本问题提供了一个可行的替代方案。
06. SCBench:以KV缓存为中心的长文本方法分析

论文链接:https://arxiv.org/abs/2412.10319 (opens in new tab)
项目链接:https://aka.ms/SCBench (opens in new tab)
数据集链接:https://huggingface.co/datasets/microsoft/SCBench (opens in new tab)
长上下文窗口已成大模型标配,极大地提升了代码理解、长文档问答、多轮对话和长推理等任务的能力。然而,随着上下文扩展,计算和内存压力剧增,海量 KV 缓存的生成与存储对效率提出了严峻挑战。
现有的研究主要围绕 KV 缓存的高效生成、管理与利用,提出了稀疏注意力、缓存丢弃、量化、检索、加载及提示压缩等优化技术,以降低推理开销。在实际生产中,KV 缓存复用是减少首字延迟(TTFT)的关键,但现有基准多聚焦单次请求,忽视多轮交互中的缓存复用,难以反映真实性能。

为此,微软亚洲研究院的研究员们提出了 SCBench 评测基准,从 KV 缓存生成、压缩、检索、加载四个阶段构建完整评估体系,其中涵盖了12项任务(如字符串检索、语义检索、全局信息处理和多任务处理),并模拟了多轮对话和多请求共享的上下文场景。
在实验中,SCBench 对包括门控线性RNN、混合模型以及多种高效优化技术(如稀疏注意力、KV 缓存丢弃、量化、检索、加载和提示压缩)在内的八类长上下文解决方案进行了详细评测。评测覆盖了六种基于 Transformer 架构的长上下文大语言模型,如 Llama-3.1-8B/70B、Qwen2.5-72B/32B、Llama-3-8B-262K 和 GLM-4-9B。
实验结果显示,采用 sub-O(n) 内存方法的方案在多轮交互场景中表现较差,而基于稀疏编码、采用 O(n) 内存和 sub-O(n²) 预填充计算的方案则具有更高的鲁棒性。此外,动态稀疏策略相比于静态稀疏模式,能生成更具表达力的 KV 缓存,在混合架构中,引入层级稀疏性不仅有效降低了内存消耗,同时也保持了出色的性能。值得注意的是,在长生成任务中,研究员们还观察到注意力分布的偏移问题,这可能进一步影响生成质量。
07. 利用合成偏好实现大语言模型的自助对齐

论文链接:https://arxiv.org/abs/2410.06961 (opens in new tab)
将大语言模型对齐于人类偏好对于生成诚实、无害且有帮助的回应至关重要。然而,传统方法在很大程度上依赖于大量人工标注的偏好数据,这既耗费资源,又难以扩展。为了解决这一问题,研究员们提出了一种名为 SynPO 的全新自助增强范式,旨在通过合成偏好数据提升模型对齐效果。
SynPO 采用了一个迭代流程,由两个核心模块组成——自生成提示器和回应改进器。自生成提示器由 LLMs 自主生成多样化的提示词,使用三个随机关键词作为引导,无需外部范例或更强大的模型参与。对于每一个生成的提示,LLMs 会首先给出初始回答,随后回应改进器对其进行优化,生成更优的版本。该方法利用了模型自身识别文本分布差异的能力,并通过“改进已有内容”这一较简单的任务来替代“从零生成高质量回答”的难点。通过对这些合成偏好对进行训练,模型能够在多个回合中持续提升回答质量。

在 Llama3-8B 和 Mistral-7B 两个模型上迭代应用 SynPO 四轮后,模型在 AlpacaEval 2.0 和 ArenaHard 等基准测试中的胜率提升超过22.1%。此外,在 Open LLMs 排行榜中的平均分数提升达3.2至5.0,这表明模型在各类任务中的整体表现都显著增强。实验结果显示,SynPO 能够在无需大量人工数据的情况下,自主、高效地提升 LLMs 的表现,为模型的持续优化提供了可扩展的解决方案。
08. 通过二进制词袋索引实现半参数化检索

论文链接:https://arxiv.org/abs/2405.01924 (opens in new tab)
如今,信息检索领域已经发生了翻天覆地的变化,从独立系统转变为各种先进应用的核心组件。这一改变带来了与索引效率、成本效益和数据新鲜度相关的一系列挑战,尽管这些问题日益重要,但往往被忽视。
对此,微软亚洲研究院的研究员们提出了一种新颖的双编码器检索框架 SiDR(半参数解耦检索),旨在将检索索引与神经参数解耦,从而实现高效、低成本以及与参数无关的索引,来适用于新兴的使用场景。
SiDR 的研发主要支持基于嵌入和基于标记的索引。基于嵌入的索引是利用神经检索的方法,而基于标记的索引则采用类似于传统术语检索方法(如 BM25)的非参数方法。这种双重方法使 SiDR 能够实现 BM25 索引的复杂性,同时提高其有效性。该研究还引入了一种后期参数机制,其准备时间与 BM25 索引相匹配,同时在有效性方面优于其他神经检索基准。

在16个检索基准上的全面评估显示,SiDR 在相同的索引工作负载下优于神经和术语检索基准。具体来说,使用基于嵌入的索引时,SiDR 在保持类似训练复杂度的同时,超过了传统神经检索器的性能。使用基于标记的索引时,SiDR 大幅降低了索引成本和时间,匹配了传统术语检索方法的复杂性,并在所有域内数据集上始终优于 BM25。此外,SiDR 引入的后期参数机制在 BM25 索引准备时间上匹配,同时在有效性方面优于其他神经检索基准。