编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。
4月24日至4月28日,全球最负盛名的深度学习盛会之一 ICLR 大会在新加坡举办。我们通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 ICLR 2025 的精选论文解读。在第一期的内容中我们分享了包括大模型优化、信息检索、记忆构建等方向的工作。第二期的研究工作将涵盖多模态应用、结构化推理和决策制定等方向。
随着人工智能技术的不断发展,多模态模型、决策智能等领域的研究逐渐成为推动人工智能进步的关键方向。在 ICLR 2025 的第二期精选论文中,微软亚洲研究院聚焦于人工智能的多模态模型、推理和决策制定等方向,旨在为大语言模型(LLMs)在处理复杂任务时提供更高效和智能的解决方案,同时为人工智能技术的实用化和普及化贡献一份力量。
本期内容速览
01. ARLON:通过自回归模型增强扩散变换器实现长视频生成
02. C-MORL:一种高效发现帕累托前沿的多目标强化学习算法
03. FlexCAD:由大语言模型驱动的统一且多功能的可控CAD生成
04. MarS:生成式基座模型时代的通用金融市场模拟引擎
05. NeuroLM:利用大模型融合脑电信号与文本实现多任务学习
06. pMoE:联合提示多样专家模型,在视觉适应中实现1+1>2
07. Video In-Context Learning:视频上下文学习让视觉模型「照猫画虎」
08. 具身智能中,我们需要怎样的扩散规划器?
01. ARLON:通过自回归模型增强扩散变换器实现长视频生成

论文链接:https://arxiv.org/abs/2410.20502 (opens in new tab)
项目链接:http://aka.ms/arlon (opens in new tab)
在人工智能领域,尤其是“文本-视频”(Text-to-Video, T2V)模型的研究中,如何高效生成具有丰富动态和时间一致性的长视频一直是一个挑战。微软亚洲研究院的研究员们尝试将自回归(AR)模型与扩散模型(DiT)技术相结合,构建了 ARLON 框架。通过潜在向量量化变分自编码器(VQ-VAE)技术,ARLON 能够将 T2V 任务中的高维输入特征有效地压缩、量化,从而在保持信息密度的同时,降低模型的学习复杂性。只需文本提示,ARLON 即可合成具有丰富动态和时间连贯性的高质量视频。
了解更多详情:如何利用文本提示高效生成高质量、个性化的长视频?
02. C-MORL:一种高效发现帕累托前沿的多目标强化学习算法

论文链接:https://arxiv.org/abs/2410.02236 (opens in new tab)
多目标强化学习(MORL)往往需要考虑存在相互冲突的目标并为其寻找相应的帕累托(Pareto)最优策略。传统强化学习方法会针对每个目标训练单独的策略,从而导致了高计算成本和较差的泛化能力。
在实际应用中,MORL 主要面临三个限制和挑战:(1)训练效率低下,(2)帕累托前沿(最优权衡集)覆盖不完整,(3)无法针对任意偏好实现效用最大化。现有的方法,如偏好条件策略或进化策略,在高维环境中难以扩展或需要过多的计算资源。
在本文中,研究员们提出了一个两阶段约束优化框架 C-MORL,旨在系统地解决多目标强化学习中的关键问题。首先,通过针对固定偏好进行并行策略训练来实现帕累托初始化,为后续的优化过程奠定基础。接着,在帕累托扩展阶段,采用拥挤度(一种多样性度量)引导的约束策略更新,高效地扩展帕累托前沿。该方法巧妙地将约束策略优化与内点法相结合,在保持线性时间复杂度的同时确保帕累托最优性,有效避免了传统方法(如 epsilon 约束法)所带来的指数级计算成本,从而在计算效率和优化效果之间取得了良好的平衡。

从理论上讲,C-MORL 方法是一个高效的多目标优化器,可以保证帕累托最优策略。同时,大量的实验结果也表明,C-MORL 能够实现快速、完整的帕累托前沿发现,可以处理多达九个目标的任务。在机器人和能源管理基准测试中的结果显示,超体积(hypervolume 表示更广泛的帕累托覆盖)比最先进的方法提高了35%,效用(utility)提高了9%。通过平衡多样性、效率和可扩展性,C-MORL 推进了具有多个竞争目标的复杂现实应用中的多目标强化学习。
将约束优化引入多目标强化学习,C-MORL 算法为高效获取帕累托前沿提供了新思路。未来,研究员们将进一步完善该方法并探索其在更复杂多目标决策场景中的应用。
03. FlexCAD:由大语言模型驱动的统一且多功能的可控CAD生成

论文链接:https://arxiv.org/abs/2411.05823 (opens in new tab)
计算机辅助设计(CAD)是对二维或三维对象的数字表示,已广泛应用于建筑、产品设计和制造等众多行业。在常见的 CAD 工具(如 SolidWorks 和 AutoCAD)中,草图-拉伸建模(Sketch-and-Extrude Modeling, SEM)十分流行,该方法先绘制二维草图,再通过拉伸形成三维形状。与其他表示方式相比,SEM 包含多个 CAD 构造层级,如草图-拉伸(sketch-extrusion)、拉伸(extrusion)、草图(sketch)、面(face)、环(loop)和曲线(curve),能够直接展现三维对象的绘制过程,从而便于编辑和重用 CAD 模型。
近年来,越来越多的研究致力于开发生成模型,以自动生成 CAD 模型的 SEM 表示。然而,现有方法在可控性方面仍然存在局限性。部分方法尝试通过编码特定的构造层级来提供控制,但这种方式的控制范围较为受限,无法灵活地修改特定层级的元素。此外,这些方法往往需要多个独立的模型来支持不同类型的控制,导致效率低下,难以满足实际应用的需求。
对此,研究员们提出了 FlexCAD,旨在通过微调大语言模型实现跨所有层级的可控 CAD 生成。首先,FlexCAD 将 CAD 模型转换为简洁且结构化的文本表示。在每个草图中,曲线类型(如直线)被直接表示为文本标记,几何数值(如直线的点坐标)被转换为十进制整数后再编码为文本标记。其次,FlexCAD 引入层级感知掩码策略以支持多种可控 CAD 生成任务。在训练过程中,FlexCAD 用掩码标记替换 CAD 文本中的某个层级字段并要求大语言模型预测该掩码字段。为此,FlexCAD 为所有层级设计了提示模板,使掩码标记与相应的层级匹配,并在每个训练周期均匀采样这些模板进行微调。

研究员们在公共数据集(DeepCAD)上进行了实验。与传统方法相比,尽管 FlexCAD 方法简洁,但在生成质量上表现出显著提升。此外,FlexCAD 采用单一模型实现了跨所有层级的可控 CAD 生成,而传统方法则需要依赖不同模型来控制不同层级。与此同时,FlexCAD 还展现出对迭代编辑的潜在支持能力。
04. MarS:生成式基座模型时代的通用金融市场模拟引擎

论文链接:https://arxiv.org/abs/2409.07486 (opens in new tab)
项目地址:https://github.com/microsoft/mars (opens in new tab)
生成式基座模型(Generative Foundation Model)已成功应用在多个领域,并塑造了全新的生产范式。将这一范式与行业特有数据结合,有望构建具有行业特色的生成式基座模型。从金融场景出发,微软亚洲研究院提出了大市场模型 (Large Market Model,LMM),并设计推出了基于 LMM 的金融市场模拟引擎 MarS(Financial Market Simulation Engine Powered by Generative Foundation Model),旨在助力金融研究人员为不同场景定制生成式模型,以及构建适用于金融市场所有下游任务的生成式基座模型应用新范式,为金融行业的效率提升和精准洞察带来变革。
了解更多详情:MarS:生成式基座模型时代的通用金融市场模拟引擎
05. NeuroLM:利用大模型融合脑电信号与文本实现多任务学习

论文链接:https://arxiv.org/abs/2409.00101 (opens in new tab)
GitHub链接:https://github.com/935963004/NeuroLM (opens in new tab)
近年来,大规模预训练模型在脑电(EEG)信号分析领域取得突破,极大推动了脑机接口(BCI)和医疗健康的发展。然而,现有的预训练模型往往需要针对每个下游任务进行完整微调,限制了模型的通用性,同时也带来了资源浪费。为了解决这一问题,微软亚洲研究院与上海交通大学的研究团队提出了全球首个多任务基础模型 NeuroLM,创新性地将 EEG 信号视为一种外语,借助大语言模型的能力,实现多任务的学习与推理。
NeuroLM 的创新来源于其跨模态的建模能力,研究员们使用了向量量化技术(Vector Quantitation, VQ),将连续 EEG 信号编码为与自然语言中和“单词”类似的离散 token。为了保证学习到的 token 可以被大语言模型识别、使用,研究员们设计使用了域分类器,利用对抗学习将 EEG token 与文本 token 对齐到同一空间。随后,这些离散 EEG 标记被输入大语言模型,利用多通道自回归预训练(multi-channel autoregression)学习 EEG 信号的因果关系。
在多任务学习方面,研究团队进一步引入了大语言模型中常用的指令调优(instruction tuning)策略。通过拼接脑电序列与对其描述的提示词,NeuroLM 具备了适应多种 EEG 任务的能力,如情绪识别、睡眠阶段分类、认知负荷检测、异常事件分类等,实现了在单一模型中执行多种任务的目标。
NeuroLM 的最大版本 NeuroLM-XL 具有1.7B 参数,并在来自多个数据集的共25,000小时的大规模 EEG 数据集上进行了预训练,成为迄今为止用于 EEG 信号处理的最大模型之一。实验结果显示,在六个不同的数据集上,NeuroLM 展现了强大的多任务学习能力,在部分任务上甚至优于单任务优化的现有最优模型。

作为全球首个 EEG 大语言模型融合框架,NeuroLM 代表着脑机接口与 AI 融合的全新方向。未来,研究团队将进一步探索跨个体解码的稳定性与泛化性,并拓展 EEG 数据集,以支持更复杂的脑电信号分析任务。NeuroLM 的发布不仅为 EEG 信号处理提供了新的范式,也为未来 BCI 技术的发展奠定了基础。
06. pMoE:联合提示多样专家模型,在视觉适应中实现1+1>2

论文链接:https://openreview.net/pdf?id=scozdyKzET (opens in new tab)
近年来,参数高效的微调方法在视觉任务中表现出了极大的潜力,尤其是在分类和分割等任务中,提示调优(prompt tuning)方法凭借较少的额外参数开销,成功地提高了模型的适应能力。然而,现有的方法通常仅依赖单一的预训练模型,无论是通用视觉模型还是特定领域(如医学影像)模型,这种策略都忽略了不同领域知识可能带来的互补性和协同作用,限制了模型的泛化能力。
在许多实际应用中,单一模型往往无法满足复杂任务的需求。例如,某些任务需要来自语言监督预训练模型的高层语义理解能力,同时也需要来自分割模型的低层特征提取能力。因此,一个关键挑战是如何在高效适配的前提下,合理整合来自多个专家模型的知识,以提升跨领域任务的适应能力。
针对这一挑战,研究员们提出了一种新颖的专家混合提示调优方法 pMoE。该方法在传统提示调优的基础上,进一步引入了专家特定的提示(expert-specific prompt tokens)以及可学习的分配机制(learnable dispatcher)。通过这些机制,pMoE 可以在不同提示层动态调度和融合多个专家的知识,使不同领域的专家能够有效协作,共同优化模型的适应能力。与以往仅依赖单一知识来源的提示调优方法不同,pMoE 通过混合多个专家的知识,实现了更广泛的任务适配性,提高了模型在不同领域任务上的表现。

研究员们在47个视觉适应任务上对 pMoE 进行了广泛测试,涵盖了通用视觉分类、医学影像分割等多个领域。实验结果表明,pMoE 在多个数据集上均取得了显著的性能提升,例如在 ImageNet-21K 分类任务中,相比现有最佳方法提高了2.36%的准确率。同时,pMoE 在计算效率和适应效果之间达到了良好的平衡,既保证了计算资源的高效利用,又在不同领域任务上实现了显著的性能优势。进一步的实验还表明 pMoE 可以有效提升现有的单模型提示调优方法,使其在通用和医学任务上均得到增强。
这一研究提出了一种更灵活的提示调优方案,使得多个专家模型可以协同工作,为视觉适应任务提供了更强的泛化能力。通过可学习的动态分配机制,pMoE 能够根据任务的需求合理选择和融合专家提示,实现自适应的专家知识调度。实验结果进一步验证了其在不同任务上的优势,展现了多专家协同学习在视觉适应任务中的巨大潜力。未来,pMoE 还可以进一步扩展至更复杂的应用场景,为跨领域知识整合提供新的研究方向。
07. Video In-Context Learning:视频上下文学习让视觉模型「照猫画虎」

论文链接:https://arxiv.org/abs/2407.07356 (opens in new tab)
项目链接:https://aka.ms/vid-icl (opens in new tab)
在一个理想的世界模型中,模型与外界环境的交互应当是多样的。而大部分现有工作都聚焦于用文本作为主要的交互方式,这使得对生成结果的细节和多样性的控制变得困难。另一方面,视频是高度具象且通用的,能够传递广泛的信息,如完成各种任务的示例,包括移动或抓取对象等。
因此,在这项工作中,研究员们提出了视频上下文学习(Video In-Context Learning, Vid-ICL),通过一段示例视频来指导模型在新场景下进行生成,使得生成结果可以在新场景下「模仿」示例视频中完成的任务。视频上下文学习提供了语言和图像之外的一个新的接口,让模型与现实世界的交互变得更为多样。研究员们在常用的物体移动和抓取、视角移动,以及真实环境的模拟器中均验证了该方法的有效性。

Vid-ICL 采用 Transformer 作为模型结构,其训练包括两个阶段:第一,训练视觉编码器,如 VQ-VAE,将每个图像转换为离散 token;第二,每个训练样本被构建为 token 序列,Transformer 解码器的目标是恢复该 token 序列。研究员们在本文中提到一个关键的观察——模型可以从没有显式上下文形式的视频数据(即连续视频片段中)自发地学习出上下文推理能力,也就是对于 Video In-context Learning 的“零样本能力”。
在实验中,研究员们通过对一条相同的查询视频提供不同语义的示例视频,来评估视频上下文学习的有效性和精确性,并提出了基于分类准确率的两个指标:视频分类准确率和探针分类准确率,来定量地与基准模型进行对比。在不同的指标上,Vid-ICL 均表现出了超出基准模型的效果。
08. 具身智能中,我们需要怎样的扩散规划器?

论文链接:https://openreview.net/forum?id=7BQkXXM8Fy (opens in new tab)
近年来,扩散模型被广泛应用于机器人和强化学习的决策制定当中,一系列优秀的工作应运而生。先前的研究在设计选择上表现出缺乏一致性和连贯性。目前尚不确定次优的设计选择是否会阻碍扩散模型在决策领域中发挥全部潜力。
具体来说,现有的方法并未充分解决诸如扩散指导算法的选择、网络架构,以及计划中是否应包含状态或状态-动作对等关键方面的问题。本文对扩散规划器中每个组件的最优选择做了详尽的研究,一共训练了6000多个扩散模型。得到了七个重要结论,作为这些结论的副产品,研究员们训练出来一个简单的模型,轻松地在不同任务上得到了最佳的效果。
本篇论文的结论指出,扩散规划在需要长期规划的任务中表现出色,而扩散策略则更适合于那些对长期规划要求较少的运动任务。建议在实际应用中使用扩散规划器生成状态计划,并利用逆动力学模型来计算相应的动作。此外,扩散模型中的时间刻度通常应大于模拟器时间的刻度,并且在不同任务中鼓励尝试不同的规划步长。在需要长期前瞻性规划的任务中,使用 Transformer 而非 UNet 作为扩散规划器的骨干是值得尝试的。
研究还发现,单层 Transformer 不足以进行有效的规划,但两层 Transformer 在许多问题中是有效的。在离线强化学习中,模型规模较大并不一定能带来更好的性能。最后,在数据集中包含足够多的近最优轨迹时,非引导方法(如具有选择的蒙特卡洛无条件采样)比分类器或无分类器引导方法表现更好。
