编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。
MobiCom 是移动计算和无线网络领域的顶级国际学术会议之一。本期“科研上新”将为大家带来多篇微软亚洲研究院入选 MobiCom 2024 的精选论文解读,涉及内容涵盖移动任务自动化、远程听诊、DNN 推理、气体感测、被动感知、无线传感等。
本期内容速览
01. AutoDroid:大语言模型驱动的智能移动设备任务自动化
02. 利用耳机探索远程心脏听诊的可行性(MobiCom 2024最佳论文奖)
03. FlexNN:为内存受限设备提供动态存储管理的DNN推理框架
04. Gastag:使用基于石墨烯标签的气体感测新范式
05. GPSense:利用无处不在的GPS信号进行被动感知
06. MSense,在运动干扰下增强无线传感能力
01. AutoDroid:大语言模型驱动的移动任务自动化

论文链接:https://arxiv.org/abs/2308.15272 (opens in new tab)
近年来,移动任务自动化技术备受关注,其目标是通过自然语言交互实现智能移动设备自动化操控,在 AI PC、智能个人助理、车载信息娱乐系统等领域拥有广阔的应用前景。但受限于有限的自然语言理解能力以及对人工干预的严重依赖,现有自动化方案的可扩展性普遍较差,难以应对复杂多变的用户需求和应用场景。
对此,微软亚洲研究院的研究员们与清华大学智能产业研究院的李元春教授团队合作提出了 AutoDroid。AutoDroid 的核心在于其融合了大语言模型的通用常识性知识与特定应用的领域知识。传统的任务自动化方法,无论是基于开发人员预设规则,还是基于用户演示或机器学习,都高度依赖人工参与,且难以覆盖广泛的应用场景。AutoDroid 利用大语言模型强大的语言理解、推理和零样本泛化能力,结合自动化动态分析技术,实现了无需人工干预的任意安卓应用任务自动化,为构建更加智能、高效的个人助理(Agent)应用奠定了坚实的基础。
AutoDroid 的系统框架主要分为两个关键阶段:离线学习阶段和在线执行阶段。在离线阶段,AutoDroid 通过自动化探索目标应用,可构建应用的 UI 转换图(UTG)。该 UTG 详细记录了应用中各个 UI 状态之间的跳转关系,以及每个 UI 状态下可执行的操作,如同应用的“逻辑地图”。随后,AutoDroid 利用 LLMs 深入分析 UTG 中每一个 UI 的元素和状态,总结出每个 UI 元素的功能(例如,将某个按钮的功能总结为“删除所有事件”),并记录下应用的初始状态到达该 UI 元素所在状态的完整操作路径。这些信息会被组织成一个“模拟任务-状态-元素”映射关系表,构成该应用的专属知识库,即 App Memory。

进入在线执行阶段,AutoDroid 便可以接收用户通过自然语言下达的任务指令。它首先从 App Memory 中检索到与当前任务高度相关的“模拟任务”信息。随后,AutoDroid 以模拟任务为参考,进一步生成具体的设备控制指令,并转化为实际的 UI 操作在设备上执行,且更新当前的 UI 状态。如此循环往复,直至最终目标达成。
为了全面评估 AutoDroid 的性能表现,研究员们构建了一个包含13个常见安卓应用、158个真实用户任务的基准测试集 DroidTask。实验结果显示:和基于 GPT-4 的基线方法相比,AutoDroid 的任务完成率大幅提升了36.4%-39.7%,而平均查询成本却降低了约45%。未来,研究团队将继续探索更高效的模型推理和优化策略,进一步降低任务自动化的成本和延迟,并将其扩展到更多的应用场景与设备类型。
02. 利用耳机探索远程心脏听诊的可行性(MobiCom 2024最佳论文奖)

论文链接:https://dl.acm.org/doi/10.1145/3636534.3649366 (opens in new tab)
远程视频问诊为患者提供了在家中就能便利接受专业医疗咨询的机会。然而,现有远程视频问诊的一个主要限制是医生依赖听诊器来获取患者心脏的信息。为此,微软亚洲研究院的研究员们与合作伙伴共同提出了名为 Asclepius 的“硬件-软件”解决方案,让患者的普通耳机可以像听诊器一样辅助医生在视频问诊中听到患者重要的心脏信息(即 PCG 信号)。

Asclepius 解决方案的核心在于一个低成本的插件外设。该外设能够将耳机的扬声器转变为麦克风,从而在耳道捕获患者微弱的 PCG 信号。考虑到 PCG 信号从心脏传播到耳道的过程中会遭受严重衰减和多径效应,研究员们还开发了高效的信号处理算法和机器学习方法,以消除原始 PCG 接收中的干扰信号,并纠正信号幅度和频率的失真。这一技术涉及自动阻抗匹配和电压检测,采用数字电位器芯片 MAX5402EUA,其阻抗可以通过 SPI 控制信号编程,以适应不同耳机和配对设备之间的阻抗匹配。
Asclepius 在一个双层 PCB 板上实现,遵循 IRB 协议,并有30名志愿者对其性能进行了测试评估。实验结果表明,Asclepius 能够利用不同类型的耳机恢复 PCG 信号。系统在信号预处理、分割和两阶段信号恢复方面表现出色,其中第一阶段使用 UNet 模型架构恢复 PCG 频谱图,第二阶段则通过 1D UNet 模型进一步优化时间域波形,以减少相位不一致带来的噪声。该工作通过将普通耳机转变为医疗级听诊器,有望改善远程医疗服务的质量和效率,为远程心脏听诊领域的发展提供了新的方向。
03. FlexNN:为内存受限设备提供动态存储管理的DNN推理框架

论文链接:https://dl.acm.org/doi/10.1145/3636534.3649391 (opens in new tab)
随着神经网络模型(DNN)在个人计算设备、自动驾驶、机器人和无人机等领域的广泛应用,边缘设备已成为人工智能服务落地的关键载体。但内存增长远落后于模型规模扩大的需求,加之多应用环境中的内存共享,模型内存开销已成为其在设备端部署的重要瓶颈。现有深度学习框架由于无法解决动态内存管理导致的碎片化和延迟问题,通常会将模型参数整体加载至内存并顺序存放。而随着模型参数规模的持续扩大,这种方法难以满足内存受限的要求。
为破解这一难题,研究员们提出了一种为存储受限设备提供存储层级动态管理的 DNN 推理框架 FlexNN。FlexNN 将存储管理形式化为一个“时间-空间”二维背包问题,并打破了传统张量的边界,通过采用“切片-加载-计算”的细粒度联合优化策略,可实现磁盘数据加载与计算任务的并发执行,大幅降低推理时的内存开销。

实验结果表明,FlexNN 在不牺牲模型精度的前提下,将内存消耗降低了93.81%,推理延迟仅增加3.64%。并且,该方法还获得了成果评估中结果可复现、可重用等四个徽章。
FlexNN 是清华大学智能产业研究院与微软亚洲研究院异构计算团队合作的创新成果,也是异构计算团队在针对深度学习模型设计新型虚拟存储系统方向的又一重要进展,代表性工作还包括 Pre-gated MoE 和 Ripple。
Pre-gated MoE 论文:https://ieeexplore.ieee.org/document/10609634 (opens in new tab)
Ripple 论文:https://arxiv.org/abs/2410.19274 (opens in new tab)
04. Gastag:使用基于石墨烯标签的气体感测新范式

论文链接:https://dl.acm.org/doi/10.1145/3636534.3649365 (opens in new tab)
针对爆炸性以及有毒气体的传统气体检测方法存在成本高昂、维护复杂的问题,微软亚洲研究院的研究员们与合作伙伴共同提出了一种基于被动标签的气体感测新方法 Gastag。Gastag 的核心是将一小片气体敏感材料嵌入到价格低廉的 RFID 标签中,通过气体浓度变化引起的材料导电性变化,进而影响标签的阻抗和接收信号,实现在不牺牲标签-读卡器工作距离的前提下对气体浓度的精确测量。
为了提升感测灵敏度和气体浓度的检测范围,研究团队精选并合成了一种新型高灵敏度、高比表面积的材料。同时,为了增大感知距离,团队对标签天线进行了重新设计,从而确定气体敏感材料的最佳位置以实现阻抗匹配。
通过广泛的实验验证,Gastag 在不同环境、不同标签朝向以及存在干扰条件的情况下,均能保持良好性能。而且 Gastag 在多种气体浓度测量中均展现出了低误差率,且成功将感知距离扩展至8.5米,为大规模部署提供了可能。

05. GPSense:利用无处不在的GPS信号进行被动感知

论文链接:https://dl.acm.org/doi/10.1145/3636534.3690674 (opens in new tab)
随着无线传感技术的发展,Wi-Fi、UWB 和声波等无线信号已被用于多种感知任务,但这些系统通常面临感知范围有限和可能干扰无线通信的问题。针对这些挑战,本研究工作提出了一种创新方法 GPSense 系统,利用无处不在且全天候工作的 GPS 信号进行无线感知。
GPSense 系统可通过商业 GPS 接收模块采集的原始数据,重建信号的幅度和相位信息,而这对于感知任务至关重要。研究员们还开发了适用于 GPS 信号特性的感知模型,并提出了分布式感知的概念,通过融合多个卫星的信号来增强感知性能。

研究员们在不同的环境、时间和天气条件下对 GPSense 系统进行了广泛的测试,验证了其在各种条件下的鲁棒性。特别值得一提的是,研究员们还成功地将 GPS 感知技术扩展到了室内环境,仅使用一个低成本的 GPS 中继器即可实现。这些实验不仅展示了 GPSense 系统在人体活动感知、被动轨迹跟踪和呼吸监测等方面的应用潜力,也证明了该系统在实际应用中的有效性和适应性。
06. MSense,在运动干扰下增强无线传感能力

论文链接:https://dl.acm.org/doi/10.1145/3636534.3649350 (opens in new tab)
在无线感知领域有一个很大的限制是,设备在感知过程中必须保持静止。这种限制极大地缩减了无线传感技术在实际生活中的应用,因为现实生活中无线设备(如手机)以及目标(如人)时常都会处于运动状态。为此,微软亚洲研究院的研究员们与合作伙伴提出了一种在运动干扰下增强无线传感能力的创新解决方案 MSense。该方法通过建立包含设备运动和干扰体运动的感知模型,借助纯信号处理技术提取身体和设备运动的影响,并将其从目标信号中移除,从而实现准确的目标传感。
MSense 利用毫米波雷达(mmWave radar)来实现。采用数字波束成形技术,系统可以借助多个天线接收的信号增强来自目标区域的反射信号。通过比较不同身体区域的反射信号,MSense 能够消除身体和设备运动的干扰,提取出目标运动信息。该方案不依赖于目标运动的周期性,可以应用于周期性运动(呼吸)和非周期性运动(手势)的感知任务。

实验结果表明,MSense 在多种实际应用中表现出色。在车辆中进行的驾驶员疲劳检测实验中,MSense 显著提高了眨眼、打哈欠和点头检测的准确率,并降低了误报率。在运动中的呼吸监测实验中,MSense 能够在家庭和健身房环境中准确估计呼吸率,即使在跑步机上以不同速度跑步时也能监测到呼吸率的变化。此外,在移动设备上的手势识别实验中,MSense 还实现了超过93%的识别准确率。