近日,复旦大学工程与应用技术研究院(简称“工研院”)集群机器人系统实验室(Multi-AGent robotIC systems Lab,简称‘MAGIC Lab’)在欧洲计算机视觉和机器学习会议(The European Conference on Computer Vision,简称‘ECCV’)上发表开集语义三维重建领域的最新研究成果。题为《O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation》的学术论文被计算机视觉和机器学习领域顶级会议ECCV-2024录用,工研院2022级硕士生铁木尔为第一作者,丁文超青年研究员和甘中学教授为通讯作者。
论文简介:
在机器人应用中,在线构建开放式语义场景至关重要,因为这需要开放词汇的交互式场景理解。近年来,神经隐式表示为在线交互式建图提供了一个有前景的方向。然而,将开放词汇场景理解能力应用到在线神经隐式建图中仍然面临三大挑战:缺乏局部场景更新能力、空间层次语义分割模糊以及难以保持多视角一致性。为此,我们提出了O2V-Mapping,它利用基于体素的语义和几何特征创建开放语义场,从而在在线训练过程中允许局部更新。此外,我们利用一个基础模型进行图像分割,以提取对象级实例的语言特征,从而实现清晰的分割边界和层次语义特征。为了在不同视角下保持3D对象属性的一致性,我们提出了空间自适应体素调整机制和多视角权重选择方法。在开放词汇对象定位和语义分割中广泛实验结果表明,O2V-mapping在实现语言场景的在线构建的同时提高了3D物体分割准确性,超越了之前的最先进方法。
本文主要工作:
近年来,基于NeRF的隐式表示由于其高保真重建质量而被广泛应用于映射。然而,仅使用传统神经隐式表示缺乏语义信息。现有的语义映射方法主要依赖手动标注来获取语义信息,这种方法工作量巨大,并且获得的语义信息受限于有限的语义标签类别数目。开放词汇语义具有零样本获取语义信息和无限制的语义类别数量的优势,这对于适应复杂场景至关重要。最近的技术尝试将CLIP和DINO等开放集语义语言特征嵌入到神经辐射场中,实现了基于神经隐式表示的开放词汇新视角合成(NVS)。
在开放集语义场景理解方面,常见的问题在于语义信息随不同尺度变化。例如,物体可以被解释为门,而门把手则是焦点变化后的解释。此外,语义模糊性广泛存在,在物体边缘无法获得清晰的语义边界。关键原因在于大多数现有工作集中于像素级语义,缺乏对象级语义理解。此外,在在线映射过程中,从不同角度观察同一物体可能会导致对该物体赋予不同的语义。上述问题导致了语义映射过程中的时空模糊性。
在本文中,我们提出了O2V-Mapping,一种高效且准确的在线构建开放集语义场景的新方法(如图1)。
图1. O2Vmapping总体框架
我们的框架通过将CLIP等文本-图像大型模型的语言嵌入与基于体素的神经隐式表示相结合,实现了在线开放词汇映射。此外,通过在对象级别重建开放集语义场景,并利用基础模型的分割先验,我们消除了语义模糊性,获得了清晰的语义边界并解决了多视角不一致性问题。最后,我们提出了一种以LLM为中心的代理架构,将我们的开放集语义场景方法实例化为交互式记忆,通过查询和渲染机制实现全场景落地树搜索和在线记忆优化。本文的主要贡献总结如下:
1. 提出O2V-Mapping框架:一种在线构建开放集语义场景的方法,通过将语言嵌入与基于体素的神经隐式表示结合,实现了高效准确的在线语义映射。
2. 对象级语义理解:通过在对象级别重建语义场景,并利用基础模型的分割先验,消除语义模糊性,获得清晰的语义边界(如图2),并解决多视角不一致性问题。
图2. 在室内场景中在线重建语义场及文本查询结果
3. LLM智能体架构:提出一种以LLM为中心的智能体架构,将开放集语义场景实例化为可交互记忆模块,通过查询和渲染机制实现全场景接地树搜索和在线记忆细化,进而实现复杂长程的具身规划(如图3)。
图3. O2V-mapping与LLM交互
4. 消除语义模糊性和多视角不一致性:通过对象级别的语义理解和基础模型的分割先验,显著改善了语义模糊性和多视角不一致性问题。(图4)
图4. 自适应分裂体素
延伸阅读:
欧洲计算机视觉会议(ECCV)是由欧洲计算机视觉协会(ECVA)管理的计算机视觉和机器学习领域的两年一度的顶级研究会议。ECCV在偶数年举行,汇集了这些领域的科学和工业界人士。第一次ECCV会议于1990年在法国昂蒂布举办,此后在欧洲各地轮流举办。
MAGIC Lab,是复旦大学工研院智能机器人研究院和智能机器人教育部工程研究中心的主要研究团队之一,复旦大学工研院副院长、智能机器人研究院院长甘中学教授为实验室首席PI。MAGIC Lab主要依托上海市人工智能市级重大专项,面向国家《新一代人工智能发展规划》中的群体智能理论、自主协同控制与优化决策理论、群体智能关键技术等重要科学方向,融合非线性动力学、模式识别、计算神经科学、强化学习、集群智能等多领域的理论与方法,重点探究人机物协同与智能融合的科学原理,突破异构群体行为协作与动态演变的关键技术,构建智慧交通与智能制造等场景下的异构集群交互系统。