创新成果：工研院智能机器人研究院学术成果被行业顶级期刊和会议录用

新闻动态

首页新闻动态

新闻动态

发布时间：2023-10-13 浏览次数：10

近日，复旦大学工程与应用技术研究院（以下简称“工研院”）智能机器人研究院甘中学教授课题组李伟青年研究员团队撰写的题为：

《Evaluation of frameworks that combine evolution and learning to design robots in complex morphological spaces》的学术论文被国际学术期刊《IEEE Transactions on Evolutionary Computation》（中科院1区TOP期刊，影响因子14.3）录用，李伟青年研究员为第一作者，甘中学教授为共同作者。
《Cross-Domain Policy Adaptation via Value-Guided Data Filtering》的学术论文被人工智能领域顶级会议NeurIPS 2023录用， 21级硕士生徐康为第一作者，李伟青年研究员为通讯作者。

《Evaluation of frameworks that combine evolution and learning to design robots in complex morphological spaces》论文简介

众所周知，共同优化机器人的身体和大脑（具身智能）是一项具有挑战性的任务，尤其是当尝试在模拟环境中改进设计，随后在现实世界中部署。为了解决这个问题，越来越多尝试将进化与学习算法相结合，该算法要么可以改进新产生的后代的遗传控制器然后微调以适应新的机器人设计或从零开始学习。本文提出了一种编码机器人的方法，该方法通过两个合成模式生成网络（CPPN）将机器人的形态和大脑编码在单个基因组中。基因组的身体部分进化使用进化算法（EA），个体的学习算法应用于继承的控制器。本文的目标是确定如何最有效地利用学习过程中的结果来提高机器人的任务表现。具体来说我们研究三种机器人进化和学习机制：（1）仅身体+控制器的进化；(2)学习算法应用于控制器并将学习到的适应度分配给基因组，但是不继承（达尔文框架）；(3)学习到的基因组进行继承（拉马克框架）。我们在三种不同的情况下进行实验并产生出不同的机器人机构和运动模式（如图1所示），结果表明，更好的性能可以通过学习获得，但前提是学习的控制器是由子孙继承。

机器人进化与学习之间的耦合概念如图 2所示， “生命三角”是有两个循环的嵌套优化系统：外循环是优化身体和大脑的进化算法，而内部循环是一种学习算法应用在“新生”机器人改进其控制器并对其进行评估以确定他们的适应度，通过进化和学习来探索两个系统如何相互作用。该框架可以应用于任何类型的学习算法—可以是进化算法，或者其他算法例如强化学习或贝叶斯优化等。具体来说，它阐述了以下机制：关于学习结果获得的适应性如何影响选择过程以及是否继承学习后的更新基因组以用于新的控制器。

图1 机器人形态和行为协同进化和学习图2 机器人进化和学习“生命三角”框架

《Cross-Domain Policy Adaptation via Value-Guided Data Filtering》论文简介

随着现代机器人硬件的发展以及对机器人需求的提升，强化学习往往会被用来训练复杂场景或者系统下的机器人控制策略，但由于强化学习算法trial-and-error的特性，相应的训练过程往往需要在对应的仿真环境下进行以避免真机系统的安全问题。然而，仿真系统往往无法完美建模真实环境下的机器人动力学，而该建模差异会导致所训策略无法直接部署到相应的真实系统。基于此，本文旨在解决在面对系统动力学差异/MDP（马尔科夫决策过程）转移概率差异时强化学习策略的泛化问题。

本文首先揭示了该类问题下以往基于动力学差异量化的方法的缺陷，即理论上该类方法在面对动力学差异非常显著/不存在动力学无关策略的环境时无法实现跨域泛化。同时，我们设计出对应的toy example验证了我们的理论分析结果。与以往方法中直接量化动力学差异并以此引导策略训练不同，我们提出了全新的价值函数等价性视角，即当某源域数据与对应假想目标域数据的TD target接近时该样本对于我们的策略训练来说便是等价的。理论角度我们也推导出价值函数等价性角度所衍生出的策略表现界，对应的约束不受限于环境动力学差异的显著程度/动力学无关策略的存在性。

图3 源域目标域差异导致的性能偏差

基于所提出的价值函数一致性准则，我们提出了Value-Guided Data Filtering (VGDF)范式，通过量化源域数据的价值函数差异进行简单的数据筛选，便能够充分利用源域数据下的有效数据和目标域下的少量样本训练出目标域近似最优策略。具体的，我们首先利用dynamics model ensemble进行目标域匹配状态的生成，接着通过比较对应数据的价值函数采取rejection sampling对每个source domain batch的数据进行固定比例采样。此外，为了拓展VGDF的通用性，我们将该方法延伸至仅有着源域离线数据的问题设定，提出了相应的算法变体以及理论下的策略表现界。

图4 Value-Guided Data Filtering方法的语义解释

延伸阅读：

复旦大学工研院副院长、智能机器人研究院院长甘中学教授课题组李伟青年研究员团队，近年来一直在具身智能，机器人进化和学习，移动机器人自主导航，群体智能等人工智能和机器人领域开展交叉创新研究，相关学术成果发表在TEVC, TCSVT, RAL, ICRA, ICCV, AAAI, NeurIPS等国内外著名期刊与会议。

IEEE Transactions on Evolutionary Computation是人工智能和进化计算领域的顶级期刊，主要报道进化计算和自然启发式等相关算法及其应用。NeurIPS (Neural Information Processing Systems)是人工智能领域最负盛名的国际学术会议之一，主要围绕人工智能相关理论及应用，该会议是人工智能领域中CCF-A类推荐的顶级国际会议，每年举办一次。本研究得到了上海市科学技术委员会的项目资助。

地址：上海市杨浦区邯郸路220号邮编:200433 电话：(86)021-65642222

工研院二维码
研究生会二维码