新闻动态
创新成果:工研院集群机器人系统实验室论文被国际人工智能会议ICCV-2023录用
发布时间:2023-08-16        浏览次数:10

近日,复旦大学工程与应用技术研究院(简称“工研院”)集群机器人系统实验室(Multi-AGent robotIC systems Lab,简称‘MAGIC Lab’)在国际人工智能联合会议(IEEE International Conference on Computer Vision,简称‘ICCV’)上发表视觉强化学习领域的最新研究成果。题为《Improving Generalization in Visual Reinforcement Learning via Conflict-aware Gradient Agreement Augmentation》的学术论文被人工智能领域顶会ICCV-2023录用,工研院2020级博士生刘司澳为第一作者,李伟青年研究员和甘中学教授为通讯作者。


论文简介:

在视觉强化学习中,学习一个对未见环境具有很强泛化能力的策略仍然具有挑战性,但对于视觉强化学习来说这又是至关重要的。尽管数据增强组合在监督学习泛化中已经获得成功,但是简单地应用到视觉强化学习算法中可能会损害训练效率,导致性能大幅退化。本文首先进行定性分析,阐明了主要原因:(i) 在各种增强方法中存在高方差的梯度幅值;(ii)存在梯度冲突。为了改善这些问题,我们提出了一个通用的策略梯度优化框架,命名为冲突感知梯度协同增强(CG2A),将数据增强组合更好地集成到视觉强化学习算法中以解决泛化偏差。具体来说,CG2A开发了一个梯度协同求解器来自适应地平衡不同的梯度幅值;并引入了一种软梯度手术策略来减轻梯度冲突。大量实验表明,CG2A显著提高了视觉强化学习算法的泛化性能和样本效率。


本文主要工作:

为了提高泛化性能,数据增强已被广泛应用于强化学习中。许多研究利用数据增强方法来生成合成数据和增加训练环境的多样性,取得了可观的性能提升。然而,最近的方法通常仅选择单一的数据增强技术来提高泛化能力,这导致了在观测与增强图像有较大差异的环境中的表现不佳。例如,ColorJitter常被首选用于处理颜色变化,但用此增强训练的智能体仍难以处理错综复杂的纹理模式。换言之,泛化能力高度依赖于特定的数据增强技术的选择,这就是所谓的泛化偏差。

与单一数据增强相比,增强组合技术集成了多个数据增强方法来增强多样性并减轻泛化偏差,这是一种更有前景的预处理解决方案。不幸的是,将增强组合引入视觉强化学习中存在困境。虽然数据增强组合可以有效提高监督视觉任务中的泛化能力,但强化学习算法对过度变化非常敏感,导致性能下降和训练样本低效。因此,有必要重新思考视觉强化学习算法为何不能像监督学习那样从增强组合中获益。

1.梯度优化角度定量分析

如图1,从梯度优化的角度来看,我们进行了大量定性分析以阐明在训练中采用数据增强组合时所出现的性能下降和训练崩溃的原因。这个现象主要有两个原因: 1)使用多样的数据增强会导致梯度幅值出现高方差,造成有偏泛化; 2)存在于多个增强方法之间的梯度冲突会阻碍策略优化。为平衡高方差的梯度,一种有效方法是使用手动设定的超参数来自定义损失项的权重。然而,超参数调节高度依赖专家知识,在处理多个数据增强时这种方法可能不够灵活和计算上太昂贵。此外,平均型的梯度更新策略倾向于收敛到最速收敛方向,在有效处理复杂的梯度冲突上存在困难,这会导致局部最优和样本效率的降低。

2.CG2A整体结构概要

为解决这些问题,我们提出了一个通用的策略梯度优化框架,称为冲突感知梯度协同增强(CG2A),以将增强组合技术集成到强化学习框架中并提高其泛化性能。具体来说,CG2A包含两个关键组件:一种自适应权重分配器称为梯度协同求解器(GAS),以及一种冲突感知的梯度更新策略称为软梯度手术(SGS)。为有效协调高方差的梯度,我们将超参数调优形式化为一个二阶多目标优化问题,并使用GAS以最小的计算成本获得一个近似解。此外,根据之前的研究,尽管梯度冲突会降低收敛速度,但这些冲突的梯度组分可能包含更多与语义无关的信息,这可以提高不变性学习的一致性。基于这个假设,我们提出SGS来改进梯度更新过程,保留一小部分冲突梯度组分,以在收敛速度和泛化性能之间达到平衡。我们在DMControl泛化基准和一些机器人操作任务上进行了大量实验验证了CG2A的有效性。


延伸阅读:

ICCV会议内容主要围绕人工智能相关理论及应用,是人工智能领域中最主要的学术会议之一,是全球学术界以及企业界人工智能研究人员和实践者的顶级国际聚会。中国计算机学会(CCF)推荐国际学术会议目录将ICCV列为人工智能领域A类会议。

MAGIC Lab,是复旦大学工研院智能机器人研究院和智能机器人教育部工程研究中心的主要研究团队之一,复旦大学工研院副院长、智能机器人研究院院长甘中学教授为实验室首席PIMAGIC Lab主要依托上海市人工智能市级重大专项,面向国家《新一代人工智能发展规划》中的群体智能理论、自主协同控制与优化决策理论、群体智能关键技术等重要科学方向,融合非线性动力学、模式识别、计算神经科学、强化学习、集群智能等多领域的理论与方法,重点探究人机物协同与智能融合的科学原理,突破异构群体行为协作与动态演变的关键技术,构建智慧交通与智能制造等场景下的异构集群交互系统。