近日,复旦大学工程与应用技术研究院(简称工研院)认知与智能技术实验室(简称CITLab)撰写的题为《Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training》的学术论文被人工智能领域顶级期刊-IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)录用,直博生杨鼎康为第一作者,张立华教授为通讯作者。
论文简介
在具有复杂多变上下文的现实环境中,理解人类的情感意图是实现下一代高保真人机交互的关键技术。然而,人类对世界的观测具有潜在的主观性和局限性,导致手工收集的训练基准中存在不可避免的上下文偏见干扰,造成了灾难性的性能瓶颈。上下文偏见在因果演化视角下被定义为一系列不可观测的混杂因子,其耦合在不同的情感计算基准中,迫使模型学习上下文先验和情感意图之间的虚假相关性和统计捷径。
图1:情感计算中上下文偏见干扰的直观案例
为了缓解偏见干扰和推动相关技术的真正落地应用,本论文依托课题组提出的人类因果直觉理论,设计了一个上下文因果干预框架以审视任意情感计算任务中变量之间的因果关系。该框架通过切断造成偏见的后门因果路径来促进模型执行上下文去混淆训练,进而在训练过程中近似地捕获变量之间的因果效应,实现去偏的情感意图预测。作为一个模型无关的统一框架,论文提出的方法可以被适配到多种情感计算任务下的不同模型架构(囊括传统感知范式和基于大视觉语言模型的感知范式)中,带来显著和一致的性能增益。
图2:相比于原始的方法(中),因果干预框架(右)帮助模型关注主体相关的属性,消除了无效上下文刺激带来的语义歧义。
图3:提出的框架为不同的感知实例提供定制化的混杂因子解耦,以推动鲁棒的情感计算应用。
在大量基于图像和视频的情感计算基准上进行的综合实验验证了该框架的有效性和适用性。
延伸阅读
复旦大学认知与智能技术实验室(简称CITLab)隶属于复旦大学工程与应用技术研究院智能机器人研究院,近年来一直在机器直觉、人机融合智能等新一代人工智能理论、脑机解码与脑启发人工智能、智能感知与人机交互、物理仿真与数字孪生、行为识别和情感分析、智能芯片与智能硬件,以及大语言模型、智能机器人、智能驾驶、智慧医疗等领域开展交叉创新研究,相关学术成果发表于Nature主刊、中国科学、TPAMI、KBS、RAL、NeurIPS,CVPR、ICCV、ECCV、AAAI、ACM MM以及ICRA、IROS等国内外顶级期刊与会议。
IEEE TPAMI是人工智能、计算机视觉、模式识别领域公认的顶级国际期刊,在中国计算机学会(CCF)期刊会议推荐列表中为A类,是中科院一区TOP期刊。