近日,复旦大学工程与应用技术研究院(简称工研院)认知与智能技术实验室(简称CITLab)撰写的多项学术成果被CCF-A类学术会议CVPR 2024录用,张立华教授为通讯作者,19级直博生王顺利、20级直博生杨鼎康以及21级直博生李明程为相关论文的第一作者。
论文简介
CPR-Coach: Recognizing Composite Error Actions based on Single-class Training
细粒度医疗行为分析技术对于提高医疗培训效率、降低培训成本起到了重要作用。目前细粒度医疗行为分析任务面临着数据短缺、算法单一的问题。心肺复苏术(CPR)是急救中最基本的一项技能。目前CPR技能考核方式主要依赖于假人与真人医师完成,这种组合式的培训方法具有成本过高、难以大规模推广的缺点。针对此问题,本文提出了一种基于纯视觉实现CPR错误行为识别与技能评估的方案。具体而言,本文定义了13类单类错误行为与74类复合错误行为,并构建了CPR-Coach数据集。此数据集包含单类错误行为视频与复合错误行为视频。为处理技能评估过程中的“单类训练-多类测试”问题,受启发于人类大脑的想象力机制,本文提出了ImagineNet框架在监督信息严重受限的情况下提升模型的复合错误识别性能。
CPR-Coach数据集、复合错误行为识别任务形式与ImagineNet框架
充分的对比与消融实验证实了本文所提方法的有效性,相关系统已应用于实验室牵头承担的国家科技创新2030-“新一代人工智能”重大项目中。本文所提出的数据集与算法有望为计算机辅助医疗技能评估研究带来新的启发。
Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities
多模态情感分析(MSA)近年来引起了广泛关注。与传统的基于单模态的情感识别任务不同,MSA通过语言、音频和视觉等多种模态来理解和识别人类情感。以往的研究表明,将不同模态之间的互补信息结合起来,有助于生成更有价值的联合多模态表示。到目前为止,在假设所有模态在训练和推理阶段都可用的情况下,MSA得到了很好的研究。然而,在真实诊疗场景下规培医生的多模态人文情感理解任务中,普遍存在由于遮挡、环境噪声等原因造成的不确定模态缺失问题,从而导致识别精度低下。为了解决上述问题,该研究提出了一个关系解耦的知识蒸馏框架,其包含了三个核心的贡献:(1)提出了一种样本级的对比蒸馏机制,其通过实施样本级的对比学习捕捉跨样本的整体相关性并传递有价值的监督信号;(2)设计了一种情感类别引导的原型蒸馏机制,利用类别原型来传递类别内和类别间的特征变化,从而提炼情感相关的信息和学习鲁棒的联合多模态表征;(3)引入了一种响应解缠的一致性蒸馏策略,通过解缠异构响应并最大化同构子响应之间的互信息,优化情感决策边界并鼓励潜在分布对齐。
统一的多模态缺失模态自蒸馏框架
综合的实验结果表明,提出的框架显著地改善了真实诊疗场景下针对规培医生的人文情感理解的性能,缓解了由于数据缺失对多模态情感分析系统的鲁棒性造成的负面影响,为实验室牵头的科技创新2030-新一代人工智能重大项目中高保真模拟诊疗系统的实际部署和落地应用提供了可靠的算法保障。
Towards Robust Emotion Recognition in Context Debiasing
基于情境感知的情感识别当前已经成为了在非受控现实环境中理解人类情感意图的关键技术。主流的方法无一例外地从多样的情境和主体为中心的属性中提取集成表征以感知目标主体的情感状态。尽管通过复杂的结构和精心设计的机制取得了一定的进展,困扰相关技术落地应用的重要挑战依然存在由于情境偏见的干扰。有害的偏见迫使当前的算法在似然估计中依赖情境上下文和情感标签之间的虚假相关性,造成严重的性能瓶颈和混淆情感相关的情境先验。
情感计算中情境偏见的直观案例
受实验室提出的创新机器直觉理论启发,本研究首次从人类反事实因果直觉的角度出发,提出了该领域首个反事实情感推理去偏框架以解决上述问题。该框架为现有的基于图像/视频的情感分析方法提供了一个通用的情感因果图,以挖掘不同情感表征之间的实际因果效应。基于此,该框架引入了一个非侵入式的情境分支以捕获情境偏见造成的不利直接因果效应。在推理阶段,该框架通过对比事实和反事实结局以从总的因果效应中移除直接的上下文效应,促进了情境偏见的缓解和鲁棒的情感预测。作为模型无关的方法,该框架能够被轻易的集成到当前的算法中并提供显著和一致的性能增益。在大量基于图像和视频的情感计算基准上综合的实验验证了该框架的有效性和适用性。