新闻动态
创新成果:工研院机器人智能实验室在CVPR、ICRA、Information Fusion等国际期刊和会议上发表多个研究成果
发布时间:2025-03-25        浏览次数:10

近日,复旦大学工程与应用技术研究院(以下简称“工研院”)智能机器人研究院张文强研究员课题组,在CVPRICRAInformation Fusion等国际顶级学术会议和期刊上发表多项研究成果。依托工研院的跨学科交叉研究平台,团队聚焦新工科领域的前沿问题,推动智能机器人技术的创新发展,取得了一系列具有重要学术价值和应用前景的研究进展。值得强调的是,相关论文的第一作者及主要作者均为工研院研究生,充分体现了研究院在研究生培养、学科交叉融合及自主创新能力提升方面的显著成效。

论文1介绍

题目:D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition

发表刊物:IEEE Conference on Computer Vision and Pattern Recognition

第一作者:王浩然,通讯作者:张文强 研究员、王龑 博士后

当前,动态面部表情识别(DFER)方法的研究进展主要集中在更好地捕捉面部表情的空间和时间特征方面。然而,DFER数据集中存在大量噪声样本,一般分为两种类型:一种是由遮挡、光线昏暗和模糊等因素导致的低质量数据引起的;另一种是由标注者标注偏差导致的错误标注数据产生的。为应对这两种噪声,论文精心设计了动态双阶段净化(D2SP)框架。该框架旨在动态地对DFER数据集中的这两种噪声进行净化,确保训练过程中仅使用高质量且标注正确的数据。为减少低质量样本的影响,论文引入了粗粒度剪枝(CGP)阶段,该阶段计算样本权重并剪枝那些低权重样本。在CGP之后,细粒度校正(FGC)阶段评估预测稳定性以校正错误标注的数据。此外,D2SP被构想为一个通用且即插即用的框架,旨在与现有的DFER方法无缝集成。在主流DFER数据集上进行的广泛实验以及部署多种基准方法的结果有力地证明了D2SP能够显著提升性能指标。

1 D2SP双阶段净化框架流程图


论文2介绍

题目:Component-aware Unsupervised Logical Anomaly Generation for Industrial Anomaly Detection

发表刊物:IEEE International Conference on Robotics and Automation

第一作者:佟璇,通讯作者:张文强 研究员

异常检测在工业制造中对于确保产品质量和提高效率至关重要,而异常样本的稀缺性限制了传统的检测方法。生成模型的引入通常会产生不切实际的异常,增加误报,需要真实世界的异常样本培训。论文创新性地将异常生成视为一个组合问题,并提出了组件感知的ComGEN以及解决逻辑差距的无监督框架异常生成。我们的方法包括多组分解析视觉组件的学习策略,将文本分解为组件对,揭示内在的逻辑约束和行为注意力引导的残差映射和模型训练,具有跨多个尺度的迭代匹配参考。实验在MVTecLOCO数据集上证实了ComGEN的功效,兵在柴油发动机的实际场景和广泛使用的MVTecAD数据集上进行了性能验证。


2工业领域异常样本的生成效果


论文3介绍

题目:A Survey on RGB, 3D, and Multimodal Approaches for Unsupervised Industrial Image Anomaly Detection

发表刊物:Information Fusion(中科院一区Top期刊)

第一作者:林堉炫,通讯作者:张文强 研究员、王龑 博士后

在智能制造领域,工业图像异常检测作为一个重要的分支,侧重于通过计算机视觉技术自动识别工业场景中的视觉异常(如产品表面缺陷、装配错误、设备外观异常等)。随着无监督工业图像异常检测(UIAD)的快速发展,不仅在RGB设置下,而且在3D和多模态(RGB3D)设置中都取得了出色的检测性能。然而,现有的工作主要集中在RGB设置中的UIAD任务,很少讨论3D和多模态设置。为了解决这一差距,本文全面回顾了三种模态设置中的UIAD任务。具体来说,论文首先介绍了UIAD的任务概念和流程。然后概述了三种模态设置(RGB3D和多模态)中UIAD的研究,包括数据集和方法,并回顾了多模态设置中的多模态特征融合策略。最后,论文总结了UIAD任务在三种模态设置下面临的主要挑战,并对未来的发展方向提出了见解,旨在为研究人员提供全面的参考,为工业信息化的推进提供新的视角。


3 不同模态设置下的无监督工业图像异常检测综述路线图


论文4介绍

题目:ZhongJingGPT: An Expert Knowledge-Guided Language Model for Traditional Chinese Medicine

发表刊物:Tsinghua Science and Technology

第一作者:康砚澜,通讯作者:张文强 研究员、王龑 博士后、王昊奋 研究员、Chu Cheng-Chung教授

传统中医诊断推理复杂,对大型语言模型 (LLM) 提出了独特的挑战。课题组推出了仲景GPT,这是一款专门针对中医的 LLM,它将垂直领域微调策略与认知心理学洞察相结合。论文结合了多中医场景和知识指导构建策略,并通过基于症状序列的集束搜索和医学有限状态机 (MedicalFSM) 模块进行了增强。仅使用 LoRA 微调,仲景GPT 就达到了最先进的准确率,超越了 GPT-4。综合评估,包括分布外评估、知名中医师案例研究和多轮角色扮演场景,验证了其在 CMMLU 和中医人文数据集上的卓越性能。由专业从业者评估的多维评估标准进一步验证了其有效性。这项研究展示了中医专业 LLM 的潜力,并为复杂专业领域的人工智能发展提供了见解,将古老的智慧与现代人工智能技术联系起来。

4 仲景GPT


论文5介绍

题目:Towards Advanced Emotional Care: Embodied Emotional Care System for Humanoid Robots

发表刊物:IEEE International Conference on Multimedia & Expo

第一作者:常扬,通讯作者:张文强 研究员、王龑 博士后、甘中学 教授

在现代医疗领域,心理健康与情感关怀对患者康复和整体治疗效果至关重要。然而,受限于护理资源短缺、个性化治疗方案不足以及传统护理模式对多模态情感支持的局限,持续有效地提供情感护理存在困难。针对这一问题,论文提出了一种名为“具身情感护理系统(EECS)”的具身人形机器人框架,旨在通过集成的多层次架构提供多模态、个性化的情绪护理。EECS能够分析动态的面部表情和实时语音输入,提取患者的情感状态和语义信息,构建情境感知的提示词,由大语言模型(LLM)进行推理回应,并最终生成富有同理心的对话,同时赋予人形机器人人类般的面部表情和自然的肢体动作,以满足患者多样化的情感护理需求。实验结果表明,在人形机器人上部署EECS,通过实时的多模态互动能够显著提升患者的参与感,提供更加深入的情感支持和更接近人类的治疗体验。此外,该系统还能有效缓解专业情感治疗资源不足的问题,为提高整体医疗质量提供了可行的途径。

5 具身情感护理系统(EECS)系统架构


论文6介绍

题目:HSS-IAD: A Heterogeneous Same-Sort Industrial Anomaly Detection Dataset

发表刊物:IEEE International Conference on Multimedia & Expo

第一作者:王琦山,通讯作者:张文强 研究员、高述勇 博士后

多类无监督异常检测算法(MUAD)因其相对较低的部署成本和较高的训练效率,受到越来越多的关注。然而,当前工业异常检测(IAD)数据集的局限性,MUAD方法在实际应用中的有效性受到质疑。这些IAD数据集包含了许多类别,但它们并非是来自同一工厂的相同类别,也未能涵盖多种结构或外观上的变化。此外,数据集中的缺陷并未体现真实场景下的检测挑战性。因此,论文引入了异构同类工业异常检测(HSS-IAD)数据集,该数据集包含了8580张金属类工业零件图像及其精确的异常标注。这些零件展示了在结构和外观上的丰富变化,并具有与基础材料高度相似的细微缺陷。最后,论文在HSS-IAD上评测了流行的异常检测方法在单类别和多类别设定下的性能表现,展示了数据集的有效性和挑战性,能够促进现有IAD算法在真实工厂条件下进行应用。

6 数据集的构建流程及效果展示


延伸阅读:

CVPRIEEE / CVF Computer Vision and Pattern Recognition)是世界范围内计算机视觉与模式识别领域的重要盛会,始于1983年,每年举办一次。该会议是人工智能领域中CCF-A类推荐的顶级国际会议。

International Conference on Robotics and Automation (ICRA)是国际机器人和自动化顶级会议,是IEEE机器人与自动化学会的旗舰会议。该会议成立于1984年,每年举行一次。

International Conference on Multimedia and Expo(ICME)是重要的国际多媒体领域会议,始于1987年,每年举办一次,是多媒体领域内历史悠久且影响力广泛的会议之一,旨在展示多媒体和展览领域的最新研究成果和技术进展。

Information Fusion是一本专注于多传感器、多源信息融合领域的国际顶尖权威刊物,由Elsevier出版,一直致力于促进多传感器、多源和多过程信息融合领域的学术交流和学科协同发展,中科院1Top期刊

Tsinghua Science and Technology 是一本由清华大学主办、IEEE Xplore Elsevier 平台收录的国际权威学术期刊,主要刊载计算机科学、信息技术及工程相关领域的最新研究成果。期刊致力于促进信息科学与工程技术的学术交流,涵盖人工智能、计算机视觉、网络安全、大数据分析、物联网等前沿方向。


复旦大学机器人智能实验室长期围绕人工智能、机器人、具身智能等领域开展产学研工作,先后主持国家自然科学基金、科技创新 2030“新一代人工智能”重大项目、国家重点研发计划、上海市科委重大专项等30余项科研项目。近3年在TPAMITIPInformation FusionCVPRAAAIICCVACM MMCCF A类会议和顶级期刊发表论文30余篇。产生了一大批具有原创性,自主知识产权的研究成果,广泛应用于智能制造、服务机器人、康复医疗等领域。