近日,复旦大学工程与应用技术研究院(以下简称“工研院”)智能机器人研究院、复旦大学元宇宙智慧医疗研究所智能感知与无人系统实验室(IPASS)在脑机接口领域的最新研究成果——题为《Noninvasive Neuroimaging and Spatial Filter Transform Enable Ultra Low Delay Motor Imagery EEG Decoding》的学术论文在国际神经工程顶级期刊《Journal of Neural Engineering》上发表。复旦大学工研院为第一完成单位和通讯单位,硕士生方涛为第一作者,王君孔帅为第二作者,康晓洋青年副研究员为通讯作者。这也是继年初在《JNE》发表相关工作以来,复旦大学张立华、康晓洋研究团队再次在此研究方向获得的系列研究成果。
脑机接口(BCI)技术可以将人的大脑活动解码为指令,进而使用该指令生成控制信号。这项技术不仅能够为瘫痪病人提供了一种与外界交互的替代方式,也为健康人提供了一种全新的人机交互控制策略。在不同类型的人脑生理信号中(ECoG,LFP,EMG等),非侵入式的头皮EEG信号由于具有较高的时间分辨率及便捷性,是BCI领域研究的重点。其中,运动想象脑电(MI-EEG)不需要外界诱发,能够实现更加自然的人机交互系统。然而,覆盖在头皮的有限数量电极采集到的脑电信号空间分辨率非常低,这导致解码算法无法有效的利用运动想象脑电的空间信息。造成这种现象的原因是体积传导效应,体积传导效应指的是皮质神经元活动可以通过大脑组织发散到头皮上不同的位置,这极大地削弱了颅内神经元活动在头皮空间上的表达。体积传导效应使得多个传感器测得的信号内容相似,进一步削弱了解码算法的有效性。
电生理源成像(ESI)技术可以解决这两个问题:通过建立精确的信号传导模型,有限数量的通道数据被映射到更多的源偶极子上,因此可以收集到比头皮电极更多的空间信息,在不降低时间分辨率的情况下提升空间分辨率。由于在源成像的过程中加入了解剖学约束,源信号也拥有更加清晰的物理和生理解释。此外,将ESI和深度学习技术相结合也成为运动想象解码的新趋势。然而,在实际应用中,有一个问题需要重要关注,那就是特征提取方法的选择。提取并联合多个域的特征(如时域,空域和频域),往往能够取得更好的解码结果。但是同时分析多个域的特征会带来计算量的增加,这在实际应用中导致了延迟的增大。
为了解决以上这些问题,复旦大学张立华、康晓洋研究团队提出了一个新的MI-EEG解码框架,如图1所示。通过ESI将传感器域EEG信号映射到源域,解决体积传导效应对EEG的影响,提升EEG的空间分辨率。针对空间分辨率提升带来的计算量问题,使用FBCSP算法训练了一组空间滤波器,将测试部分的特征提取时间降低到线性程度。最后,使用带有频域-空间-时间的自注意力机制的神经网络对得到的特征进行分类。在测试阶段,除了必要的预处理步骤之外,其他所有的步骤复杂度均控制在O(n²)以内。该论文所提出的运动想象脑电解码框架有望实现极低延迟的脑机接口系统。
图1 所提出的解码系统框架。(a)传导模型生成,使用ICBM152模型的MRI数据建立三层头部模型。(b)基于Desikan Killiany图谱选择感兴趣区域,并生成感兴趣区域的源信号。(c)特征提取和分类。FBCSP算法用于训练空间滤波器内核,以生成相应的频带时间序列特征。采用带空间-时间自注意机制的神经网络完成特征分类。通过将测试数据直接与滤波器核相乘来获得特征,最后通过分类获得预测结果。
在进行特征提取步骤之后,将源信号按照4:1的比例划分成训练集和测试集。此过程在整个框架中的位置如图2(a)左半部分所示,sEEG表示经过了ROI选择后的脑电源信号,具体实施细节如图2所示。使用训练集对包含6个空间滤波器的空间滤波器组进行训练,每个空间滤波器分别对应滤波后划分的每个频段(8-12Hz,12-16Hz,16-20Hz,20-24Hz,24-28Hz,28-32Hz)。在每个子频段上每类任务都提取4个特征值最大的参数,最终共选取16(4×4)个最大特征值对应的空间滤波器参数。然后对所有的空间滤波器进行拼接合并,空间滤波后的通道数将变为96(16×6)个。最终,当空间滤波器已经训练好后,进行特征提取的过程也可以看作是一次矩阵乘法计算,F=W×S,F表示提取后的特征,W表示空间滤波器矩阵,S表示源信号。
图2 源信号特征提取框架。(a)提取感兴趣区域的源信号并将其称为sEEG。(b)对sEEG进行带通滤波,按4:1的比例分为训练sEEG和测试sEEG。(d)拼接六个滤波器以形成最终的滤波器核,并通过将滤波器核与训练sEEG和测试sEEG相乘来获得训练特征和测试特征。
在特征分类阶段,使用基于视觉Transformer模型的解码框架对源特征进行分类。图3详细列举了本文实现的基于Transformer架构的频域-空间域-时域注意力网络架构。图3(a)表示键值数据映射模块,图3(b)表示自注意机制,输入Q和K以获得注意力的权重,然后将结果与V相乘以获得注意力值。图3(c)表示补丁嵌入模块,用于将输入的二维数据转换为多个一维补丁嵌入。将特征提取阶段获取的特征送入到模型当中,然后可以计算得到分别属于四种类别的可能性,最后返回可能性最大的那一类的标签作为特征的预测值,通过此类方法实现端到端的数据特征分类,在BCI IV IIa数据集上平均准确率为82.1%±1.9%,在HGD数据集上平均准确率为85.8%±1.5%。在测试阶段,该方法具有极低的解码延迟,单次实验从获得信号到给出预测结果仅需0.02s,是已报道的最低延时。
图3 用于分类的频带时空注意力网络架构。(a)键值数据映射模块,用于将输入向量X映射到Q(quary)、K(Key)和V(Value)。(b)自我注意机制,输入Q和K以获得注意力的权重,然后将结果与V相乘以获得注意力值。注意力反映了特征的重要性。(c)补丁嵌入模块,用于将输入的二维数据转换为多个一维补丁嵌入。Nh1和Nh2是标头的数量,为5。Fc1和Fc2是线性层,大小分别为1900和4。
从图4中观察到,当参与者分别进行左侧和右侧运动成像时,对侧皮层表现出更强的去同步现象。当参与者想象舌足运动时,事件相关的同步发生在两侧,但在空间位置上略有不同,想象舌运动所诱发的ERS特征更靠前,想象脚运动诱发的特征更靠后。这与过去研究的结果相一致。这种ERP现象最明显的时间是在开始后0.5秒,然后逐渐保持在稳定水平。这表明,即使使用少量电极,使用源成像算法也可以在皮层水平上很好地解释ERD/ERS现象。
图4 BCI IV IIa数据集中被试1的ERD现象,蓝色和红色分别表示ROI-C3和ROI-C4中8-14Hz的源域平均功率转换,浅色线表示95%置信区间。水平轴分为两部分,基线为-0.5s至0.5s,任务为0.5s至4s。ROI-C3和ROI-C4分别包含十个源。(a)当受试者进行右手、左手、舌头和脚的运动成像时ROI-C3和ROI-C4区域的平均功率变化。(b)在单个时间点使用源成像算法的ERD/ERS现象的大脑皮层拓扑图。为了显示效果,分别为右手、左手、舌头和脚设置了50%、50%、30%和30%的阈值。蓝色表示ERD现象,红色表示ERS现象。需要注意的是,并非所有受试者都能表现出明显的ERD或ERS现象。
图5中显示了七种特征提取方法和空间滤波器矩阵映射方法(在图中由Matrix指代)。从图中可以观察到,随着源的数量增加,所有特征提取方法的时间消耗逐渐增加。为了有效地利用从源成像获得的高空间分辨率信息,需要分析更多的源。在所有特征提取方法中,CWT方法花费的时间最多,而本文中提出的方法所花费的时间始终最少。由于所提出的方法通过生成空间滤波器矩阵来完成特征提取步骤,因此随着要分析的源的数量进一步增加,该方法的时间优势进一步提高。这种新型脑机解码框架与方法,能够实现超低延迟的运动图像脑电解码,有望实现极低延迟的脑机接口系统。
图5 特征提取时间与源数量之间的关系,为了显示方便,时间取对数处理。源的数量以10为间隔从10到10000不等。值越小,所花费的时间越短,其中Martix为本文提出的方法。
致谢:该研究受到上海市人工智能重大专项等项目支持。