0%

jzh 【AAAI2021】Plug-and-Play Domain Adaptation for Cross-Subject EEG-based Emotion Recognition

关键词:迁移学习;EEG

摘要

由于脑电信号的跨受试者的变异性,情感脑机接口面对人类情感解码时受到了很大的阻碍。现有的方法通常需要收集每一个新对象的大量脑电数据,耗时很大而且用户体验糟糕。为了解决这个问题,我们将脑电表示分为特定于每个受试者的私人成分和对所有受试者都通用的共同情感成分。根据这一表示部分,我们提出了一种即插即用域自适应方法来处理受试者的可变性。

在训练阶段,由一个共享编码器和一个私有编码器分别捕获对象不变的情感表征和源对象的私有成分。在此基础上,我们构建了一个基于共享部分的情感分类器,并结合这两个部分构建了受试者分类器。在校准阶段,该模型只需要少量来自目标受试者的未标记脑电数据来对其私有成分进行建模。因此,除了共享情感分类器外,我们还有另一条管道通过私有成分的相似性来使用源域的知识。在测试阶段,我们将共享情感分类器的预测结果与通过相似性权重调制后的个体分类器的预测结果相结合。在SEED数据集上的实验结果表明,该模型在保持识别准确率的同时,大大缩短了校准时间,使情感解码更具普遍性和实用性。

作者: Li-Ming Zhao, Xu Yan, Bao-Liang Lu

Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China, 200240

Department of Linguistics, University of Washington, Seattle, WA, USA, 98195

介绍

新兴的情感计算旨在检测、记录、处理和回应人们的情感状态。它在日常生活中的许多应用领域都有着广阔的前景,从医疗、智能教育和娱乐等特定场景到脑-机接口(BCIs)等一般情感敏感系统,其中情感识别是首要步骤和里程碑。近年来,基于脑电信号的情感识别以其信息的充分性引起了研究者的极大兴趣。然而,由于受试者之间的结构和功能变异性,如精神状态、电极阻抗、头部形状等,EEG数据高度依赖于受试者。图1说明了情绪EEG数据的受试者间变异性,这给构建实用的基于脑电信号的情感模型带来了很大的挑战。这阻碍了情感计算的大规模发展和应用。

image-20210311101228568

上述阻碍促使许多研究者开发了实用的情感识别算法。传统的方法是从新受试者中采集大量数据,对其进行标记,并在测试阶段前使用它们定制分类器参数。不幸的是,这种需求耗时,导致用户体验差,这使得模型的实用性降低。另一种方法是使用迁移学习方法来处理个体差异。根据目标域的数据是否用于模型训练阶段,将迁移学习大致分为域适应(DA)和域通用化(DG)。在情感识别的实际应用中,由于使用了所有目标数据,DA效率低下,DG不依赖目标对象的任何信息,因此可能会受到其泛化能力的影响。

与DA和DG的极端相反,在实时识别开始之前引入短期校准阶段是可以接受的,也是必要的。图1主观地展示了算法性能和用户体验之间的权衡困境。然而,现有的研究表明,如果训练数据的数量比特征向量的维数小,模型很可能会崩溃。因此,用有限的目标训练数据来获得良好的DA结果是一个挑战。

针对上述问题,我们提出了一种即插即用的域自适应方法,该方法可以在不牺牲识别准确率的前提下,利用少量未标记的目标数据进行校正。我们假设将脑电表示分为对所有子对象具有普遍性的共享情感成分和对每个受试者具有特定性的私有成分。我们使用LSTM和损失函数来分离私有成分,并在此过程中产生对情感识别更有意义的表征。然而,我们相信,只用共享情感空间中的单一分类器对于从未见过的新受试者仍然具有有限的能力。因此,我们还为现有的源域建立了一系列独立的分类标准,目的是为新的受试者提供参考。通过重构少量的校准数据,我们可以快速构建新的被试的私有编码器,同时训练出共享的编码器和解码器。因此,目标主体可以通过私有成分的相似性从源个体分类器中借用知识,并与共享分类器一起加强情感预测。脑电传感器建立后,私有成分是引起个体间变异的主要原因,在一个集合内保持不变,这是缩短校准时间的关键。此外,我们希望利用注意机制自动学习与情绪识别最相关的关键脑电通道和频带。

相关工作

迁移学习的出现引起了广泛的关注,并迅速成为解决脑机接口受试者间差异的重要方法。

迁移学习有两个主要的分支可以帮助减少主题不变性。一种是领域适应(DA)。DA方法通过最小化源域和目标域之间的域偏移来提高目标数据的准确性,这表明在训练阶段,我们必须从目标域获取数据。

  • TPT
  • DANNs
  • DSN

无论数据如何实现知识迁移,所有的方法都需要所有的目标信息,这适用于离线数据集的转移,但在实时BCI应用中是无法达到的。

这种隐含的不足促使研究者转向域泛化(DG)寻求帮助。DG方法可以通过利用多个源对象的域差异来提取域不变特征,而无需从目标对象获取任何数据。

  • DICA
  • SCA
  • DResNet

虽然DG方法似乎更可能贴合实际,但仍有一些问题值得思考。DG方法对目标数据无需求的限制是否最适合实时应用方案?虽然长期校准会导致用户体验差,但通过短期校准仍然可以收集很少的目标数据,以快速适应目标主体。

  • STM

Li et al.(2019)利用样式转换映射(STM)方法,在支持少量标记目标数据的情况下减少域差异。他们在三种情绪识别任务的校准阶段使用了三组总共10分钟左右的标记脑电数据。Li等人已经取得了很好的效果,但是10分钟的校准时间在实际应用中仍然很长。此外,STM要求标记数据覆盖所有类别,这意味着随着情感类别的扩展,校准时间将进一步增加。

影响脑电域适应时间的一个关键点是脑电信号含有过多的信息。我们的大脑在情绪方面表现出偏侧化,一些区域和频带比其他具有不同情绪的区域和频带更能提供信息。也已经证实了神经信号与不同情绪之间存在相关性。此外,在情绪识别任务中,有人还根据训练好的深层信念网络所赋予的权重来分配关键通道和频带。相比之下attention机制为解决这一问题提供了新的可能性。

研究过程

综述

我们提出了一种新的即插即用域适配(PPDA)方法。PPDA的框架如图2所示。整个结构可分为训练阶段、校准阶段和测试阶段

  • 训练阶段,首先采用基于注意池的方法来利用脑电信号关键通道和频带的空间信息。然后,采用基于长-短记忆的编解码方案来提取特征。我们提出了一个共享编码器Es和n个私有编码器Ep,分别捕获受试者不变的情感表征和私有成分。通过使用编码器的输出,我们进一步构建了一个共享分类器Cs和n个分类器Cp来同时识别情感。在这个阶段,只采用有标签源数据来训练模型。
  • 在校准阶段,我们使用新受试者的起始数据,借助经过训练的Es和解码器Ds对新对象的私有部分编码器进行建模,我们称之为校准阶段。
  • 在测试阶段,我们不仅可以像领域泛化方法那样使用共享分类器的流水线,还可以通过与私有源组件的相似度从私有分类器中获取知识。最后采用分类器融合策略对两种识别结果进行融合。

image-20210311103426076

自注意力

我们尝试引入注意机制,让模型自动探索情绪识别的关键通道和波段。

LSTM编码

我们设计了两种编码器分别提取脑电信号的共享情感成分和私有成分。这两个组件串联之后,一个共享解码器被应用于重构输入特征。

image-20210311111320712

损失函数

校准和测试

由于脑电图数据是按时间顺序记录的,所以我们只能从一开始就把数据作为校准数据。
首先对专用target编码器Etp的参数进行随机初始化,并利用校准数据,利用损失函数对其进行重构损失和difference的优化。我们认为,一旦任务完成,共享编码器Es就足够广义,并能够提取出主题不变的情感成分,Ds将很好地用于数据重建。

在测试阶段,一旦收集到一个目标序列xt,我们就同时从每个源域中随机选择长度相同的数据,我们的模型的性能由两条管道保证。像大多数领域泛化方法一样,使用经过训练的共享分类器来保证泛化能力为。对于另一个管道,我们计算源域和测试数据之间的余弦相似度ws以利用私有信息。权重越高,表示分布与目标数据越相似,因此对相应分类器的信任度越高。然后,我们通过权重向量和Cp1∼n的结果向量的点积得到预测y。最终结果是在这两个标签通过分类器融合策略整合后确定的。

结果

数据集和实验设置

我们在SEED上验证了我们的PPDA模型的性能,SEED是一个用于情感识别的公共情感EEG数据集。本研究选取了15个经过严格筛选的中国电影片段,在快乐、悲伤和中性三种情绪中提取出期望的目标情绪。15名受试者(8名女性,平均23.27,标准差2.37)在不同的时间参加了三次实验。在实验过程中,受试者被鼓励沉浸在视频中以激发相应的情绪。利用ESI神经扫描系统,利用国际10-20系统,在电影观看过程中记录了62个通道的脑电信号。预处理的数据被下采样到200 Hz,并用0-75 Hz的带通进行滤波。在不重叠的1秒时间窗口内,从5个频带(即δ:1-3Hz,θ:4-7Hz,α:8-13 Hz,β:14-30 Hz,γ:31-50 Hz)的频率。因此,在一个实验中,总共有3394个样本,每个受试者有310个特征,用62个通道乘以5个波段计算。

为了与最新的结果进行比较,我们的评估细节保持一致。具体来说,每个受试者只进行一次实验,就可以用LOSO来研究跨受试者效果。在每次迭代中,我们选择一个主题作为目标域,另外14个主题作为现有的源域。
需要注意的是,尽管我们在校准阶段没有使用标记的emotion数据,但SEED中的所有3394个样本点都被标记。因此,在校准阶段,将第一个T秒数据作为校准数据。

LSTM的层数、隐藏大小和时间步长分别固定为2、64和15。情感分类器和领域分类器都是单元为64的单层全连通网络。校准时间T设置为45s。

实验结果

image-20210311113915167

image-20210311113957392

一旦添加了校准过程,模型的性能将如预期的那样显著提高,这强调了校准的重要性。一般来说,模型的性能会随着校准时间的延长而提高。然而,随着校准时间的延长,我们并没有看到显著的增长。这种差异主要是由于脑电信号的独特性质,正如我们在一开始所讨论的。实际上,脑电图数据对外部因素(如电极阻抗和头部形状)以及内部变量(如精神状态)非常敏感。尽管很容易受到影响,但在一次实验中,由于这些因素在一定时期内是相对稳定的,因此其构成基本保持不变。换言之,我们可以在几乎没有校准数据的情况下很好地对目标主体的私有组件进行建模,并使用它来提高整体性能。由于只有很少的数据提供了我们所需要的足够的信息,模型的性能不会随着校准数据的增加而提高。

LSTM

image-20210311114308563

为了证明该结构正常工作,我们从每个受试者中随机抽取50个脑电图样本,通过散点图(如图5(a)所示)用t-SNE对其进行可视化。图5(b)展示了共享编码器和私有编码器的输出。

注意力

image-20210311114541755

image-20210311114525114

如图所示。在图中,很明显,β和γ波段比其他三个波段活跃得多。此外,颜色深度的分布甚至揭示了用它来识别情感的可行性。例如,在β波段,当快乐情绪被激发时,蓝色会更深。在中性和悲伤的感觉中,伽玛带也是如此。在图6(b)中,我们绘制了反映关键通道分布的地形脑电图图。大脑区域越暗,这个区域的通道就越重要。外侧颞叶FT7、FT8、T7和T8通道密集触发。我们的发现与现有的基于EEG的情绪识别关键波段和通道的观察结果一致。

讨论

本文设计了一种基于脑电的跨受试者情绪识别即插即用域自适应方法自动识别,旨在让每个人都能在保持识别准确性的同时,无需等待即可立即使用。它在一分钟内成功地缩短了校准时间,准确率超过86.7%,与最先进的域自适应性能相当。这种技术可以用来增强用户体验,使基于EEG的情感计算应用更加实用。此外,注意机制所覆盖的通道和频带为可穿戴式脑电设备和实时情绪识别的发展提供了线索。我们未来的工作将集中在各种实际环境下的实时测试,以观察其实用性。