0%

jzh Emotion Recognition using Multimodal Residual LSTM Network

摘要

使用脑电图(EEG)和其他生理信号的传统LSTM网络捕获时间信息的方法对多模态情绪识别非常有用。然而,使用更深的LSTM网络的多模态和深层次时间特征学习之间的依赖性仍有待研究。

我们提出了一种用于情感识别的多模态残差LSTM网络。MMResLSTM网络共享每个LSTM层中模态的权重,以学习脑电图和其他生理信号之间的相关性。

使用公开可用的DEAP数据集进行评估。实验结果表明,该网络的arousal分类准确率为92.87%,valence为92.30%

信息

会议: ACM International Conference on Multimedia

作者: image-20201004104931374

关键词

Multimodal emotion recognition; long-short-term memory network; electroencephalography

介绍

受深度神经网络在许多识别分类任务中的巨大成功的启发,已经提出了几种深度学习架构来改善脑电图(EEG)信号和其他生理信号的多模态情感分类的效果,包括自编码器、卷积神经网络(CNN)和递归神经网络(RNN)

各种研究表明,因为考虑时间信息,RNN时间特征提取模块的效果较好。然而,多模态之间的时间相关性信息,以及使用更深层次的神经网络的深层时间特征学习,还有待研究。

尽管不同设备从不同位置收集多种模态的信号有不同的反射延迟,但是它们却共同反映了相同情绪在随时间变化。因此多模态的信息还是很重要的。

随着残差学习的使用和神经元层的归一化,DNN可以更高效地收敛,从而优化训练的时间成本。类似于残差学习,我们假设具有残差连接的深层神经网络可以学习更复杂的高级情感识别特征,因此优于其他神经网络架构。

相关工作

我们有六种常用的情绪识别数据集:DEAP (2012), MAHNOB-HCI (2012), SEED (2015), HR-EEG4EMO (2017), DREAMER (2018), SEED-IV(2019)。

在典型的时间序列信号中,常规的脑电信号特征包括时域、频域和时频域特征,可以使用SVM、MLP、经验模式分解等方法提取特征。深度学习出现后,端到端的方式更为常用,即利用网络自动提取特征。

虽然DEAP数据集有四个情感标签:arousal, valence, dominance, liking,但并不是所有的标签都用于相关研究。大多数关于DEAP数据集的研究已经将情绪识别问题视为两个独立的二分类任务。

在新的研究中,情绪识别已经使用各种模态,如面部表情,声音,脑电图,瞳孔直径(EEG),眼电描记术(EOG) 。

研究过程

多模态LSTM

传统上,为了使用脑电图和其他生理信号实现多模态情感识别,多模态架构或者为不同的模态建立并行的LSTM,或者直接拼接多模态数据以产生更大的输入。

第一种方法包含用于不同模态的并行LSTM,对于训练是更有效的,因为每个LSTM具有相似属性的输入;它也更易于解释,因为来自不同模态的信息是分开存储的。然而,这种体系结构没有为多模态之间的相关性学习做准备,因为各模态之间是完全独立的。

第二种方法尽管网络可以自由地同时访问多个模态的信息,但是交叉的模态相关性并没有被明确地学习。在LSTM,模态内关系和模态间关系没有区别。同时,这种方法更容易过拟合。

下图为多模态LSTM:

image-20201004152911263

$W{h *}$ 是共享的,因为它更能学到时域的特性。通过$W{h *}$ ,多模态LSTM可以在学习过程中起到交互的作用。time steps也被共享。

残差网络

层归一化

层归一化是通过归一化神经元的活动来减少深层神经元的训练时间。这对于RNNs中的隐藏态是有效的。

LN中这组参数叫做增益(gain) [公式] 和偏置(bias) [公式] ,是可以学习的。

img

图1为LN,图二是BN。

模型结构

image-20201004161602843

实验结果

数据集

我们使用DEAP数据集评估了模型的性能。DEAP数据集包含EEG和周边生理信号(PPS),其中包括EOG和EMG数据。在这个数据集中,32名受试者观看了40个刺激情绪的视频片段。每个视频都是一分钟长。

我们的模型是为了每个受试者单独训练和测试的,因此使我们的方法依赖于受试者。

  1. 根据我们对以往任务的研究的回顾,缺乏独立于受试者的研究。依赖受试者的方法能够进行更多的比较。
  2. 独立于受试者的方法可能会引起个人隐私问题,因为它需要收集私人脑电图数据和建立一个大型情绪数据库。

数据处理

  1. 原始脑电信号和PPS被下采样到128赫兹。对于脑电信号,去除了EOG伪影。
  2. 使用4.0-45.0Hz的带通频率滤波器。
  3. EEG信号被平均到公共参考。

结果

image-20201004163128402

image-20201004165251317

图为LSTM和残差LSTM以及多模态的LSTM对比。image-20201004165314035

图为LSTM对于每个个体的表现。

image-20201004165338427

图为MM-ResLSTM和其他方法的对比。

结论

在本研究中,我们提出了多模态深度LSTM网络,通过残差学习和权值共享来增强效果。该网络以端到端的方式运行,以隐含地提取高级时间特征。在DEAP数据集上的实验表明,所提出的方法分别以92.87%和92.30%的准确率对arousal和valence进行分类,从而优于现有的方法。