ssk Multisource Transfer Learning for Cross-Subject EEG Emotion Recognition

[IEEE Transactions on Cybernetics 2019]

Jinpeng Li, Shuang Qiu, Yuan-Yuan Shen, Cheng-Lin Liu, Fellow, IEEE, and Huiguang He, Senior Member, IEEE

介绍

脑电(EEG)信号，在情绪识别中得到广泛应用。由于脑电的个体差异较大，情感识别模型无法在个体间共享，需要收集新的标记数据来为新用户训练个人模型。在一些应用中，希望尽可能快地获得新的用户的模型，并减少对标记数据的需求，所以提出了一种以现有个体为源域，以新人为目标域的多源迁移(Multisource Transfer)的学习方法。

目标数据被分开用于训练的校准过程和随后的测试过程。该方法的第一阶段是源选择，目的是选择合适的源域。第二阶段是样式转换映射(style transfer mapping)，为了减少目标与各源之间的脑电信号差异。最后在后续过程中整合源模型来识别情绪。

贡献

提出了一种迁移学习(TL)方法来探索和利用现有个体的信息，以弥补目标训练数据的不足。该方法的目标是使目标域与源域在统计上相似，从而实现源模型的共享，和传统方法不同，这里有少量的标记数据可用。

如下图，已有多个个体和它们各自的分类器，对于一个新个体，在校准阶段选择合适的源并学习样式转化映射(style transfer mapping)，以减少目标和所选的每个源之间的差异。在随后的测试阶段通过STM进行样本映射，接着集成源域分类器来得到最终的情感标签。

在样式转换映射中探索了两种类型的映射终点(destination)设置。

方法

A. Source Selection

现有的研究表明，强行利用与目标域不相关的资源可能会降低迁移性能，被称为“负迁移”。为了避免负迁移，在迁移前选择合适的源。$\boldsymbol{A}{L}^{T}$是一些来自校准阶段的标记数据，$\boldsymbol{A}{U}^{T}$是后续阶段的无标签数据。

由于$\boldsymbol{A}{L}^{T}$有标签信息，所以源选择就变得很直观。枚举源域中的N个分类器来对$\boldsymbol{A}{L}^{T}$进行分类，选取精度最高的$N_S$个分类器。将其对应的数据作为相应的数据源域。

这背后的假设是$\boldsymbol{A}{L}^{T}$和$\boldsymbol{A}{U}^{T}$之间的差异不大，可以接受因为这两种数据属于同一实验的同一个体。

B. Style Transfer Mapping

在STM中，我们将$\boldsymbol{A}^{T}$ 映射到$\boldsymbol{A}^{S p}$来联结这两个分布，不直接将$\boldsymbol{A}^{T}$ 映射到$\boldsymbol{A}^{S p}$，而是寻找一些在$\boldsymbol{A}^{S p}$的表示模式(典型的聚类中心，类均值)，在这里称$\boldsymbol{A}^{S p}$为映射“destination”终点，$\boldsymbol{A}^{T}$为“origin” 起点。

终点的点集表示为

$D=\left{d_{i} \in R^{m} \mid i=1, \ldots, n\right}$

STM起点的点集表示为

$O=\left{o_{i} \in R^{m} \mid i=1, \ldots, n\right}$

从$d{i}$ 到 $o{i}$的改变称为概念漂移，假设$d{i}$ 转换到 $o{i}$有置信度$f{i} \in[0,1]$，那么我们就可以学习一个反变换函数将$o{i}$转换回$d{i}$ ，$A o{i}+b$。参数$A \in R^{m \times m}$和$b \in R^{m}$通过最小化带有正则化项的加权平方误差来避免过度迁移

$\min {A \in R^{m \times m}, b \in R^{m}} \sum{i=1}^{n} f{i}\left|A o{i}+b-d{i}\right|{2}^{2}+\beta|A-I|{F}^{2}+\gamma|b|{2}^{2} \space\space\space(3)$

上式是一个凸二次规划问题，它有一个封闭形式的解

$A=Q P^{-1}, b=\frac{1}{\hat{f}}(\hat{d}-A \hat{o})$

其中

$Q=\sum{i=1}^{n} f{i} d{i} o{i}^{T}-\frac{1}{\hat{f}} \hat{d} \hat{o}^{T}+\beta I$
$P=\sum{i=1}^{n} f{i} o{i} o{i}^{T}-\frac{1}{\hat{f}} \hat{o} \hat{o}^{T}+\beta I$
$\hat{o}=\sum{i=1}^{n} f{i} o{i}, \hat{d}=\sum{i=1}^{n} f{i} d{i}$
$\hat{f}=\sum{i=1}^{n} f{i}+\gamma$

C. Mapping Origin and Destination

映射的起点是$\boldsymbol{A}^{T}$，关键的任务是定义映射的终点$\boldsymbol{A}^{S p}$（也就是）。本文使用的分类器是SVM，在源域中训练好分类器之后，由于对于支持向量的分类难度很大，所以在训练好好之后将支持向量移除，即支持向量只参与推导决策边界，而不参与映射终点的推导。

本文将探索在源域中派生映射终点的两种技术。

1）聚类Nearest Prototype(原型)

我们使用K-means聚类在每个类上来获取原型(代表性点)：

$p{i j} \in R^{m}, j=i, \ldots, n{i}, i=1, \ldots, M$

其中$n_i$表示每个类别的原型数量，定义每个来自类别$i$的样本的最近原型如下所示：

$N(x, i)=p{i j},$ where $j=\arg \min {j^{\prime}=1}^{n{i}}\left|x-p{i j^{\prime}}\right|_{2}^{2}$

目标域$\boldsymbol{A}^{T}$中的样本$x$的终点就定义为离其真实类(标记数据)或推导类(未标记数据)最近的原型

$D_{\text {proto }}(x, y)=N(x, y)$

2）Gaussian Model

高斯模型假设条件密度是服从高斯分布的，上图展示了基于高斯模型的终点，其中均值是$\mui$，协方差矩阵是$\Sigma{i}$，定义了$x$的映射模式在类别$i$上的马氏距离

$P(x, i)=\mu_{i}+\min \left{1, \frac{\rho}{d(x, i)}\right}$

其中$d(x, i)=\sqrt{\left(x-\mu{i}\right)^{T} \Sigma{i}^{-1}\left(x-\mu{i}\right)}$是类别$i$的马氏距离，在目标域$\boldsymbol{A}^{T}$样本的终点可以被定义为对真实类(标记数据)或推导类(未标记数据)的投影$D{\text {gauss }}(x, y)=P(x, y)$。

D. Confidence Setup

这里有两种策略来计算STM，（1）有监督的方法，在校准阶段只使用有标签数据$\boldsymbol{A}^{T}_L$，这是一种inductive的迁移方法。（2）半监督的方法使用$\boldsymbol{A}^{T}_L$和测试数据$\boldsymbol{A}^{T}_U$来学习STM，这是一种transductive的方法。

在有监督方法中就没有必要设置置信度了，或者说置信度设置为1，而在半监督方法中设置置信度就很重要了。对于$\boldsymbol{A}^{T}$中一个没有标签的数据，我们推导它的标签，并在相应的类中找到映射终点。标签推测不是绝对可靠的。如果推断的标签是错误的，STM将把数据映射到一个错误的类。因此，我们用一个置信度值标记每个转换，出现在公式(3)的第一项中。样本的置信度越高，对STM计算的影响越大，反之亦然。置信度的设置在这里就不再展开。

实验

本文使用的数据集为SEED数据集，一个用于通过观看电影片段后的感情变化来进行情感分类数据集。

源域数量评估

使用一个统一的源来进行迁移

STM与多源框架相关联，其中每个个体都被视为一个独立的源。我们可以将所有可用的受试者的数据合并为一个统一的源域。我们比较了多源方法和统一源方法的精度。

置信度评估

评估了本文提出的置信度设置方法和之前的两种置信度设置方法之间的效果。

时序论文分享