0%

Isolating Sources of Disentanglement in VAEs

VAEs中解纠缠源的分离

NeurIPS 2018

image-20220919075215966

代码:https://github.com/rtqichen/beta-tcvae


摘要

我们分解证据的下界,以显示存在一项测量潜变量之间的总相关性。我们使用它来激发β-TCVAE(全相关变分自编码器)算法,这是β-VAE的改进和插件替换,用于学习解纠缠表示,在训练期间不需要额外的超参数。我们进一步提出了一种原则性的无分类器解纠缠度量方法,称为互信息间隙(MIG)。当使用我们的框架训练模型时,我们在受限和非受限环境中进行了大量定量和定性实验,并显示了总相关和解纠缠之间的强烈关系。

VAE

image-20220919134007328

img

β-VAE:

img

VAE隐空间解耦:

  • 解耦更接近人类的思维方式,人类也更加容易理解解耦的特征。我们在描述某人的外貌时,通常会说什么样的发型、身高多少、穿着如何等等。这些描述特征的因子共同表示了一个人的外貌。然而这些因子都耦合(隐藏)在图像的像素信息中。通过机器学习的办法,将这些因子解耦出来可以更好地反映出事物的本质特征
  • 隐变量独立是解耦的必要条件

img


1 引言

在没有监督的情况下学习解纠缠的表示是一个困难的开放问题。解纠缠变量通常被认为包含可解释的语义信息,并反映数据中不同的变化因素。虽然解纠缠的定义还有待讨论,但许多人认为阶乘表示(具有统计上的自变量)是一个很好的起点[1,2,3]。这种表示将信息提炼成紧凑的形式,这种形式通常在语义上有意义,对各种任务都有用[2,4]。例如,对于对抗攻击[5],发现这样的表示更一般化和健壮。

许多最先进的学习解纠缠表示的方法都是基于现有目标的重加权部分。例如,潜变量与观测数据之间的互信息可以鼓励潜变量变得更可解释[6]。还认为,鼓励潜变量之间的独立性可诱导解纠缠[7]。然而,没有强有力的证据将阶乘表示与解纠缠联系起来。在某种程度上,这可以归因于薄弱的定性评价程序。虽然潜在表征中的遍历可以定性地说明解纠缠,但解纠缠的定量测量尚处于初级阶段。

在本文中,我们:

  • 展示了一个变分下界的分解,可以用来解释β-VAE[7]在学习解纠缠表征方面的成功。
  • 提出了一种基于加权小批的简单方法,在我们的分解项上使用任意权重进行随机训练,而不需要任何额外的超参数。
  • 引入β-TCVAE,它可以作为β-VAE的插件替代,无需额外的超参数。经验评价表明,β-TCVAE比现有方法发现了更多可解释的表示,同时对随机初始化也相当稳健。
  • 提出了一种新的信息论解纠缠的度量,该度量不受分类器限制,可推广到任意分布的非标量潜变量。

虽然Kim和Mnih[8]独立地提出了与β-TCVAE具有相同的总相关惩罚的增强VAE,但他们提出的训练方法与我们的不同,需要一个辅助鉴别器网络。


2 背景: 学习和评估解纠缠表征

我们讨论了现有的工作,目的是在没有监督的情况下学习解纠缠的表征或评估这些表征。这两个问题本质上是相关的,因为学习算法的改进需要对微妙细节敏感的评估指标,而更强的评估指标揭示了现有方法的不足。

2.1 学习解耦表示

VAE和β-VAE

变分自编码器(VAE)[9,10]是一种潜变量模型,它将自顶向下生成器与自底向上推理网络配对。训练不是直接对棘手的边际对数似然进行极大似然估计,而是通过优化可处理证据下界(ELBO)来完成。我们希望优化经验分布的均值下界(β = 1):

β-VAE[7]是变分自编码器的一个变体,它试图通过优化β > 1的严重惩罚目标来学习解纠缠表示。这种简单的惩罚已经被证明能够在图像数据集中获得高度解纠缠的模型。然而,没有明确说明为什么用阶乘先验惩罚 $\text{KL}(q(z|x)||p(z))$ 会导致学习潜变量对所有数据样本显示解纠缠变换。

InfoGAN

InfoGAN[6]是生成对抗网络(GAN)[11]的变体,通过最大化观测结果和潜变量子集之间的互信息,鼓励可解释的潜在表示。该方法依赖于优化难处理的互信息的下界。

2.2 评估解耦表示

当真正的潜在生成因素被知道,并且我们有理由相信这组因素被解开时,就有可能创建一个有监督的评估指标。许多人提出了基于分类器的指标来评估解纠缠的质量[7,8,12,13,14,15]。我们将重点讨论[7]和[8]中提出的指标,因为它们在设计上相对简单且可推广。

Higgins’ metric[7]定义为低VC维线性分类器在识别固定的地面真值因子时所能达到的精度。具体来说,对于一组ground truth因子 $\set{vk}^K{k=1}$,每个训练数据点是L个样本的集合: $\frac{1}{L}\sum^L{l=1} |z^{(1)}_l −z^{(2)}_l |$,其中随机向量 $z^{(1)}_l,z^{(2)}_l$ 从 $q(z|v_k)^1$ 中i.i.d.提取 ($v_k$为固定值),分类目标k。该方法的缺点是缺乏轴对齐检测。也就是说,我们认为一个真正解耦的模型应该只包含一个与每个因素相关的潜变量。[8]建议使用 $\arg\min_j \text{Var}{q(z_j|v_k)}[z_j]$ 和多数投票分类器作为包含轴对齐检测的手段。

基于分类器的解纠缠度量往往是ad-hoc的,对超参数非常敏感。[7]和[8]中的度量可以粗略地解释为测量如果观测到v,z的熵约减量。在第4节中,我们证明了直接测量z和v之间的互信息是可能的,这是一个原则性的信息论量,可以用于任何潜在分布,只要有效估计存在。

(注意,$q(z|v_k)$ 通过使用中间数据样本进行抽样: $z∼q(z|x)$, $x∼p(x|v_k)$。)


5 相关工作

我们着重讨论以无监督的方式学习解纠缠的表示。尽管如此,我们注意到,通过薄弱的监督将已知的分离因素转化为生成过程已经被许多人所追求。在这种情况下,目标不是完美的反转,而是提取更简单的表示[15,25,26,27,28]。尽管没有明确的主要动机,但许多无监督生成建模框架已经探索了其学习表示的解纠缠[9,17,29]。在β-VAE[7]之前,一些已经在有限的环境中成功地进行了解纠缠,且变异因素很少[1,14,30,31]。

作为描述解纠缠表示的属性的一种手段,阶乘表示的动机有很多[1,2,3,22,32,33]。特别地,[22]的附录B显示了在具有灵活先验的相似目标中存在总相关,并假设最优性q(z) = p(z)。同样,[34]从一个结合了信息量和潜变量总相关性的目标中得到ELBO。相反,我们对未经修改的证据下界进行了更一般的分析。

[16]之前就已经证明了ELBO中指数码MI的存在,因此,使用与β-TCVAE相同目标的因子VAE被独立提出[8]。主要的区别是他们使用密度比技巧[35]估计总相关性,这需要一个辅助鉴别器网络和一个内部优化循环。相比之下,我们强调了β-VAE使用我们的精细化分解的成功,并提出了一种训练方法,允许为目标的每个项分配任意权重,而不需要任何额外的网络。

类似地,非线性独立成分分析[36,37,38]研究了假设独立潜在因素的生成过程的反演问题。而不是一个完美的倒置,我们只致力于最大化我们学习的表示和基本真理因子之间的相互信息。简单先验可以通过将复杂因素扭曲成更简单的流形来进一步鼓励可解释性。据我们所知,我们是第一个在阶乘表示和解纠缠之间显示强有力的可量化关系的人(见第6节)。


3 ELBO中解纠缠的来源

有人认为,在学习解纠缠表示时,有两个量特别重要[6,7]: A)潜变量和数据变量之间的互信息,B)潜变量之间的独立性。

用ELBO分解[16]说明了量化标准A的项。在本节中,我们将介绍一个细化的分解,显示ELBO中出现的描述这两个标准的术语。

ELBO TC-Decomposition

我们用一个唯一的整数索引来标识每个训练示例,并在{1,2, …, N}与数据点有关。进一步,我们定义 $q(z|n) = q(z|xn)$ 和 $q(z, n) = q(z|n)p(n) = q(z|n)\frac{1}{n}$。我们称 $q(z) = \sum^N{n=1} q(z| n)p(n)$ 为[17]后面的聚合后验,它捕捉了数据分布下潜变量的聚合结构。用这种表示法,我们分解(1)中的KL项,假设p(z)因式分解。

式中 $z_j$ 为潜变量的第j维数。

分解分析

  • 在类似的分解[16]中,(i) 被称为索引码互信息(MI)。索引码MI是基于经验数据分布 $q(z,n)$ 的数据变量与潜变量之间的互信息 $I_q(z,n)$。有人认为互信息越高解纠缠越好[6],甚至有人提出在优化过程中完全取消对这一项的惩罚[17,18]。然而,最近对生成建模的研究也声称,通过信息瓶颈的惩罚互信息鼓励紧凑和解纠缠的表示[3,19]。
  • 在信息论中,(ii) 被称为总相关(TC),它是对两个以上随机变量[20]的互信息的许多推广之一。这个命名是不幸的,因为它实际上是变量之间的依赖性的度量。对TC的惩罚迫使模型在数据分布中寻找统计上独立的因素。我们认为,对这一项的较重的惩罚可以诱导更清晰的表征,这一项的存在是β-VAE成功的原因。当 $q(z_j)$ 都独立时,此项为0,可以理解为最理想的解纠缠效果。
  • 我们将 (iii) 称为维度上的KL,它主要防止每个潜维度与相应的先验偏差过大

我们想通过只惩罚这个术语来验证TC是学习解纠缠表征的分解中最重要的术语这一说法;然而,在分解中很难估计这三个项。在下一节中,我们提出了一个简单而通用的框架,用于使用小批数据进行TC分解训练。

在[22]中给出了这种分解的一个特例,假设使用灵活先验可以有效地忽略维度上的KL项。相反,我们的分解(2)更普遍地适用于ELBO的许多应用。

3.1 小批量加权抽样训练

我们描述了一种随机估计分解项的方法,允许在每个分解项上使用任意权重进行可伸缩训练。注意,分解的表达式(2)需要计算密度 $q(z) = \mathbb{E}_{p(n)}[q(z|n)]$,这取决于整个数据集。因此,在训练过程中精确计算它是不可取的。【$q(z)$ 无法直接计算出来】我们的随机估计方法的一个主要优点是没有超参数或内部优化循环,这应该提供更稳定的训练。

基于来自 $p(n)$ 的小批样本的naïve蒙特卡洛近似很可能低估 $q(z)$。这可以直观地看出,将 $q(z)$ 视为一个混合分布,其中数据指标 $n$ 表示混合成分。对于一个随机抽样的成分,$q(z|n)$接近于0,而如果 $n$ 是 $z$ 的来源,$q(z|n)$ 会很大。因此,最好对该成分进行抽样,并适当地对概率进行加权。

为此,受重要性抽样的启发,我们建议在训练过程中使用一个加权版本来估计函数 $\log q(z)$。当提供一个小批次的样品 $\set{n_1,…, n_M}$,我们可以使用估计:(采样M个数据的估计方程)

其中 $z(n_i)$ 是来自 $q(z|n_i)$ 的样本(参见附录C中的推导)。

这个小批估计是有偏的,因为它的期望是一个下限(由Jensen不等式 $\mathbb{E}{p(n)}[\log q(z|n)]≤\log \mathbb{E}{p(n)}[q(z|n)]$ 得到)。然而,计算它不需要任何额外超参数。

3.1.1 特殊情况: β-TCVAE

使用小批量加权抽样,可以很容易地为(2)中的项分配不同的权重 (α, β, γ):

当我们用不同的 $α$ 和 $γ$ 值进行烧蚀实验时,我们最终发现调节 $β$ 可以得到最好的结果。我们提出的β-TCVAE使用 $α=γ=1$,只修改了超参数 $β$。Kim和Mnih[8]提出了一个等价的目标,他们使用辅助鉴别器网络来估计TC。

4 用互信息间隙测量解纠缠

没有适当的度量,很难比较解纠缠算法。大多数之前的工作都诉诸于通过可视化潜在表征的定性分析。另一种方法依赖于知道真正的生成过程 $p(n|v)$ 和ground truth潜在因素 $v$,这些通常是数据的语义意义属性。例如,摄影肖像通常包含分离的因素,如姿势(方位角和仰角)、照明条件和面部属性,如肤色、性别、脸宽等。虽然不能提供所有的ground truth因子,但仍然有可能使用已知因子来评估解纠缠。我们提出了一个基于潜变量和ground truth因子之间的经验互信息的度量。

4.1 互信息间隙 (Mutual Information Gap, MIG)

infoGAN中的互信息最大(MI max)是c和G(z,c)之间的互信息最大,使得生成器G过程中包含c的信息,infoGAN是无监督的。
本文中使用的互信息是z和真实factor之间的互信息,所以本文的方法是有监督的。

我们的关键思想是,可以使用联合分布 $q(zj, v_k) = \sum^N{n=1} p(v_k)p(n |v_k)q(z_j| n)$ 来估计潜变量 $z_j$ 和ground truth因子vk之间的经验互信息。假设基础因素 $p(v_k)$ 和生成过程是已知的经验数据样本 $p(n|v_k)$,则

其中 $\mathcal{X}_{v_k}$ 是 $p(n|v_k)$ 的支持。(参见附录b中的推导)

较高的互信息意味着 $z_j$ 包含大量关于 $v_k$ 的信息,如果 $z_j$ 和 $v_j$ 之间存在确定性的可逆关系,则互信息是最大的。此外,对于离散 $v_k$, $0≤I(z_j;v_k)≤H(v_k)$,其中 $H(v_k) = \mathbb{E}p(v_k)[−\log p(v_k)]$ 为 $v_k$ 的熵。因此,我们使用归一化互信息 $I(z_j;v_k) / H (v_k)$。

请注意,单个因素与多个潜变量可以具有高互信息。我们通过测量具有最高互信息的前两个潜变量之间的差来强制轴对齐。我们称之为互信息差(MIG)的完整度量是这样的:【一个因素 $v_k$可能与多个 $z_j$ 有很高的互信息,可是我们只希望有一个最大的互信息值,那么就使用下面的公式,每对互信息值减去第二大的互信息值,让其他的 $z$ 变小】

其中 $j(k) = \arg\max_j I_n(z_j;v_k)$, K是已知因子的个数。MIG的边界是0和1。我们执行整个数据集的传递来估计MIG。

虽然可以只计算平均的最大MI, $\frac{1}{K}\sum^K_{k=1} \frac{I_n(z_k *;v_k)}{H(v_k)}$,但我们的公式(6)中的差距防止了两个重要的情况。第一种情况与因子的旋转有关。当一组潜变量不是轴向对齐时,每个变量都可以包含关于两个或多个因素的大量信息。间隙严重影响未对齐的变量,这表明存在纠缠。第二种情况与表示的紧凑性有关。如果一个潜变量可靠地模拟了一个基本真理因子,那么其他潜变量就没有必要也提供关于该因子的信息。

如表1所示,我们的度量检测轴对齐,并且通常适用于任何分解的潜在分布,包括多模态、类别和其他结构化分布的向量。这是因为度量只受限于是否可以估计互信息。互信息的有效估计是一个正在进行的研究课题[23,24],但我们发现,对于我们使用的数据集,可以在合理的时间内计算出简单估计量(5)。我们发现,与现有指标相比,MIG可以更好地捕捉模型中的细微差异。分析MIG和现有指标的系统实验见附录G。

image-20220919080917115


6 实验

我们进行了一系列定量和定性实验,表明β-TCVAE与之前的β-VAE[7]和InfoGAN[6]方法相比,可以持续获得更高的MIG分数,并可以与FactorVAE[8]的性能相匹配,同时在密度比技巧难以训练的场景中表现更好。此外,我们发现在用我们的方法训练的模型中,总相关与解纠缠有很强的相关性。

独立变异因素

首先,我们分析了我们提出的β-TCVAE和MIG度量在限制设置下的性能,地面真相因子是统一和独立采样的。为了更清晰地描绘学习算法的鲁棒性,我们聚合了来自多个实验的结果,以可视化初始化的效果。

我们使用两个数据集进行定量评估,一个数据集是2D形状[39],一个数据集是合成3D面孔[40]。表2总结了它们的ground truth因子。dSprites和3D人脸也分别包含3种形状和50个身份,在评估时将其作为噪声处理。

image-20220919081044165

ELBO vs. 解纠缠权衡(β)

由于β-VAE和β-TCVAE目标是标准ELBO的下界,我们希望看到这种修改后的训练效果。为了了解β的选择如何影响这些学习算法,我们使用一系列值进行训练。密度估计和MIG测量的解纠缠量之间的权衡如图2所示。

我们发现β-TCVAE在密度估计和解纠缠之间提供了更好的权衡。值得注意的是,当β值较高时,β-VAE的互信息惩罚性太强,这阻碍了潜变量的有用性。然而,β-TCVAE与β-VAE相比,β-TCVAE具有更高的解纠缠分数。

我们还进行了消融研究,通过在(4)中设置α = 0来去除指数码MI项,并使用因式分解归一化流作为先验分布,联合训练以最大化修改目标的模型。这两种方法都没有带来显著的性能差异,这表明在(2)中调整TC项的权重对于学习解纠缠表示是最有用的。

image-20220919095328408

定量的比较

虽然一些学习算法可以实现解纠缠的表示,但获得这种表示的机会通常是不清楚的。解纠缠表示法的无监督学习可能具有很高的方差,因为在训练过程中没有提供解纠缠标签。为了进一步理解每种算法的鲁棒性,我们在图3中展示了描述各种方法的MIG评分分布的四分位数的箱形图。基于图2中的模态,我们使用β = 4表示β- VAE, β = 6表示β-TCVAE。对于InfoGAN,我们使用了5个连续潜码和5个噪声变量。根据[6]的建议选择其他设置,但我们还添加了实例噪声[41]来稳定训练。因子VAE使用与β-TCVAE相同的目标,但使用密度比技巧[35]进行训练,众所周知,这低估了TC项[8]。因此,我们调优了β∈[1,80],并对因子VAE使用了两倍的迭代次数。注意,β-VAE、factor-VAE和β-TCVAE对dSprites数据集使用全连接架构,而InfoGAN使用卷积架构提高稳定性。我们还发现,FactorVAE在完全连接的层上表现很差,结果比β-VAE在dSprites数据集上的结果更差。

总的来说,我们发现β-TCVAE的中位数得分最高,接近所有方法的最高得分。尽管在β-TCVAE测试中表现最好的一半人获得了相对较高的分数,我们看到另一半人仍然表现很差。低分离群值存在于3D人脸数据集中,尽管它们的分数仍然高于VAE和InfoGAN取得的中值分数。

image-20220919095417468

阶乘与解纠缠表示

虽然先前已经推测低的总相关性会导致解纠缠,但我们提供了具体的证据,证明我们的β-TCVAE学习算法满足这一特性。图4显示了在dSprites和faces数据集上训练的不同β值的全相关散点图和MIG解纠缠度量,平均超过40个随机初始化。β-TCVAE训练模型的平均TC与平均MIG呈强负相关,而β-VAE训练模型的平均TC与平均MIG相关性较弱。总的来说,在相同的总相关度下,β-TCVAE建立了一个更好的解纠缠模型。这也为假设提供了有力的证据,即只要索引码互信息不受影响,大的β值是有用的。

image-20220919095434168

6.1 相关或依赖因素

即使在底层生成过程对非均匀和依赖抽样的因素进行抽样时,也可以存在解纠缠的概念。许多真实的数据集都表现出这种行为,其中一些配置的因素比其他配置采样更多,违反了统计独立性假设。

在这种情况下,解开变异因素对应于找到生成模型,其中潜在因素可以独立作用并干扰生成结果,即使在抽样过程中存在偏差。总的来说,我们发现β-TCVAE在玩具数据集中找到正确的变异因子没有问题,而且可以找到比之前工作中发现的更多可解释的变异因子,即使违反了独立性假设。

Two Factors

我们从只有两个因素的玩具数据集开始,并使用具有不同程度相关性和依赖性的抽样分布测试β-TCVAE。我们取合成的三维人脸数据集,并固定除姿态外的所有因素。图5a总结了我们测试的因子的联合分布,其中包括不同程度的抽样偏差。具体来说,构型A使用了一致且独立的因子;B采用边缘不均匀但不相关且独立的因子;C使用了不相关但有依赖性的因素;D使用相关和依赖因素。虽然可以在所有配置中训练解纠缠模型,但当存在抽样偏差时,获得解纠缠模型的机会总体较低。在所有配置中,我们看到β-TCVAE优于β-VAE和InfoGAN,而且大多数配置的中位数得分存在很大差异。

image-20220919095631821

6.1.1 定性的比较

我们定性地表明,β-TCVAE在椅子[42]和真实面孔[43]的数据集上发现了比β-VAE更多的分离因子。

3D Chairs

图6显示了潜变量的遍历,描述了生成3D椅子的可解释属性。β-VAE[7]已经显示出能够学习前四种属性:方位、大小、腿型和靠背。然而,β-VAE学习到的腿型变化似乎并不适用于所有椅子。我们发现β-TCVAE可以学习另外两个可解释的特性:椅子的材料和旋转椅子的腿旋转。这两个性质更加微妙,可能需要更高的索引码互信息,因此β-TCVAE中较低的索引码互信息惩罚值有助于发现这些性质。

image-20220919112441583

CelebA

图1显示了β-TCVAE在没有监督的情况下发现的15个属性中的4个(见附录A.3)。我们从平均值出发遍历6个标准差,以显示一般化每个变量的表示语义的效果。β-VAE学习到的表示是纠缠着细微差别的,这可以在推广到低概率区域时显示出来。例如,它很难呈现完全秃顶或窄脸宽度,而β-TCVAE显示有意义的外推。对β-TCVAE的性别属性外推表明,β-VAE更多地关注与性别相关的面部特征,而β-VAE则与许多不相关的因素如脸宽纠缠在一起。β-TCVAE模型的泛化能力超出了先验均值的前几个标准差,这意味着β-TCVAE模型可以生成罕见的样本,如秃头或有胡子的女性。

image-20220919085409250


7 结论

我们提出了ELBO的分解,目的是解释β-VAE工作的原因。特别是,我们发现目标中的TC惩罚鼓励模型在数据分布中寻找统计上独立的因素。我们将β-TCVAE作为一种特殊情况,与β-VAE相比,它可以使用不附加超参数的小批估计进行随机训练。我们的方法的简单性允许很容易地集成到不同的框架[44]。为了定量评估我们的方法,我们提出了一种称为MIG的无分类器解纠缠度量。该度量得益于互信息[23]的高效计算的进步,并且除了解纠缠之外还加强了紧性。由于缺乏语义感知的先验,对解纠缠表示的无监督学习本质上是一个困难的问题,但我们在具有统一因子的简单数据集中表明,潜变量之间的独立性可能与解纠缠密切相关。

FOGS: First-Order Gradient Supervision with Learning-based Graph for Traffc Flow Forecasting

发表:IJCAI 2022

作者:Xuan Rao,电子科技大学,Hao Wang 武汉大学

引言

领域: 交通流量预测是智能交通管理和服务(如路线规划、智能交通灯控制等)中最基本的技术之一。

意义:准确预测未来交通状况可能有助于人们安排出行,避免潜在的街道拥堵,合理分配交通资源。

输入: 用于预测的数据是交通信号序列,其中每个信号包含道路网络中所有传感器在一定时间间隔内记录的流量

考虑因素:时间因素(过去一段时间的流量)空间因素(附近路段的流量和道路网结构)

现有方法

思路:首先建立了传感器之间的相关图,然后基于相关图进行了流量预测。

​ 现有方法存在问题:

​ 问题1:现有方法要么完全忽略历史,要么只是利用它们之间一些整体的时间相似性。缺乏对更细粒度的历史流的时间相似性的考虑。此外,大多数现有的相关图都是手工构建的,因此人类经验可能会在很大程度上产生偏差。

​ 问题2:大多数现有的方法都是为了预测准确的流量。这项任务具有挑战性,因为交通流量的分布是不规则的。数据量不够大可能会导致欠拟合,降低预测的精度。

​ 解决方法:

​ 1.为了更好地利用时间信息,我们观察到交通通常遵循每周规律在工作日和周末、高峰时间和正常时间进行人类活动等。基于这一观察结果,我们将一周分解为一个连续的时间槽序列,每个时间槽对应一个特定的时间间隔。对于每个传感器,我们构造一个时间特征向量,其中每个元素都是相应时间槽内的历史视图的平均值。因此,两个时间特征向量之间的距离是相应传感器之间的相似性度量。利用这种相似度度量,我们通过将每个传感器与其k个最相似的传感器连接起来来建立一个时间相关图。然后,我们提出了一种新的基于学习的方法来学习每个传感器的嵌入,同时考虑了时间相关图和道路网络,可以用于准确的流量预测。

  1. 为了解决预测过程中的欠拟合问题,我们设计了一种名为一阶梯度监督 (FOGS) 的新方法。 FOGS 使用一阶梯度,也就是趋势,而不是精确的流动来训练预测模型。 简而言之,在某个时刻,趋势是流量相对于前一时刻的相对时间变化。 我们展示了流量的分布和趋势。图 1 是 PEMS03 数据集 1 的训练集。正如我们所见,流动和趋势具有非常不同的分布特性。 流动分布呈不规则形状,分布广泛,而趋势分布则集中度好。 这与我们的直觉是一致的,即人类活动通常遵循一些规律的模式,尽管确切的流动可能因一天而异。因此,我们认为趋势将为流量预测提供更多监督。 FOGS 旨在从趋势中明智地利用这种监督

image-20220809165455022.png

贡献总结:

 1. 我们提出了一种新的图嵌入方法来学习每个传感器的数据表示。与现有的解决方案相比,我们的数据表示更好地反映了传感器之间的时间和空间相关性。
 2. 我们揭示了趋势在牛预测中的重要性。我们提出了一种新的方法,FOGS,它可以明智地利用趋势提供的监督信息进行准确的动态预测。
 3. 我们在四个真实世界的数据集上进行了广泛的实验来测试FOGS的性能。结果表明,FOGS在精度方面明显优于现有的解。

相关工作

 1. DCRNN采用双向随机游走来表征与空间关系相关的扩散过程。
 2. STGCN利用时空结构域上的卷积结构,同时提取时空特征。
 3. STSGCN,ASTGCN(提出利用空间和时间注意机制分别学习空间和时间相关性)。

方法

时空相关性的学习

1.时间相关图的构造

​ 原始输入为传感器采集的多通道流量时间序列。时间相关图为C(V,ETIME)。

​ 首先将一周分解为长度等长的时间槽(论文中使用1/w,w为传感器采样频率)。之后将每个传感器在一个时间槽内采集的数据取平均得到该时间槽的特征值。由于一周有NW个时间槽,所以最后每个传感器可以得到一个NW维的时间特征向量。然后利用K-最近邻来判断和形成边的连接Etime

​ 2.图嵌入学习函数

​ 给定道路网络R=(V,Eroad)时间相关图C=(V,Etime),我们的下一个目标是建立一个嵌入函数h:V→Rm,该函数将每个传感器v∈V映射到一个m维特征向量(即嵌入)。嵌入函数h(·)将保持传感器之间的在R和c上的紧密性,我们想同时学习一个嵌入函数h和相关图G=(V,E),传感器之间的时空相关性在E和h中保存。

采用类似skip-gram的方法(给出中心词,预测得到上下文,此处是给出中心点,得到嵌入),目标函数为:

image-20220809212748597.png

​ 其中Ns(V)是邻居节点,此处指根据采样策略S得到的所有的邻居。Pr(~)指的是给定嵌入h(v)观测Ns(V)的概率。假定Pr的概率独立性,则概率可以如下计算:

image-20220809213043386.png

​ 而其中的每个邻居对嵌入的条件概率Pr计算公式如下:

image-20220809213217798.png

  1. 函数优化:

    image-20220809213503137.png

    图2说明了我们的随机游走过程。显然,等式的目标函数2在很大程度上受邻域函数NS(·)但公式2不适合现实案例,我们需要遍历V由于现实案例中的全部邻居集合V过大,所以采用随机游走和负采样方法来进行调整

    刚才的目标函数可以通过SGD等优化器进行优化。这样可以得到最好的嵌入h。

​ 传统的图嵌入方法基于拓扑结构生成随机游动来识别邻居的集合,这没有利用时间相关性。在这项工作中,我们提出了一种新的采样策略S来考虑时间相关性的随机游动

​ 采样器S通过下面的公式决定下一个邻居vj+1:

image-20220809214346424.png

image-20220809214432652.png

​ 其中dr为Vj-1到Vj+1的最短距离。(个人理解:随机游走中时间相关性的考虑在于pai的选取条件中包含了路径必须存在于时间图中)

  1. 一阶梯度监督

现有的研究通常利用精确的流量来训练他们的模型,然后预测网络中的未来的流量。然而,我们认为有许多外部因素影响着特定传感器的交通流量,如地理位置、周边地区的设施等。如图1(a)所示,流量流量的分布形状不规则,在训练数据量有限的情况下,与ft是不同的。尽管如此,从图1(b)中,我们观察到趋势的分布是集中的

​ 对于传感器Vj,定义t时间后的趋势为:

image-20220809215938551.png

​ 时空相关图构建:

​ 由于我们已经在传感器V上学习了一个嵌入函数h(·),它很好地保留了空间和时间的相关性,我们现在准备构建一个基于学习的时空相关图G。为此,我们计算了每对传感器之间的时空相关矩阵M∈[0,1]|V|×|V|

image-20220809220243186.png

​ 然后基于M计算得到图G:

image-20220809220350730.png

image-20220809220400026.png

​ 图3显示了FOGS框架。将替换后的输入数据**X和时空相关图G**输入到基于图的模型G中,得到预测输出,即趋势矩阵:

image-20220809220429035.png

​ 整理(感觉优点乱)模型步骤为:

    1. 首先根据时间槽划分传感器的输入,并取平均得到每个传感器的时间向量,并利用K-最近邻构造时间图C。
    2. 基于时间图C和路网R去构造和优化嵌入函数(机制类似skip-gram)。
    3. 基于优化的嵌入函数计算一个时空相关矩阵G,并基于矩阵G和输入X利用图神经网络得到趋势输出。
    4. 通过标签计算得到趋势标签,并用mae损失函数进行优化。

​ 预测模型Graph-based-model为STFGNN等已有图神经网络模型。

损失函数选择mae,同时在评估阶段基于下面公式转化为流量:

image-20220809221527795.png

实验

​ 1.数据集:四个真实数据集PEMS03,PEMS04,PEMS07,PEMS08。这些数据提取自加州四个不同地区的加州运输局性能测量系统。

​ 与之前的研究一样[Song etal.,2020;LI和Zhu,2021],我们将每个传感器v映射到真实的道路网络中,构建传感器的道路网络,即第3节中的R。此外,我们利用z分数归一化来标准化输入数据。

实验设置

​ 我们以7:1:2的比例将这四个数据集分为训练、验证和测试集。我们用一个小时的时间来预测下一个小时的时间。也就是说,我们在实验中设置了T=K=12,使用12个连续的图信号来预测接下来的12个。在我们的随机游走策略中,如第4节中介绍的参数p和q,都设为1。在构造时间相关图C(第4节)和fnal时空相关图G(第5节)时,我们考虑了每个传感器的k=10个最近邻。此外,我们将传感器嵌入的维数设置为128随机游走长度L设置为25,窗口阈值∆设置为10。我们的实现可以在Pytorch3中找到

结果

image-20220809221931449.png

1. 在所有数据集上的所有指标下,我们提出的方法明显优于所有其他最先进的基线。
2. 比较STFGNN和我们的方法FOGS,我们可以发现我们提出的方法大大提高了性能。**原因可能是在我们的方法中使用的时空相关图G是学习的**,而不是手工构建的,这可以更好地捕获时空信息。此外,它还证明了具有趋势而不是流量的训练模型可以提高模型的性能。
3. 通过比较在PEMS04和PEMS07数据集上的性能改进,我们可以看到FOGS在PEMS03和PEMS08数据集上的表现更好。原因可能是道路网络在PEMS04和PEMS07数据集上更加稀疏,导致学习图g不准确,而且交通数据缺失率较高也会导致模型性能较差。

消融实验

​ 在我们的框架中有两个主要的组成部分:(i)学习到的图,和(ii)趋势监督。为了显示这些成分的影响,我们对FOGS进行了消融实验:

image-20220809222207406.png

1. 我们可以证明我们学习到的图可以提高模型的性能。因为通过随机游走算法学习到的传感器嵌入不仅可以重构空间网络的拓扑结构,还可以重构历史流量移动模式。它们的组合使学习到的图能够有效地利用边信息。
2. 我们可以注意到,以趋势训练STFGNN模型可以提高模型在所有数据集上的性能。利用趋势可以提高表现。

结论

在本文中,我们提出了一种新的基于学习的方法来学习一个图,可以有效地利用时空数据中的信息。通过我们的采样方法,我们学习了每个传感器的嵌入情况,该方法可以捕获道路网络的拓扑结构和历史交通流模式。该图是由具有k个近邻的传感器嵌入之间的余弦值构造的。此外,提出了一种新的监督方法FOGS来提高模型性能,利用趋势而不是指定来训练模型。我们在四个公共数据集上进行了广泛的实验和分析,结果表明我们提出的方法明显优于现有的基线。

2022 ICLR Uncertainty Modeling for out-of-distribution generalization

1 Introduction

深度神经网络在计算机视觉方面取得了令人印象深刻的成功,但严重依赖于训练和测试领域遵循独立和同分布的假设(Ben-David等人,2010;Vapnik,1992)。然而,这种假设在许多实际应用中并不成立。例如,当使用在晴天针对雨雾环境训练的分割模型时(Choi等人,2021),或使用在照片上训练的模型识别艺术画时(Li等人,2017),在这种分布外(out of distriution, OOD)的部署场景中,通常可以观察到不可避免的性能下降。因此,旨在提高网络在各种未知测试域上的鲁棒性的域泛化问题变得非常重要。

之前的工作(Huang&Belongie,2017;Li等人,2021)表明,特征统计(均值和标准差)作为学习特征的矩,具有训练数据的域特征。域特征主要指的是更特定于各个域但与任务目标不太相关的信息,例如对象识别中的照片样式和捕获环境信息。因此,具有不同数据分布的域通常具有不一致的特征统计(Wang等人,2020b;2019a;Gao等人,2021a)。大多数深度学习方法遵循经验风险最小化原则(Vapnik,1999),以最小化其对训练数据的平均误差(Shen等人,2021)。尽管在训练域上的性能令人满意,但这些方法没有明确考虑测试过程中潜在域偏移(domain shift)引起的不确定统计差异。因此,经过训练的模型往往会过度拟合训练域,并且在测试时易受统计变化的影响,这大大限制了学习表示的泛化能力。

图片

2-D t-SNE(Maaten&Hinton,2008)风格统计的可视化(平均值和标准偏差的串联),从在四个不同域上训练的ResNet-18的第一个剩余块特征图计算(He等人,2016)(Li等人,2017)。很明显,不同的域是完全分开的

直观地说,与训练域相比,测试域可能会带来具有不同潜在方向和强度的不确定性统计位移(如图1所示),这意味着域偏移的不确定性。考虑到潜在域移动的这种“不确定性”,合成新的特征统计变量来模拟不同的域移动可以提高训练网络对不同测试分布的鲁棒性。为此,我们引入了一种新的概率方法,通过适当地建模具有不确定性的域偏移(Domain Shifts with Uncertainty, DSU),即将特征统计量描述为不确定分布,来提高网络泛化能力。
图片
(图1 使用预先训练的样式转换自动编码器,通过合成特征统计数据可视化重建样本。特征统计信息的图示可能在强度(intensity)和方向(direction)上发生变化(即,特征统计信息向量空间中的不同偏移)。我们还展示了通过操纵不同方向和强度的特征统计位移生成的“新”域的图像。注意:这些图像仅用于可视化,而不是输入网络进行训练。)

在我们的方法中,我们假设在考虑潜在不确定性后,特征统计遵循多变量高斯分布,而不是将每个特征统计视为从特征测量的确定点。将分布“中心”设置为每个特征的原始统计值,分布“范围”表示考虑潜在域移动的变化强度。这里采用不确定性估计来描述概率特征统计的分布“范围”。具体而言,我们基于小批量(minibatch)统计的方差以有效的非参数方式估计分布“范围”。随后,从估计的高斯分布中随机抽样特征统计变量,然后用于替换原始确定性值,以模拟不同的域偏移,如图2所示。由于生成的特征统计具有不同的分布可能性,可以训练模型以适当地减轻域扰动并编码更好的域不变特征。
图片
(图2:假设特征统计在训练期间遵循多变量高斯分布。当通过该模块时,从相应分布中随机抽取的新特征统计将取代原始特征统计,以模拟不同的域转移。)

我们提出的方法简单但相当有效,可以缓解域偏移造成的性能下降,并且可以很容易地集成到现有网络中,而无需引入额外的模型参数或损耗约束。在广泛的视觉任务上进行的综合实验证明了我们提出的方法的优越性,表明在特征统计中引入不确定性可以很好地提高模型对域移动的泛化能力。

2 Related Work

3 Method

3.1 Preliminaries

给定图片是网络中间层的编码特征,我们表示图片图片分别为小批量中每个实例的通道特征均值和标准偏差,其公式如下:
图片

根据之前的工作(Huang&Belongie,2017;Li等人,2021),作为特征的抽象,特征统计可以捕捉对应域的信息特征(例如颜色、纹理和对比度)。在分布外(OOD)场景中,由于不同的域特征,特征统计通常与训练域不一致(Wang等人,2019a;Gao等人,2021a),这不适用于非线性层和归一化层等深度学习模块,并降低了模型的泛化能力(Wang等,2020b)。然而,大多数深度学习方法仅将特征统计视为从特征测量的确定值,而缺乏对潜在不确定统计差异的明确考虑。由于模型对这种差异的固有脆弱性,学习表示的泛化能力受到限制。最近的一些方法(Nuriel等人,2021;Zhou等人,2021b)利用特征统计来解决领域泛化问题。尽管取得了成功,他们通常对成对样本采用线性操作(即交换和插值)来生成新的特征统计,这限制了合成变化的多样性。具体而言,其变体的方向由所选参考样本确定,并且这种内部操作限制了其变体的张力。因此,这些方法在处理现实世界中的不同和不确定的域转移时是次优的。

3.2 MODELING DOMAIN SHIFTS WITH UNCERTAINTY

鉴于任意测试域在方向和强度上都具有不确定的特征统计位移,正确建模域位移成为解决域泛化问题挑战的一项重要任务。

考虑到域偏移的不确定性和随机性,本文“不确定性”方法来处理域偏移的“不确定性”。在本文中,我们提出了一种新的方法,通过不确定性域偏移建模(DSU)。我们假设,在考虑潜在不确定性后,每个特征统计的分布遵循多变量高斯分布,而不是将每个特征统计视为从学习特征测量的确定值。这意味着每个特征统计量都有一个从特定分布中提取的概率表示,即特征统计量的平均值和标准偏差分别遵循图片图片。具体而言,相应的高斯分布的中心被设置为每个特征的原始统计信息,而高斯分布的标准偏差描述了不同潜在位移的不确定性范围。通过使用概率方法随机抽样不同的合成特征统计,可以训练模型,以提高网络对统计变化的鲁棒性。

3.2.1 UNCERTAINTY ESTIMATION

考虑到域偏移的不确定性,我们方法中的不确定性估计旨在描述每个概率特征统计量的不确定性范围。然而,测试域未知,这使得获得适当的变异范围具有挑战性(希望能够对域的特征统计量有一个范围的感知)

一些基于生成的研究(沈和周,2021;王等人,2019b)表明,特征之间的方差包含隐含的语义,方差较大的方向可以暗示更有价值的语义变化的潜力。受此启发,我们提出了一种简单而有效的非参数不确定性估计方法,利用特征统计的方差提供一些说明:
图片

其中图片图片 分别表示特征平均值µ和特征标准偏差σ的不确定性估计。不确定性估计的大小可以揭示相应信道可能发生潜在变化的可能性。尽管域位移的潜在分布是不可预测的,但从小批量中捕获的不确定性估计可以为每个特征通道提供适当且有意义的变化范围,这不会损害模型训练,但可以模拟各种潜在位移。

3.2.2 PROBABILISTIC DISTRIBUTION OF FEATURE STATISTICS

一旦获得每个特征通道的不确定性估计,就可以建立概率特征统计的高斯分布。为了使用随机性来建模不确定性,我们采用随机抽样来进一步利用概率表示中的不确定性。新的特征统计量,均值图片和标准偏差图片可以从相应的分布中随机抽取,如下所示:
图片

在这里,我们使用重新参数化技巧(Kingma&Welling(2013))使采样操作可微,µ和σ均遵循标准高斯分布。通过利用给定的高斯分布,随机抽样可以生成具有不同方向和强度组合的各种新特征统计信息。

3.2.3 IMPLEMENTATION

我们的方法是通过AdaIN(Huang&Belongie(2017))实现的,并用随机抽取的特征统计替换特征统计以实现转换。建议方法的最终形式可表述为:
图片

备注:
使用实例特定均值和标准偏差对特征张量进行归一化可有效去除样式转换(style transfer)模型中的图像样式(Ulyanov等人,2016;Huang&Belongie,2017;Dumoulin等人,2017)。这种操作被广泛称为实例规范化(IN,Ulyanov等人(2016))。
图片

图片为可学习的参数,

Huang&Belongie(2017)引入了自适应实例规范化(AdaIN),它简单地将缩放和移位参数与样式输入y的特征统计重新放置在等式(1)中,以实现任意样式转换:
图片

可以实现向目标风格的统计量迁移

MixStyle(2021 ICLR)在特征统计量上实现了风格迁移:
图片

图片

上述操作可以作为一个灵活的模块集成在网络的各个位置。请注意,该模块仅在模型训练期间工作,并且可以在测试时丢弃。为了权衡这个模块的强度,我们设置了一个超参数p,表示应用它的概率。附录中描述了算法。得益于所提出的方法,使用不确定特征统计训练的模型将获得更好的性能
图片

4. EXPERIMENTS

为了验证所提出的方法在提高网络泛化能力方面的有效性,我们在广泛的任务上进行了实验,包括图像分类、语义分割、实例检索和对损坏的鲁棒性,其中训练集和测试集具有不同的分布变化情况,例如样式变化,合成到真实间隙、场景变化和像素级损坏。

4.1 GENERALIZATION ON MULTI-DOMAIN CLASSIFICATION

设置和实现细节:我们在PACS(Li et al.(2017))上评估了提出的方法,PACS是一个广泛使用的领域综合基准(benchmark),具有四种不同风格:艺术绘画(Art)、卡通(Cartoon)、照片(Photo)和草图(Sketch),共计9991张图片和7种类别。该实现遵循MixStyle的官方设置(Zhou等人(2021b)),使用一个离开域协议(leave-one-domain-out,在三种域上训练,剩下一种做测试),并使用ResNet18(He等人,2016)作为主干(backbone)。MixStyle的随机混洗版本用于公平比较,它不使用域标签。除PACS外,我们还在附录中使用Office Home(Venkateswara等人,2017)进行多域泛化实。

实验结果:表1所示的实验结果证明了我们对基线方法的显著改进,这表明了我们对传统确定性方法的优势。特别是在艺术和素描方面,我们的方法平均准确度提高了近10%。此外,我们的方法的性能也优于竞争方法,这表明我们在特征统计上建模不同的不确定移位的方法有效地提高了针对不同域移位的网络泛化能力。Photo具有与ImageNet数据集相似的域特征,轻微下降可能是由于ImageNet预训练(也在(Xu等人,2021)中讨论)。我们的DSU增强了功能,并扩大了培训活动的多样性。相比之下,基线方法保留了来自ImageNet的更多预训练知识,因此倾向于过度拟合受益于预训练的照片样式数据集
图片

图片

4.2 GENERALIZATION ON SEMANTIC SEGMENTATION

4.3 GENERALIZATION ON INSTANCE RETRIEVAL

4.4 ROBUSTNESS TOWARDS CORRUPTIONS

5.ABLATION STUDY

在本节中,我们利用在ResNet上训练的模型,对PACS和分段任务(GTA5到城市景观)上提出的方法进行了广泛的消融研究。下面分析所提出方法的不同插入位置和超参数的影响。同时,我们还分析了不确定性分布的不同选择的影响。

不同插入位置的效果:DSU可以是一个即插即用模块,可以随时插入任何位置。在这里,我们将第一个Conv、最大池层、第1、2、3、4个ConvBlock之后的ResNet位置分别命名为0、1、2、、3、4、5。如表5所示,无论模块插入何处,性能始终高于基线方法。结果表明,在位置0-5插入模块将具有更好的性能,这也表明对所有训练阶段的不确定性建模将具有更好效果。根据分析,我们在所有实验中将模块插入位置0-5。
图片

超参数效应:概率p的超参数是为了权衡特征统计增强的强度。如图4所示,结果对概率设置不敏感,当p设置为0.5时,精度达到最佳结果,如果未指定,也将其作为所有实验的默认设置。
图片

不确定性分布的选择:在我们的方法中,采用具有不确定性估计的高斯分布作为默认设置,我们还在表6中进行其他分布的比较。具体而言,随机表示直接添加从固定高斯图片得出的随机位移,均匀表示从图片,其中∑是从我们的不确定性估计中获得的范围。如我们所见,直接使用具有不当变化范围的高斯分布将损害模型性能,这表明特征统计的变化范围应该有一些指导。
图片

我们还进行了实验,以测试用不同电位处理不同通道的有效性。信道共享表示样本的所有信道共享相同的不确定性分布,即使用信道之间的平均不确定性估计。如表9所示,结果表明,在不同渠道之间共享相同的不确定性分布效果较差,这忽略了渠道的不同潜力,并将限制其性能。同时,提出的方法明确考虑了不同信道的不同潜力,并带来了更好的性能

图片

6. QUANTITATIVE ANALYSIS ON THE PROPOSED METHOD

在本小节中,我们将分析所提出的方法对中间特征和特征表示的影响。定量实验在PACS上进行,我们选择艺术绘画(Art)作为看不见的测试域,其余部分作为训练域。

为了研究特征统计移位现象,我们在ResNet18中捕获第二个块后的中间特征,并分别在训练域和测试域中测量一个类别的平均特征统计值。特征统计的分布如图5所示。正如之前的工作(Wang等人,2020b;2019a)所示,从基线模型提取的特征统计由于不同的数据分布而显示出明显的变化。可以看出,用我们的方法训练的模型具有较小的偏移。我们的方法可以帮助模型获得对域偏移的鲁棒性,因为它正确地建模了潜在的特征统计偏移。
图片

图片

为了分析对特征表示的影响,我们使用t-SNE(Van der Maaten&Hinton,2008)在看不见的域中对不同类别的特征表示向量进行了统计。得益于所提出的方法,同一类别的特征变得更加紧凑。因为我们的方法可以减轻训练期间的域扰动,并使模型专注于内容信息,获得更不变的特征表示。

7. CONCLUSIONS

在本文中,我们提出了一种概率方法,通过在训练期间使用合成特征统计对域移动的不确定性进行建模来提高网络泛化能力。假设每个特征统计量遵循多变量高斯分布,以模拟不同的电位位移。由于生成的特征统计具有不同的分布可能性,因此模型可以对不同的域转移获得更好的鲁棒性。实验结果证明了该方法在提高网络泛化能力方面的有效性。

【AAAI2021】A Novel Visual Interpretability for Deep Neural Networks by Optimizing Activation Maps with Perturbation 一种新的深度神经网络的视觉可解释性

image-20220610142553209

摘要:

可解释性一直被视为部署深度神经网络的一个重要组件,基于显著性的方法是最流行的可解释的方法之一,因为它可以生成单独直观的热图,突出部分输入图像最重要的决定深度网络在一个特定的分类目标。然而,由现有方法生成的热图要么包含很少的表示对象的信息(基于扰动的方法),要么不能有效地定位多类对象(基于激活的方法)。为了解决这个问题,设计了一个可视化深度神经网络可解释性的两阶段框架,称为扰动优化激活(AOP),以优化一般基于扰动的方法和基于扰动的方法生成的激活图。最后,为了更好地解释不同类型的图像,我们进一步提出了AOP框架的一个实例,即基于平滑集成梯度的类激活图(SIGCAM),该实例提出了一种应用特征图作为权重系数的加权梯度CAM

Read more »

  • 作者

Vincent Vercruyssen, Wannes Meert, Jesse Davis

DTAI group, KU Leuven, Belgium
firstname.lastname@kuleuven.be

  • 会议

2020 AAAI

  • 介绍

    ​ 异常检测可以自然地作为一项无监督的学习任务,无监督的方法利用了异常不经常发生的假设,即异常会落在整个实例空间中的低密度区域。但是现实世界的数据经常违背这一假设,例如系统维护会不定期的发生,但不是异常。带标签的数据提供了修正这一差错的可能性,但是完全的监督方法却是不可行的,因为收集现实世界的异常标签是非常昂贵的。激发了对异常检测的半监督方法的研究兴趣,通常与主动学习结合来有效地收集标签。

    Read more »

题 目:一种严格的对于时间序列可解释性的评估方法

出 处:ICCV2019

关键词:时间序列,可解释性

​ 可解释的人工智能(XAI)方法通常被用于解释和调试黑盒机器学习模型。然而,大多数提出的XAI方法都是黑盒本身的,并且是为图像设计的。因此,他们依靠视觉上的可解释性来评估和证明解释。在这项工作中,我们应用了以前用于时间序列上的图像和文本域的XAI方法。我们提出了一种方法来测试和评估时间序列上的各种XAI方法,通过引入新的验证方法来纳入时间维度。我们进一步进行了初步实验,以评估在一系列数据集上使用各种验证方法对所选择的XAI方法解释的质量,并对其进行质量指标的检查。我们证明,在我们最初的实验中,Shap对所有模型都很有效,但其他模型如DeepLIFT、LRP和显著性地图在特定架构中工作得更好。

Read more »

摘要

时间序列预测在日常生活中有着广泛的应用,并且是一个有挑战的任务,因为时间序列的性质会随时间变化,这被称为分布偏移(distribution shift)

本文提出了时间序列的时序协方差漂移问题(Temporal Covariate Shift, TCS),进而提出了AdaRNN方法解决了此问题。AdaRNN主要由两个部件组成,第一个组件用于刻画时间序列中的分布信息,第二个组件用于减少分布的错误匹配并学习一种基于rnn的自适应时间序列预测模型。AdaRNN是一个集成了多种灵活分布距离的通用框架。

分类和回归问题上比对比方法提高2.6%和9.0%的精度(RMSE)。另外,AdaRNN可以被简单地扩展到Transformer框架下,同样能够提高其表现。

Read more »

时间序列异常点的无监督检测是一个具有挑战性的问题,它需要模型推导出一个可识别的准则。以往的方法主要是通过学习点表示或成对关联来解决这一问题,但这两种方法都不足以对于复杂情况进行检测。近年来,Transformers在点态表示和成对关联的统一建模中表现出了巨大的威力,我们发现每个时间点的自我注意权重分布可以体现出与整个序列的丰富关联。我们的主要观察结果是,由于异常的罕见性,从异常点到整个序列建立非平凡的关联非常困难,因此,异常的关联应主要集中在其相邻的时间点上。这种相邻的关联性偏差意味着一种基于关联的标准,可以在正常点和异常点之间进行固有的区分,我们通过关联差异来强调这一点。在技术上,我们提出了一种新的异常注意机制来计算关联差异的 Anomaly Transformer。设计了一种极大极小策略来增强关联差异的正常-异常区分能力。

Read more »

image-20220222194352641

一、摘要

​ 小样本图像分类目的是以有限的标注样本进行分类。考虑到标注数据的限制,本文提出在元学习基础上引入自监督学习来训练一个更广义的嵌入网络,通过从数据本身学习到对下游任务更有效的特征,提高特征的鲁棒性及泛化能力。

关键词:小样本学习(元学习) 自监督学习

Read more »

0. Abstract

睡眠阶段自动分类对睡眠质量的监测具有重要意义,本文提出了一种基于注意力的深度网络AttnSleep,利用单导EEG进行睡眠分期。用多分辨率卷积网络(MRCNN)提取特征,通过自适应特征重校准(AFR)对特征之间的依赖进行建模;第二模块是时间上下文编码器(TCE),用多头注意机制(MHA)来捕获所提取特征之间的时间关系,在三个公开数据集上评估了模型性能。

Read more »