0%

zhj DEEP SEMI-SUPERVISED ANOMALY DETECTION

DEEP SEMI-SUPERVISED ANOMALY DETECTION(2020 ICLR)

1.优点(解决的问题)。

  • 在半监督异常检测方法中,除了利用无标签的样本,大多数监督方法只利用了标记出来的正常样本,本方法同时利用的标记的正常样本和异常样本。

  • 在Mnist,fashion-mnist、cifar-10和其他异常检测基准数据集上,与浅层的方法、混合的方法以及深度的方法比较, 效果相当或者比它们好。

  • 使用很少的有标签样本能够明显提高效果。

2. 模型原理

2.1 SVDD(Support Vector Data Description)支持向量数据描述

一分类问题。训练出一个最小的超球面,将数据全部包起来。在识别新的数据时, 如果数据在球内,就属于这个类。

实现思路:原始数据–高维表示–Min超球体积–求得c和R。

image-20200830221831085

2.2 deep SVDD.

同作者论文:Deep One-Class Classification, PMLR, 2018

应用场景:Anomaly Detction

image-20200830214925996

使用神经网络来将数据映射到高维空间。

超球体中心为C, 半径为R。

目标:最小化超球面的体积, 正常的样本在球内,异常样本在球外。

得到球体中心:利用autoencoder,使用所有样本训练autoencoder。 使用收敛之后的encoder部分作为初始化的网络, 同时将所有样本在encoder的输出的平均值作为超球体中心C。

image-20200831120602081

目标函数:

n个样本, $\Phi$是代表网络的函数, $x_i$是输入样本, $W$是网络权重。

image-20200830215431541

预先定义球体中心C,迫使所有的样本向C靠拢,离球中心越远的样本越可能是异常样本。

异常分数:

image-20200830221730565

2.3 (本文)DEEP SAD(deep semi-supervised anomaly detection)

目标函数:

image-20200830222630686

$\tilde{y}=-1$表示异常,$\tilde{y}=+1$表示正常。

意义: 对于无标签的样本,尽量往球体中心靠拢; 对于便签为正常的样本, 尽量往球体中心靠拢; 对于便签为异常的样本, $\tilde{y}=-1$, 括号内的值越大越好, 也就是异常样本尽量远离球体中心。

参数$\eta$与前一项分子上的1对应,控制有标签的样本和无标签的样本的影响, $\eta>1$ 则侧重于有标签样本, $\eta < 1$ 则侧重于无标签样本。

3.实验

3.1对比实验:

shallow unsupervised baselines:

  • OC-SVM

deep unsupervised competitors:

  • Deep SVDD

浅层的半监督方法:

  • shallow SSAD method

深层的自监督方法: 缺乏深层的自监督方法(同时利用标记的正常样本和异常样本),这里自行构建

  • hybrid SSAD:自编码器和SSAD

深层的自监督方法:只利用标记的正常样本。

  • Semi-Supervised Deep Generative Model (SS-DGM)

有监督方法:

  • supervised deep classifier
3.2 实验场景

MNIST, Fashion-MNIST, 以及 CIFAR-10都是十分类问题。设置其中一类为正常样本(无标签),其余九类构成异常样本池, 从池中抽取一下异常样本作为有便签异常样本。这样就满足假设:大多数无标签样本为正常样本(这里设置为全部无标签样本为正常样本)。

场景一:加入有便签的异常样本(不同比例)

比例$\gamma_l=m/(n+m)$,

m:有标签样本数量,n: 无标签样本数

在取异常样本时,只从其中9个异常类别中的一类中选取,测试时同时使用9个异常类别。这样在测试时, 会有模型从没见过的异常类别。

实验数量:对于每个$\gamma_l$, 进行10 * 9 = 90 次实验。

结果: 90次实验AUC的均值和标准差。

image-20200831100546365

$\gamma_l=0$, 退化为无监督问题。

在数据较为复杂的CIFAR10上, 本文的Deep SAD 表现最好。

hybrid SSAD表现也较好。

场景二:污染训练数据

在无标签的正常样本中混入无标签异常样本。

固定$\gamma_l=0.05$, 取不同的污染比列$\gamma_p$,

image-20200831101617372

原文:最鲁棒的是本文的Deep SAD

观察:

在Mnist和Fashion Mnist上,最好的反而是OC-SVM Hybrid。

在CIFAR-10上最好是本文的Deep SAD。(数据较复杂)

场景三:不同的已知异常类别数

已知异常类别数:$k_l$,

选取异常样本方法:随机抽取$k_l$个样本。对于每个$k_l$, 做10次随机抽取,10个类别,共10*10=100次实验。

结果:

image-20200831104502119

训练时使用的异常类别越多,效果越好。

总体而言,我们看到Deep SAD在更复杂的数据上特别有用。

同时暴露了有监督分类的一个问题:在测试时出现没有见过的异常类型, 表现较差。

超参的影响
  • 设定 有便签异常样本比例:$\gamma_l=0.05$,无标签样本污染比例:$\eta_p=0.1$, 已知异常类别数$k_l=1$,

    $\eta$的影响如下图, 结论:对$\eta$的变化是鲁棒的。

image-20200831114314276

  • 隐表示的维度d

image-20200831115723567

image-20200831114942261

结论:d越大越好。

4.结论

介绍了一个泛化的自监督方法(同时利用有标签的正常和异常样本), 在同时获得有标签的正常和异常样本时, 本文方法是更好的。