DEEP SEMI-SUPERVISED ANOMALY DETECTION(2020 ICLR)
1.优点(解决的问题)。
在半监督异常检测方法中,除了利用无标签的样本,大多数监督方法只利用了标记出来的正常样本,本方法同时利用的标记的正常样本和异常样本。
在Mnist,fashion-mnist、cifar-10和其他异常检测基准数据集上,与浅层的方法、混合的方法以及深度的方法比较, 效果相当或者比它们好。
使用很少的有标签样本能够明显提高效果。
2. 模型原理
2.1 SVDD(Support Vector Data Description)支持向量数据描述
一分类问题。训练出一个最小的超球面,将数据全部包起来。在识别新的数据时, 如果数据在球内,就属于这个类。
实现思路:原始数据–高维表示–Min超球体积–求得c和R。
2.2 deep SVDD.
同作者论文:Deep One-Class Classification, PMLR, 2018
应用场景:Anomaly Detction
使用神经网络来将数据映射到高维空间。
超球体中心为C, 半径为R。
目标:最小化超球面的体积, 正常的样本在球内,异常样本在球外。
得到球体中心:利用autoencoder,使用所有样本训练autoencoder。 使用收敛之后的encoder部分作为初始化的网络, 同时将所有样本在encoder的输出的平均值作为超球体中心C。
目标函数:
n个样本, $\Phi$是代表网络的函数, $x_i$是输入样本, $W$是网络权重。
预先定义球体中心C,迫使所有的样本向C靠拢,离球中心越远的样本越可能是异常样本。
异常分数:
2.3 (本文)DEEP SAD(deep semi-supervised anomaly detection)
目标函数:
$\tilde{y}=-1$表示异常,$\tilde{y}=+1$表示正常。
意义: 对于无标签的样本,尽量往球体中心靠拢; 对于便签为正常的样本, 尽量往球体中心靠拢; 对于便签为异常的样本, $\tilde{y}=-1$, 括号内的值越大越好, 也就是异常样本尽量远离球体中心。
参数$\eta$与前一项分子上的1对应,控制有标签的样本和无标签的样本的影响, $\eta>1$ 则侧重于有标签样本, $\eta < 1$ 则侧重于无标签样本。
3.实验
3.1对比实验:
shallow unsupervised baselines:
- OC-SVM
deep unsupervised competitors:
- Deep SVDD
浅层的半监督方法:
- shallow SSAD method
深层的自监督方法: 缺乏深层的自监督方法(同时利用标记的正常样本和异常样本),这里自行构建
- hybrid SSAD:自编码器和SSAD
深层的自监督方法:只利用标记的正常样本。
- Semi-Supervised Deep Generative Model (SS-DGM)
有监督方法:
- supervised deep classifier
3.2 实验场景
MNIST, Fashion-MNIST, 以及 CIFAR-10都是十分类问题。设置其中一类为正常样本(无标签),其余九类构成异常样本池, 从池中抽取一下异常样本作为有便签异常样本。这样就满足假设:大多数无标签样本为正常样本(这里设置为全部无标签样本为正常样本)。
场景一:加入有便签的异常样本(不同比例)
比例$\gamma_l=m/(n+m)$,
m:有标签样本数量,n: 无标签样本数
在取异常样本时,只从其中9个异常类别中的一类中选取,测试时同时使用9个异常类别。这样在测试时, 会有模型从没见过的异常类别。
实验数量:对于每个$\gamma_l$, 进行10 * 9 = 90 次实验。
结果: 90次实验AUC的均值和标准差。
$\gamma_l=0$, 退化为无监督问题。
在数据较为复杂的CIFAR10上, 本文的Deep SAD 表现最好。
hybrid SSAD表现也较好。
场景二:污染训练数据
在无标签的正常样本中混入无标签异常样本。
固定$\gamma_l=0.05$, 取不同的污染比列$\gamma_p$,
原文:最鲁棒的是本文的Deep SAD
观察:
在Mnist和Fashion Mnist上,最好的反而是OC-SVM Hybrid。
在CIFAR-10上最好是本文的Deep SAD。(数据较复杂)
场景三:不同的已知异常类别数
已知异常类别数:$k_l$,
选取异常样本方法:随机抽取$k_l$个样本。对于每个$k_l$, 做10次随机抽取,10个类别,共10*10=100次实验。
结果:
训练时使用的异常类别越多,效果越好。
总体而言,我们看到Deep SAD在更复杂的数据上特别有用。
同时暴露了有监督分类的一个问题:在测试时出现没有见过的异常类型, 表现较差。
超参的影响
设定 有便签异常样本比例:$\gamma_l=0.05$,无标签样本污染比例:$\eta_p=0.1$, 已知异常类别数$k_l=1$,
$\eta$的影响如下图, 结论:对$\eta$的变化是鲁棒的。
- 隐表示的维度d
结论:d越大越好。
4.结论
介绍了一个泛化的自监督方法(同时利用有标签的正常和异常样本), 在同时获得有标签的正常和异常样本时, 本文方法是更好的。