作者认为 negative sample 对于表征学习是有很大益处的,对于 negative sample 最主要的挑战就是不能采用现有使用真实相似度信息的负采样策略。因此,本文开发了无监督采样方法来选择 harder negative samples, 并且 user 可以控制 hardness。这种抽样结果的一个极限情况是将每个类紧密地聚在一起,并将不同的类尽可能地分开。该方法提高了跨多模式的下游性能。
1、Introduction
对比学习依赖于两个关键因素:正样本对与负样本对的定义,
informative negative :mapped nearby but should be far apart
好的negative sample:与原始样本标签不同,与原始样本相似
动机:寻找更好的negative samples,本文构建了一个可调的采样分布,该分布倾向于描述当前表示(与锚样本)十分相似的负样本对。
挑战:1)无监督条件下无法获得任何真实的相似或不相似信息。2)可调分布需要合适的采样策略。针对挑战1)参考无标签正样本学习,针对挑战2)设计一种抽样技术:需要满足高效、易于实现、不增加计算开销。
理论分析表明,本文提出的方法的最佳表现是将相似的输入归类在紧密的簇中,同时将簇间隔尽可能远。从经验上看,我们的hard negative sampling策略改善了图像、图形和文本数据的下游任务性能,这足以说明我们的negative samples具有更丰富的信息。
贡献:
1、我们提出了一个关于负样本对的简单分布,用于对比学习,并推导了一种实用的importance sampling 策略。这种策略考虑到了真实不相似信息的缺乏并且计算开销为0。
2、从理论上分析了hard negative客观和最优的表示,理论上说明了hard negative 可以捕获理想状态的泛化性质。
3、经验上观察到本文提出的抽样方法可以提高下游任务性能。
2、对比学习背景
介绍对比表示学习的背景:
我们希望学习一个嵌入层:$f:\chi \rightarrow S^{d-1}/t $ ,$S^{d-1}/t $ 是一个半径为$1/t$的超球面,$t$是超参数
假设有一组离散的潜在类$C$表示语义内容,相似样本对$(x,x^{+})$对应相同的潜在类。
对于$c\in C$,定义其分布$\rho(c)$,联合分布 $p_{(x,c)}(x,c)=p(x|c)\rho(c)$ ——条件概率分布变形;
边际分布 $ p(x)=\int{c}p{(x,c)}(x,c)dc$ 简写为 $p$
假设 $supp(p(x))=\chi$ ,意思是$p(x)$的支撑集是全集 $\Leftrightarrow$ $p(x)\neq 0 $ $\forall x\in \chi$
为简单起见,假设$p(c)=\tau^{+}$为均匀分布,$\tau^{-}=1-\tau^{+}$ $\tau$是超参数。
$h:\chi \rightarrow C$ 为输入$x$分配标签的真实潜在假设
如果$h(x)=h(x’)$,我们规定$x$与$x’$来自同一类,定义为 $x \thicksim x’$
定义 $P^{+}{x}(x’)$为标签与$x$相同点的分布 $P^{+}{x}(x’)=P(x’|h(x’)=h(x))$
定义 $P^{-}{x}(x’)$为标签与$x$不同点的分布 $P^{-}{x}(x’)=P(x’|h(x’)\neq h(x))$
NCE:noise-contrastive estimation
对于$\forall x \thicksim p$,NCE融合了正样本$x^{+}$和N个负样本${x^{-}{i}}^{N}{i=1}$,负样本采样自q
【q通常被选为边际分布$p(x)$,实际操作中也常用经验近似】
问题:q是否有更好的分布描述负样本?
3、Hard negative sample
在本节中,将描述本文的hard negative sampling。我们首先要问,什么是好的negative sample?我们采取以下两条指导原则来回答这个问题:
1、q应当只能抽取真正与锚窗口标签不同的负样本$x_{i}^{-}$
2、最有用的负样本是目前被认为与锚窗口最相似的负样本
简而言之,与锚点有不同标签但嵌入在附近的负样本可能是最有用的,并在训练过程中提供显著的梯度信息。
- 定义负样本分布:$q^{-}_{\beta}$
- 结合PU-learning的思想,Positive-Unlabeled Learning:
$q{\beta}$ 和 $q^{+}{\beta}$ 都是可得到的分布,通过p得到$q{\beta}$,通过一个保持语义的变换得到$q^{+}{\beta}$。
为获得来自 $q{\beta}$ 和 $ q^{+}{\beta}$的样本,本文采用的是重要抽样法【(importance sampling method)是最有效的蒙特卡罗技巧之一,其主要思想是,它不从给定的概率分布函数中进行抽样,而是对所给定的概率分布进行修改,使得对模拟结果有重要贡献的部分多出现,从而达到提高效率,减少模拟的时间,以及缩减方差的目的】
首先固定(1)式中的Q,并将N趋向于正无穷:
将选择负样本分布$q^{-}_{\beta}$当作公式中的q,将(2)式代入得到(4):
从4式,可以看到我们只需要近似估计期望$E{x \thicksim q{\beta}}[e^{f^{T}(x)f(x^{-})}]$和$E{v \thicksim q^{+}{\beta}}[e^{f^{T}(x)f(v)}]$。
通过Monte-Carlo Importance sampling技术,可以求得上面两个期望:
实验部分
接下来,对我们的hard negative sampling 方法进行了实例评估,在所有的实验中,β都被视为一个超参数(消融实验结果显示在图2)。实验前需要提前确定$\tau^{+}$的值。选择类的先验信息$\tau^{+}$可以通过两种方式进行:1)从数据中估算,要求具有标记数据,2)将其视为超参数。
Image Representation
数据集:STL10,CIFAR100,CIFAR10
baseline:simCLR、Debiased(2020)
Graph Representation
数据集:图示中的八个
baseline:InfoGraph 方法(2020)
八个cases里面有六个的效果是优于baseline的
Sentence Representaton
消融实验
1、$ \beta$ 越大越好吗?
从结果可以看出过大的$\beta$ 反而对结果有负面影响,但是从第二张图的对比中看出,当正样本对采用的是真实信息的时候,结果会$\beta$ 的增加而增加。这个现象是可以在一定程度上解释过大的$\beta$ 为什么会降低准确度:因为,我们实际上是使用一种变换近似估计的$q^{+}_{\beta}$,只能部分纠正与 $ x$ 标签相同的负样本 $x^{-}$,而$\beta$ 的增加意味着学习机制更倾向于$f(x^{-})$ 接近于 $f(x)$,因此会造成更多与 $ x$ 标签相同的负样本 $x^{-}$ 没有被纠正。
2、避免错误负样本是否会改善hard sampling?
总结
本文提出了一种 hard negative sampling 方法,并通过实验论证了 hard negative 在对比表示学习中的价值。本文的工作将对比学习与度量学习中的负样本挖掘(negative mining)联系起来,差异在于度量学习中的负挖掘是以成对的相似信息作为核心,而对比学习是无监督的。本文所提的方法有如下优点:1、易于实现 2、不引入额外的计算开销 3、具有理论意义。