djx ELF-SUPERVISED LEARNING FOR FEW-SHOT IMAGE CLASSIFICATION【ICASSP2021】

一、摘要

小样本图像分类目的是以有限的标注样本进行分类。考虑到标注数据的限制，本文提出在元学习基础上引入自监督学习来训练一个更广义的嵌入网络，通过从数据本身学习到对下游任务更有效的特征，提高特征的鲁棒性及泛化能力。

关键词：小样本学习（元学习）自监督学习

二、相关知识补充

1、元学习

元学习即meta-learning，也被称为“learning to learn”。

相比于machine learning: machine learning目的是学习一个用于预测的数学模型。而元学习面向的不是学习的结果，而是学习的过程。其学习的不是一个直接用于预测的数学模型，而是学习“如何更快更好地学习一个数学模型”。

1）F是什么？

以传统神经网络为例

梯度下降算法：设计一个网络架构->给参数初始化->读入训练数据批次->计算梯度->基于梯度更新参数->进入下一轮训练->…

针对梯度下降算法，Meta Learning的最终结果是能够找到一个最佳训练流程，F

2）评价函数 F 的好坏

元学习的训练过程是围绕task展开的，每个task都有训练数据与测试数据。在Task1中，函数F学习到的训练算法是$f^1$，而Task1中的测试集在$f^1$上的测试结果被记作在Task1上的损失$l^1$；在Task2中，函数F学习到的训练算法是$f^2$，而Task1中的测试集在$f^2$上的测试结果被记作在Task1上的损失$l^2$……最终的损失函数是多个任务的总和

2、自监督学习

两个过程：预训练过程无需任何标注信息，微调部分需要少量标签。

自监督学习大致分成两类：生成式与对比式。生成式关键在于前置任务的设计（通过数据增强等方法从数据本身设计出样本与对应的标签）。对比式的关键在于设计正负样本。本文采用的是对比式自监督模型。

自监督学习优点：无需标签信息，提高特征泛化能力

三、研究背景

Motivation：在小样本学习中，有标签样本的数量会限制嵌入式网络的规模。规模小的嵌入网络会对结果产生较大的负面影响。嵌入网络的规模成为小样本学习的瓶颈。

四、研究方法

1、自监督学习阶段

自监督模型： Augmented Multiscale Deep InfoMax (AMDIM)

在 AMDIM 中，重新命名 global feature 和 local feature ：

将对数据进行编码的特征，称为 global features
将要预测的特征，称为 local features（也就是网络中间生成的feature map）

通过infoNCE，将最大化互信息转化为最大化互信息的下界。

最大化同一图像的两个视图（xa，xb）的全局特征和局部特征之间的互信息。

即具体来说，最大化$, 和$.之间的互信息。

通过NCELoss写成如下形式：

参考文献：Philip Bachman, R Devon Hjelm, and William Buchwalter,“Learning representations by maximizing mutual information across views,”https://arxiv.org/abs/1906.00910