关键词:多任务学习
Abstract
多任务参数联合优化是MTL中一个活跃的研究问题,对不同任务的参数进行划分(不相交或有重叠),可以放宽共享权值的优化约束,但是这种方法会削弱多任务产生的inductive bias(MTL的思想)。本文提出了新的划分参数空间的方法(Maximum Roaming),且不会削弱inductive bias。该方法受dropout启发,随机改变参数分区,迫使参数在规定的频率下尽可能多地查看任务,使网络全面适应每次更新。实验表明,与普通的分区优化策略相比,roaming带来的正则化对性能的影响更大,且整体方法灵活、易于应用。
1. Introduction
MTL旨在通过共同学习多个任务,提高泛化性;利用不同任务的训练信号中所包含的多个领域特定信息,作为inductive bias,起正则器的作用。但是针对多个任务优化同一批参数,可能出现某一任务的提升会导致其他任务性能的下降,即任务干扰;不同任务所需要的表示具有特异性。
已有方法:用task-sepcific参数扩大网络,给任务以更大的专业化空间;采用架构适配以适应特定的任务集。但是这些方法都没有解决共享部分的任务干扰,也不能很好地随任务数量扩展。也可以通过构造特定任务参数划分,参数被更少的任务限制,这会削弱inductive bias。
本文提出动态划分策略——Maximum Roaming方法,控制任务干扰的前提下,产生inductive bias。该方法受dropout思想启发,参数可以在几个特定任务的子网中roam(漫游),从maximum的任务中进行学习,建立更鲁棒的表示;且该方法不是寻找一个最优的划分,而是连续的随机划分、随机给任务分配参数,允许它们从每个任务中学习,实验证明了该方法相较于SOTA的提升。
2. Related work
解决任务干扰引发的问题的三个方法:
loss加权:在优化目标中通过加权来平衡不同任务的loss,但是这些方法并不旨在解决任务干扰,只是调整每个任务在总目标中所占量级的大小。Maximum Roaming方法是明确地控制任务干扰。
多目标优化:把MTL转化为多目标优化问题。一些现有方法使得参数最后到达一个帕累托最优状态,即不存在参数更新方向,使得某一任务性能提升且不损害其他任务性能;但是强烈的任务干扰会导致参数停滞。
参数划分:将注意力机制用于卷积filter级别,使得每个任务在每一层选择其需要的参数子集,选择范围越大,使用给定参数的任务就越少,减少任务干扰。但是已有的方法会削弱inductive bias,不考虑每个任务对每个参数学习过程的贡献,而我们的方法使得每个参数有序地从每个任务中进行学习。
3. Preliminaries
定义训练集:
$T$是任务个数,$N$是数据个数,用标准的深度为$D$的共享卷积网络学习$T$个任务,并在预测层对每个任务$t$都有输出,卷积核为要学习的参数,第$d$层网络的参数量记为$S^{(d)}$,用$S_{max}$代表$d$层中参数的最大值。
标准的MTL共享所有参数,任务$t$第$d$层的输出为:
$H$为隐藏层输入,$K^{(d)}$是第$d$层的卷积核。
3.1 参数划分
二元参数划分矩阵:
$m_t^{(d)}$是$d$层与任务$t$相关的列向量,用以下操作可以为每一个任务$t$选择一个参数子集:
隐输入也取决于任务:每个任务有独立的forward pass,反向传播与特定任务相关的loss,每个参数会收到使用该参数的任务传回的梯度信息。
3.2 参数划分初始化
划分矩阵中的参数都满足参数为$p$的伯努利分布:
$p$控制共享率(每一层都相同),各任务参数的重叠率,如某个参数从不同任务收到的梯度信息的数量。这个数目越小,有冲突信息的概率就越低,可以减少任务干扰,简化优化问题。同时也削弱了inductive bias,影响MTL效果。
保证网络容量,对参数加以限制:
=1,即$p=0$,不相交参数划分;=$T$,即$p=1$,完全共享网络。
dropout思想:使参数在不同的随机抽样的子网中连续学习有效表示。
通过规律地更新参数划分矩阵,使参数依次从每个任务中进行学习,即在任务中roam,有序建立inductive bias。这就是Maximum Roaming MTL,包括两个核心要点:1)参数划分矩阵的更新策略;2)更新划分矩阵时如何选择要更新的参数
4. Maximum Roaming Multi-Task Learning
介绍本方法的核心内容
假设1:同时优化不同任务的参数可以得到inductive bias,也可以通过对不同任务子集的顺序优化得到。
根据假设1,划分矩阵可以随时间演化,用3中的方法初始化,经过每一步$c$,矩阵的值就会更新,在满足约束的前提下,参数可以在不同的任务间roam。
定义1:$A_t(c)$是任务$t$在第$c$步的参数目录,把$c$步之前的参数并集得到$B_t(c)$,即到$c$步时任务$t$访问过的参数集合,到$c+1$步时,划分矩阵按照以下规则更新:
$\Delta$控制矩阵更新频率,一般比较大(网络可以在一个设定下充分学习,如果更新太频繁,会导致更大的任务干扰),$c=E/\Delta$,$E$代表训练轮数,在每$\Delta$轮中用相同的参数划分进行训练,每次更新一个参数。
引理1:更新频率$\Delta$有以下属性:
- 更新会在$\Delta(1-p)S_{max}$训练步内完成
- 更新完成时,每个参数至少被每个任务训练了$\Delta$轮
- 在整个更新过程中,隶属于每个任务的参数量是不变的(不同任务参数划分之间的重叠保持不变,控制任务干扰)
证明:1)$B_t(c)$初始化为$pS$,每$\Delta$轮增加1
经过$c$步后,每个参数$i$被任务$t$使用的概率是:
$r(c)$是更新进度。此式说明,随着不断的更新,概率会增加、最大化,与该参数相关的任务数量也会增加,由此学到inductive bias。
综上所述,在控制任务干扰的前提下学到inductive bias。
5. Experiments
5.1 数据集
Celeb-A:超过200k张名人图片,40种不同的面部属性,将40个属性划分为8组,每组创建一个属性预测任务,简化计算。
CityScapes:5000张街景图像,有像素级标注。7个语义分割、1个深度估计,共8个任务。
NYUv2:1449张室内图片,包含464种不同的场景。13个语义分割、深度估计、表面法线估计,共15个任务。
5.2 baselines
- MTL 标准完全共享网络,各任务权重相同
- GradNorm 完全共享网络,各任务权重可学习
- MGDA-UB 完全共享网络,将MTL看作多目标优化问题
- SE-MTL 参数划分方法,有可训练实值掩码
- STL 单任务模型,每个任务一个模型
5.3 面部属性检测实验
采用ResNet-18作为骨干网络
Roaming的影响:研究参数roaming对MTL性能的影响。图1左给出了Max Roaming方法与固定分区方法F-scores(更新全部完成时)随共享率$p$的变化。与固定分区相比,Max Roaming可以提升性能。
$\Delta$和更新进度$r(c)$的影响:$p$设为0.5,图1中给出了结果,当$\Delta$大于0.05时,$\Delta$越大,F-scores越大,所以$\Delta$不能过小;随着更新进行,F-scores增加。
随机选择的影响:更新时如何选择要更新的参数?MR是随机选择,从$i-$、$i+$所属的集合的均匀分布中选择。另外设计了一种确定性更新方法——根据最小化平均余弦相似度,选择最有可能为任务提供额外信息的参数,丢弃冗余参数。原则如下:
$K$是各参数的卷积核,图1右给出了确定性选择参数vs随机选择参数的F-scores,在更新初期表现差不多,随着更新的进行,MR方法优于确定选择方法。
表1给出了MR与其他baselines的总体比较。
5.3 场景理解
MR在另外两个数据集上的应用,表2-4给出了结果。
MR方法在语义分割、法线估计任务种表现最好,在深度估计中排第二。因为MR方法保留了inductive bias,可以提升比较相似的任务的性能(也就是分割任务)。与单任务相比,MTL随着任务数量增多性能可能会下降,可能不如单任务模型。
6. Conclusion
提出了Maximum Roaming——动态参数划分方法,以减少任务干扰,同时充分利用多任务带来的inductive bias,该方法使参数能够连续从尽可能多的任务中学习。与其他分区方法相比,更快,无需额外参数。实验将MR应用于卷积网络,实现了性能的提升。
code link:https://github.com/lucaspascal/Maximum-Roaming-Mutli-Task-Learning.