Introduction
注意机制,特别是通道注意,在计算机视觉领域取得了巨大的成功。许多研究集中在如何设计有效的通道注意机制,而忽略了一个基本问题,即使用全局平均池化(GAP)是否存在问题。在这项工作中,本文从一个不同的视角出发,用频率分析重新思考通道注意。在频域分析的基础上,用数学方法证明了全局平均池化(GAP)是频域特征分解的一种特例。通过证明,自然地将通道注意机制的预处理推广到了频域,并提出了一种新的多谱通道注意网络。该方法简单有效。只修改计算中的一行代码,以在现有的通道注意方法中实现本文的方法。在图像分类、目标检测和实例分割等任务上,与其他通道注意方法相比,该方法取得了最先进的效果。与基线SENet50相比,在相同的参数数量和计算成本下,本文的方法在ImageNet上的Top-1精度提高了1.8%。
论文信息
作者信息
浙江大学(李玺团队)
Motivation
- 通道注意力大都通过GAP实现,尽管GAP(global average pooling)算法简单有效,但它存在一个潜在的问题,即不能很好地捕捉到丰富的输入模式信息,从而在处理不同的输入时缺乏特征多样性。因此,出现了一个自然的问题,是否均值信息仅足以代表渠道注意中的各种渠道。
Contribution
- 证明了GAP是离散余弦变换(DCT)的一个特例,等价于离散余弦变换(DCT)的最低频率,仅使用GAP等价于丢弃特征信道中包含大量有用信息的其他频率分量。在此基础上,本文将通道注意推广到频域,提出了具有多谱通道注意框架的FcaNet。
- 提出了一种选择频率分量的两步准则,探讨了使用不同数量的频率分量及其不同组合的效果。
- 方法简单,改进一行代码即可。
Method
Revisiting Channel Attention and DCT
Channel Attention
输入
C是通道数
注意力
注意力机制输出
Discrete Cosine Transform (DCT)
一维DCT
输入:$x \in \mathbb{R}^{L}$
离散余弦转换频谱:$f \in \mathbb{R}^{L}$
二维DCT
反变换
GAP
由上可见全局平均池化(GAP)是频域特征分解的一种特例(只保留低频信息)
Multi-Spectral Channel Attention
现有的通道注意所使用的信息不足,而通道注意间GAP预处理方法是二维DCT的特例。这样就可以很自然地将GAP推广到2D DCT中更多的频率分量,引入更多的信息来解决信道注意信息不足的问题。
将通道C划分成多个C’的通道,分别进行不同频率分量的DCT运算
主要思想是首先确定每个频率分量的重要性,然后确定使用不同数量的频率分量一起使用的效果。
Experiments
在ImageNet上使用不同频率分量的频道注意的最高精度
确定每个频率分量的重要性(性能)
选择不同数目频率分量的准确性
选取性能最高的K个频率分量
ImageNet
COCO
研究更多的频率组合
选取Top-k频率分量的最优结果:78.52%