机器之心报道
机器之心编辑部
复旦大学、萨里大学和华为诺亚方舟实验室的研究人员首次提出了一种softmax-free Transformer。
Vision Transformer (ViT) 通过 patch-wise image tokenization 和 self-attention 机制在各种视觉识别任务上取得了 SOTA。 但是self-attention模块的使用使得类Transformer模型的空间和时间复杂度都是O(n^2)。 自然语言处理领域的研究人员进行了各种尝试,使自注意力计算接近线性复杂度。
近日,复旦大学、萨里大学和华为诺亚方舟实验室的研究人员进行了深入分析,发现这些尝试要么在理论上存在缺陷,要么在实验中对视觉识别无效。 并且进一步发现这些方法的局限性在于在逼近过程中仍然保持softmax self-attention。 具体来说,传统的自注意力是通过标准化标记特征向量之间的缩放点积来计算的。 维持这个 softmax 操作阻碍了 Transformer 线性化的复杂性。 基于此,本研究首次提出了一种无softmax的Transformer(softmax-free transformer,SOFT)。
为了去除self-attention中的softmax,使用高斯核函数(Gaussian kernel function)代替点积相似度,没有进一步归一化。 这使得通过低秩矩阵分解来近似完整的自注意力矩阵成为可能。 近似的稳健性是通过使用 Newton-Raphson 方法计算其 Moore-Penrose 逆来实现的。 在 ImageNet 上的大量实验表明,SOFT 显着提高了现有 ViT 变体的计算效率。 至关重要的是,对于线性复杂性,SOFT 中允许使用更长的标记序列,从而在准确性和复杂性之间实现卓越的权衡。