Attention Is All You Need
论文地址¶
解析视频¶
摘要¶
Cite
显性序列转导模型基于包括编码器和解码器的复杂递归或卷积神经网络。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构, 即Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。对两项机器翻译任务的实验表明,这些模型在质量上更胜一筹,同时可并行化程度更高, 并且需要的训练时间明显减少。我们的模型在WMT 2014英德翻译任务中达到了28.4BLEU,比现有的最佳结果(包括集成)提高了超过2BLEU。在WMT2014英法翻译任务中, 我们的模型在八个GPU上训练3.5天后建立了一个新的单模型最先进的BLEU分数41.8,这是最好的训练成本的一小部分来自文献的模型。 我们表明,Transformer通过将其成功应用于具有大量和有限训练数据的英语选区解析,可以很好地泛化到其他任务
一开始Transformer的提出是为了做NLP的翻译任务。RNN是按照序列顺序依次编码计算,这导致无法进行大规模的并行化计算。
方法¶
多头注意力机制,是为了实现类似CNN多通道输出的效果。CNN的一个好处就是可以有多个通道的输出,可以理解成识别多种不同的特征,本文为了实现同样的能力,
采用了多头注意力机制。本文是第一个只使用自注意力机制实现类似编码、解码的网络结构。
总结¶
Cite
在这项工作中,我们提出了Transformer,这是第一个完全基于注意力的序列转导模型,用多头自注意力取代了编码器-解码器架构中最常用的循环层。 对于翻译任务,Transformer的训练速度明显快于基于循环层或卷积层的架构。在WMT2014英德和WMT 2014英法翻译任务中,我们都达到了新的水平。 在前一个任务中,我们最好的模型甚至优于所有先前报告的集成。我们对基于注意力的模型的未来感到兴奋,并计划将它们应用到其他任务中。 我们计划将Transformer扩展到涉及文本以外的输入和输出模式的问题,并研究局部的、受限的注意力机制,以有效处理图像、音频和视频等大型输入和输出。 减少生成顺序是我们的另一个研究目标。我们用于训练和评估模型的代码可从 https://github.com/tensorflow/tensor2tensor 获得。
将Transformer应用到NLP之外的领域中,相比于RNN由于可以并行训练效率更好
推荐阅读¶
[1]. 强烈推荐李沐的论文解析视频 [2]. 68 Transformer【动手学深度学习v2】