第五十一章 注意力即所有(2 / 2)
在撰写论文题目的时候,苏飞一字一顿地打上标题。
【注意力即所有(attention is all you need)】
这种有些狂妄的论文标题很像是一些初出茅庐的小子,不知天高地厚而一时中二取的标题。
苏飞的确是初出茅庐的小子,但他坚信,以注意力机制构建的模型单元担得起这个论文题目。
【目前的主流模型结构都是基于复杂的循环神经网络或者卷积神经网络而构造的编码器-解码器架构。如果在编码器-解码器架构中再加一层注意力机制,那么这个模型的性能就会变得更好。】
【但是,迄今为止从没有人仅用注意力机制构建出一个编码器-解码器架构的模型。本文提出一个新的模型,其舍弃主流的模型架构,单纯采用注意力机制,并引入多头注意力机制与位置向量的概念解决目前注意力机制中的两个难点,其具体的模型构造为……】
【……基于上述的理论,此模型并不局限于自然语言处理领域,其独特的并行运算结构能适用于人工智能领域的任何问题,并且大大提升训练速度,因此,本文将该模型命名为变压器(transformer)。】
这也算苏飞的一个小趣味,transformer在英文中不止是变压器,更有变形金刚的意思,而这个模型的确就如同变形金刚一样,非常灵活多变,能适应各种任务。
↑返回顶部↑