,近期 NLP 界的大语言模型 (Large LM) 引领了一波研究热潮 。有关大语言模型介绍的博文众多、此处推荐一下 Stanford 为此专门设计的一门课程(仅开源了讲义)。,Stanford CS324 – Large Language Modelsstanford-cs324.github.io/winter2022/,大语言模型当然也影响到了机器翻译领域。近一个月里 arxiv 上挂出了多篇相关的论文,而去年一年类似的工作基本都是在 WMT 比赛后作为参赛报告提交的。由此也可以窥见大语言模型对机器翻译的冲击。,这几篇论文展示的一些结果很有启发,尤其是本次 Google 发表的论文很有在未来改变机器翻译训练范式的潜质——尽管笔者认为论文的实验分析存在一些瑕疵,我也赞同论文标题对他们在 few-shot 机器翻译上效果的形容:unreasonable。,接下来笔者将针对论文进行简单介绍及评价。,The unreasonable effectiveness of few-shot learning for machine translation,机构:Google AI,链接:https://arxiv.org/pdf/2302.01398.pdf,本文的效果非常惊艳。作者声称只使用 decoder-only 的模型(类似PaLM) [https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html] 、中量级的单语数据做训练,再在infer时加上五组双语对,就能让 few-shot 机器翻译的结果追平甚至超过 WMT’21 竞赛的优胜模型。,作者使用了深度为 32 层、宽度为 4096 hidden+16384 的 FFW 大型 decoder-only Transformer 就在 100M 级别的单语语料上进行训练、模型参数量在 8B 左右。各语种的数据量见下表,,作者使用的单语语料数量级并不算大,由于采用了decoder-only的架构,作者使用了UL2的训练方法[https://arxiv.org/abs/2205.05131]。简言之,这种方法和 BERT 的 mask recover 自监督预训练很相似,只是添加了更多种类的噪音,并要求模型恢复被加噪音的token。,在 infer 阶段,作者给定了如下的 prompt 模板来让模型生成翻译结果,其中是从 dev set 中随机挑选的 5 个双语句子。还需要提及的是 MBR[https://arxiv.org/abs/2111.09388] 作为解码搜索算法而非 beam search。,,prompt 模板中规中矩,如此简单的步骤就完成了模型训练和 infer 的设置。,作者主要是和 WMT‘21 的前三模型以及自家的 LM 大模型 PaLM 做对比,所用的指标主要是自家的 BLEURT。,下表为大语种翻译的效果。一个有趣的点是三语训练的模型效果甚至比双语的还要好——这一点其实和以往多语言训练的经验有些不同(语种越多、大语种的效果往往越差)。,,两个大语种的翻译上,作者的模型追平或超过了往期冠军、甚至战胜了自家的 Google Translate 在线服务。,下表为小语种冰岛语的翻译效果。因为冰岛语较少,作者实际上是先在英、德单语上预训练,再在冰岛语单语上训练的(作者声称这种方法并不影响最终效果、只是为了训练启动更快)。有趣的一点是同为大模型的 PaLM 在小语种上效果很差,而本文的方法反而不错。,,小语种的翻译上不及往期冠军,但远超自家的大语言模型、比肩 Google Translate,此外论文还秀了一些术语翻译、风格化翻译的效果。这里仅介绍一个实验:作者使用了 IWSLT’22 的相关任务数据集(口语化翻译和书面语化翻译)。prompt 模板中填入的 dev set 被证实可以很好地控制翻译风格:,,UMD 是当期冠军。作者的 few-shot 展示了与之匹敌的效果,笔者首先要指出的是,论文的评测可能存在一些问题, 值得我们谨慎对待 :,,作者在附录中低调地报告了 BLEU 结果,比 SOTA 差 10 个点左右,,训练集和测试集的 overlap 衡量。测试集句子有 15 个 token 与训练集某句相同时,记为一次 overlap,*笔者在工作中也经常比较各大公司的翻译效果。在几家竞品翻译人工评估结果相似的情况下,BLEURT 最偏好 Google Translate 的结果,有可能是两者用了相同的训练数据。,*按照之前笔者参与 WMT 比赛的经验,有一个常见的竞赛的 trick 是在往期的 dev set 上做微量精调[https://aclanthology.org/W19-5341.pdf], 此法可以小幅度提升 BLEU 值( 1-3 BLEU),这是因为 WMT 对 dev/test set 的译文风格有着较强的一致性控制。笔者按照本文的方法测量了往期 en-de 的 dev/test set 的 15 token 重合度,都不超过 0.3%,侧面说明作者的 overlap 指标有缺陷。此外,德语、冰岛语作为屈折语,同个单词的词形变化非常地丰富,不清楚作者算 overlap 时有没有对单词做 stemming。,但即便论文实验上有缺陷、行文也多少有些 overclaim,笔者认为这篇论文足够惊艳。,其一,作者的这一套方法几乎不依赖双语数据、对单语数据的要求也很少,唯一的门槛在于模型较大 (8 B)。然而在可见的未来,大语言模型作为大势所趋,这个量级的模型的部署和训练也会越来越容易、也会有更多类似 BLOOM 的开源。即便作者的方法不能完全打败传统双语训练的模型,也极大地降低了机器翻译模型的门槛,尤其是数据门槛。,其二,作者的方法对于小语种翻译模型的训练范式(尤其是无监督机器翻译)可以说是降维打击。,其三,则是告诉我们大规模语言模型还有很多神奇性质。之前的 seq2seq 范式下,单语 pretrain +双语 few-shot 的效果并不好,很多时候得要用 Back-translation 等才能达到合格的水平。而本文通过把模型加大就直接解决了该类问题。Large LM 的潜力比我们预想的强。,此外还有一小点:风格化翻译、术语翻译、特定领域是上一代机器翻译没有很好解决的问题,本篇论文给了一些 prompt 上的经验参考,可以说是给了一种低开销的 prompt 方案(考虑到近期 NLP 社区也都在用 prompt 和 context learning 的方法来做这些任务了,没有这篇论文,这类问题的技术路径也是大体确定的)
© 版权声明
文章版权归作者所有,未经允许请勿转载。