选自arXiv
作者:XinsongZhang、李航机器之心编译编辑:杜伟、小舟自谷歌BERT模型问世以来,各式各样的BERT变体模型在自然语言理解任务上大显身手。近日,字节跳动AI实验室李航等研究者提出了一种新型多粒度BERT模型,该模型在CLUE和GLUE任务上的性能超过了谷歌BERT、Albert、XLNet等。
BERT等预训练语言模型在自然语言理解(NaturalLanguageUnderstanding,NLU)的许多任务中均表现出了卓越的性能。可以看到,模型中的token通常是细粒度的,对于像英语这样的语言,token是单词或子词;对于像中文这样的语言,则是单个汉字。例如在英语中有多个单词表达式构成的自然词汇单元,因此使用粗粒度标记化(tokenization)似乎也是合理的。实际上,细粒度和粗粒度标记化对于学习预训练语言模型都各有利弊。近日,字节跳动XinsongZhang、李航两位研究者在细粒度和粗粒度标记化的基础上,提出了一种新的预训练语言模型,他们称之为AMBERT(一种多粒度BERT)。在构成上,AMBERT具有两个编码器。对于英文,AMBERT将单词序列(细粒度标记)和短语序列(粗粒度标记)作为标记化后的输入,其中使用一个编码器处理单词序列,另一个编码器处理短语序列,并利用两个编码器之间的共享参数,最终分别创建单词和短语的上下文表示序列。论文链接: