Microsoft详细介绍了可以在94种语言之间进行翻译的T-ULRv2模型


同一周,Facebook开源了M2M-100,这是一种可以在100多种语言之间进行翻译的AI模型,微软详细介绍了自己的算法-图灵通用语言表示(T-ULRv2)-该算法可以解释94种语言 。该公司声称T-ULRv2在XTREME(由Google创建的自然语言处理基准)中取得了最佳结果,并将在其通过Azure进行私人预览之前,将其用于改进Word中的语义搜索以及Outlook和团队中的建议答复之类的功能 。
T-ULRv2是Microsoft Research与Microsoft Turing团队之间的联合合作,包含总计5.5亿个参数或模型所利用的内部变量进行预测 。(相比之下,M2M-100大约有150亿个参数) 。微软研究人员在Web上的多语言数据语料库上训练了T-ULRv2,该语料库由上述94种语言组成 。在训练期间,该模型学会了通过预测不同语言句子中的被屏蔽单词来进行翻译,偶尔会借鉴成对线索(例如英语和法语)中的上下文线索 。
正如Microsoft副总裁Saurabh Tiwary和助理董事总经理Ming Zhou在博客中所指出的那样,XTREME基准测试涵盖了40种语言,涵盖12个家族和9个任务,需要对不同语法级别进行推理 。选择语言以最大程度地提高多样性,覆盖现有任务以及提供培训数据,并且这些任务涵盖了一系列范式,包括句子文本分类,结构化预测,句子检索和跨语言问题解答 。为了使模型在XTREME基准测试中获得成功,他们必须学习可以推广到许多标准跨语言传输设置的表示形式 。
T-ULRv2平均击败了阿里巴巴(VECO)的最佳模型 。它也超过了微软的FILTER,谷歌的XLM-R和纽约大学的X-STILTs的性能 。Tiwary和Zhou写道:“微软Turing团队长期以来一直认为语言表示应该是通用的 。”“我们(最近)提出了一种以无监督方式训练语言不可知表示的方法 。这种方法可以使训练后的模型以一种语言进行微调,然后以零射的方式应用于另一种语言 。这将克服要求标签数据以每种语言训练模型的挑战 。”
关于T-ULRv2产生偏见的可能性及其对一般知识的掌握程度,评审团将进行评判 。一些研究表明,诸如XTREME之类的基准不能很好地衡量模型的知识,而诸如T-ULRv2之类的模型可能会表现出毒性和对人群的偏见 。但是无论如何,该模型都朝着微软宏伟的“大规模AI”愿景迈出了一步,该愿景旨在通过训练越来越多的数据和计算算法来提高AI能力 。该公司已经使用其Turing系列模型来增强对Bing,Office,Dynamics及其其他生产力产品的语言理解 。
还不清楚像T-ULRv2这样的模型的大小将来可能会在多大程度上与性能提高相对应 。一个研究,研究人员在麻省理工学院发表的发现,在深度学习的进展已经在计算和不断进步的增加强烈的依赖就需要极大计算效率更高深的学习方法,无论是通过改变现有的技术,或通过新的尚未发现的方法 。另一方面,OpenAI调查发现,自2012年以来,在流行基准(ImageNet)中将AI模型训练为具有相同性能以对图像进行分类所需的计算量每16个月减少了两倍 。

推荐阅读