训练模型|算法自动“划重点”AI学会“抱佛脚” TLM|基准模型|改进模型|损失函

预训练模型的兴起给自然语言处理（NLP）带来了“新面貌” 。
近年来，Google、Facebook、OpenAI、微软、百度等人工智能“头部玩家”推出多个颇具影响的预训练模型，并反复迭代出十多个版本。无论学术界还是业界，人们对大规模预训练模型“热情高涨” 。
日前，来自清华大学的一支研究团队提出一种简单高效的NLP学习框架。不同于当下NLP社区主流的“大规模预训练+下游任务微调”的范式，这一框架无需进行大规模预训练，同时将训练效率提升两个数量级，并在多个NLP任务上，实现了比肩甚至超出预训练模型的性能。近日，相关研究以预印本形式，在arXiv上发表。
预训练模型的“内功”
预训练模型在自然语言处理领域蓬勃发展，近年来在多个子方向取得了颠覆性的成果。
【训练模型|算法自动“划重点”AI学会“抱佛脚”】“自然语言处理的‘预训练’过程，就像武侠小说中，练武之人的‘修炼内功’ 。”上海对外经贸大学副研究员邵浩说，“一个人要成为武林高手，需要有扎实的“内功”，内功修炼好之后，再去学各种招式就非常容易上手，并能发挥其最大效用。”
随着深度学习的发展，模型参数显著增长，从而需要越来越大的数据集，用于充分训练模型参数。然而，因大部分NLP任务的标注成本极为高昂，尤其是句法和语义相关的任务，构建大规模标注数据集尤为困难。
相比较而言，大规模无标注数据集相对易于构建。为更好地利用海量无标签文本数据，常规的做法是首先从这些数据中学到较好的文本表示，然后再将其用于其他任务。许多研究表明，在大规模无标注语料中训练的预训练语言模型，可以使多方面NLP任务获得显著的性能提升。
通过海量无标注语料来预训练神经网络模型，可以让人工智能更利于下游NLP任务的完成。预训练模型的作者已经设计出了基准模型，这样，使用者就可以在自己的NLP数据集上应用该模型，而无需从头开始构建模型来解决类似的问题。尽管后续过程需要进行一些微调，但这为人们节省了大量的时间和计算资源。
2018年，无监督的双向预训练语言模型ELMo被提出，这种上下文相关的文本表示方法在多个典型任务上表现惊艳，能有效处理一词多义问题。紧随其后，GPT，BERT等预训练语言模型相继被提出，预训练模型技术开始在NLP领域大放异彩，并在各种下游任务中遍地开花。
任务驱动模型出场
“预训练语言模型因其强大的性能被广泛关注，基于‘预训练—微调’的范式也成为许多NLP任务的标准方法。”清华大学交叉信息研究院助理教授、RecurrentAI联合创始人杨植麟对《中国科学报》说，“然而，当前通用语言模型的预训练成本极其高昂，这使得只有少数资源充足的研究机构或组织能够对其展开探索。”
为解决上述问题，杨植麟团队提出的一种完全不需要预训练语言模型的高效学习框架。这一框架从通用语料中筛选出与下游任务相关的子集，并将语言建模任务与下游任务进行联合训练。
该论文第一作者、清华大学计算机科学实验班（姚班）大四本科生姚星丞介绍说，提出任务驱动的语言模型的想法源于一个基本的观察：人类可以通过对关键信息的学习，在有限的时间和精力投入情况下，快速掌握某一任务技能。例如，在临近考试时，学生仅根据考纲复习浏览若干相关章节的要点即可应对考试，而不必学习所有可能的知识点。与之类似，预训练语言模型在某一下游任务上的优良表现，“很有可能因为来自于语料中与下游任务相关的数据” 。

训练模型|算法自动“划重点”AI学会“抱佛脚”

推荐阅读

形容蓝色天空的句子形容蓝色天空的句子精选

化橘红的功效与作用什么是化橘红

菱角要煮多长时间才能熟如何打开菱角的壳

寒菌炖肉的做法（寒菌炖肉做法）

彩虹猫病毒修复

客有之琼州者属其访丘文庄海忠介二公祠宇原文、作者

家庭教育指导师证怎么考取怎么考家庭教育指导师证

麻辣腌肉的腌制方法

现在去三亚旅游穿什么衣服合适

查摆是什么意思查摆具体是什么意思

心血管病人的最适宜锻炼时间

机采茶园茶树冠的培养技术

请问南京南下车从白下区到月牙湖花园乘几号地铁白下区

青岛周边游

于月仙是赵本来自山哪个老婆的妹妹

微信账号异常是怎么回事异常的原因是什么

云闪付付款码多久有效

比较有深意的英文句子比较有深意的英文句子有什么

红土豆和白土豆的区别红土豆和白土豆有什么区别

龙利鱼|清蒸龙利鱼