ICLR2020上Transformers有何新动向

雷锋网AI科技评论:继昨天的「知识图谱@ICLR2020」之后,我们今天关注ICLR 2020 上 Transformer的研究动态。

Transformers,作为一种基于注意力的神经架构,在自然语言处理中已经无处不在,在过去一年多的时间里也将自然语言处理推向了新的高度。那么,在ICLR 2020 上有什么新的内容呢?在这篇文章中,我们从三个维度:对架构的修改、训练方法的创新以及应用——介绍相关的 9 篇文章。

波特兰市长惠勒连日来不断批评特朗普“公然滥用权力”。7月19日,惠勒对CNN表示:“联邦政府使紧张局势直接升级了。”他还在一份声明中表示,“联邦政府直接干预波特兰的行为是未经邀请、未经训练以及不受欢迎的。事实上,我们希望他们(联邦执法人员)离开。”

截至5月15日24时,全市累计报告境外输入确诊病例8例,已治愈出院4例,在院隔离治疗4例。

据美国新闻聚合网站BuzzFeed News报道,抗议者7月15日拍摄的视频显示,在波特兰街头,身穿迷彩服、未佩戴证件的联邦执法人员驾驶没有任何标识的车辆,在未向当事人说明的情况下,当街抓捕抗议者并驾车离开。

为了解决这个问题,BERTScore提出了一种新的度量标准,利用来自BERT的预训练上下文嵌入,并通过余弦相似性匹配候选和参考句子中的单词。

在预训练阶段结束之后,只使用Discriminator作为下游任务精调的基模型。

惠勒的评论与俄勒冈州州长凯特·布朗的说法相呼应,后者将特朗普政府“联邦军队”的到来描述为“纯粹的政治秀”。

6、加入现实世界知识

关键点是,作者提出了一个长短距离注意力(Long-Short Range Attention,LSRA),其中一组heads专门(通过卷积)对局部上下文进行建模,另一组heads(通过注意力)对长程关系进行建模。

这个模型虽然在最终结果上与那些大型Transformer不可比,但1)其研究动机;2)其创新性的架构,值得我们重点关注。

换句话说,作者们把CV领域的GAN运用到了自然语言处理。

ELECTRA能够取得如此优异结果,基于其新颖的预训练框架,其中包含两个部分:Generator和Discriminator。

“哎呦,援建医院危险性太大了哟,宝宝才满月,小希刚出月子也需要照顾,你可要考虑清楚。”林强的妈妈一脸担心。妻子沉默一会后抬头盯着林强的双眼,“你去支援建设,我尊重和支持你,但你要答应我,平平安安地回来。”林强的鼻子一酸,满脸内疚地说:“放心,平安归来是我和你的约定!”

实施网格化管理。制定《关于强化网格化管理,加强分级分区管控工作方案》,进一步调整完善了“五位一体”包保体系,落实了市级领导、街道党(工)委、包保部门、社区、小区的疫情防控责任,确保管控到每一户每一人。

5月15日0-24时,舒兰市新增本地确诊病例1例。截至5月15日24时,舒兰市累计报告本地确诊病例16例。累计报告本地确诊病例的密切接触者453人,均在指定地点进行隔离医学观察。

使用可逆残差层取代标准残差层,在训练阶段只需要存储一层的激活结果而不是N层(N是网络层数)(消除了网络中N的倍数)。 分离前馈全连接层的激活部分,分区块进行处理,消除对内存的消耗。 使用局部敏感哈希(Local-Sensitive Hashing, LSH)技术把计算attention部分的复杂度O(L²)(主要来自于点乘)从降至O(L log L)(其中L代表序列长度)。

“今年情人节就在项目上过了”

Transformer架构重要,训练方法也同样。在今年的ICLR上出现了不少令人耳目一新的训练方法。

新冠肺炎疫情发生以来,舒兰市在5月7日之前,一直没有本土病例。3月份以来,国内疫情趋于平稳,国外疫情严重暴发,旅居国外特别是俄罗斯的舒兰籍人员纷纷辗转回舒。舒兰市采取严格的防护和隔离措施,从绥芬河、满洲里等口岸城市“点对点”转运回313人。

“长大后,我要成为你!”

5月7日,舒兰市报告首例本地确诊病例。按照国家新冠肺炎疫情分区分级标准,5月9日将舒兰市风险等级由低风险调整为中风险,5月10日将舒兰市调整为高风险。舒兰市出现本土病例后,舒兰市委、市政府迅速行动,全面进入战时状态,采取最严格的管控措施,全力以赴做好疫情防控工作。

由于疫情影响,孙宇峰返回北京环球影城项目的时间被推迟了。2月8日,公司发出支援深圳三院的招募贴,没能抢到雷神山支援名额的他,立马报名参加,这次他终于抢到了一个名额。第二天晚上,他打着“飞的”从吉林老家赶到陌生的深圳,拖着行李在会议室立下了自己的军令状。

值得注意的是,尽管与GAN的训练目标相似,但仍存在一些关键差异。首先,如果生成器碰巧生成了正确的token,则该token被视为“真实”而不是“伪造”;所以模型能够适度改善下游任务的结果。更重要的是,生成器使用最大似然来训练,而不是通过对抗性训练来欺骗判别器。

7、用BERT评估文本生成

“这么重大的防疫项目,我们深化设计部门能做得,就是尽可能在设计环节,在确保绝对安全加快施工速度。”孙宇峰通过BIM样板引路,实现劳务可视化交底,提高劳务队伍的生产效率。项目现场利用机电管道预置化生产与装配式吊装工艺,利用BIM深化图纸进行管道预置化安装,实现地面拼装后整体提升就位,缩短工时近三天。同时,机电管道穿墙处采取严格的密闭措施,确保病房负压,最大限度确保防疫的绝对安全。

这篇工作来自 UCSB 计算机科学系助理教授王威廉等人的研究。随着现在 Transformer 的性能与人类水平之间的差距越来越小,许多经典的NLP数据集事实上已经过时了。因此,若想更近一步研究,就需要创建一个更具挑战性的新基准。在这种背景下,作者提出了一个新的数据集,用来解决以自然语言表达的基于事实的信息进行建模的问题。

感受一下ELECTRA的效果:

一个N层的网络需要的内存资源要多于一层所需内存的N倍,因为同时需要存储激活结果,在反向传播时使用。 Transformer前馈全连接神经网络的宽度(神经单元数)要比attention激活的宽度(可理解为embedding的size)多,需要更多的内存消耗。 对一个长度为L的序列,Attention层的复杂度是,这对长序列文本处理是无法接受的。

强化小区封闭管控。按照“到位、规范、严格、准确、温暖”的原则,制定了《舒兰市全面加强居民小区封闭管理工作实施方案》,细化了小区封闭管控、居家隔离管控、环境整治消杀、疫情防控知识宣传教育等措施要求和操作规范流程,做到严封闭、管得住、有保障。全市管控封闭居民楼1103栋,农村封闭村屯1205个。

嵌入向量参数化的因式分解:通过使用与词嵌入大小不同的隐藏大小,可以对嵌入参数化进行因式分解,将其大小从O(Vocab×Hidden)减小为O(Vocab×Emb + Emb + Emb×Hidden),当 Hidden >> Emb时,这种减小会有实质性意义。

“爸爸,你要保护好自己,建完医院就回来看我!”张军辉的儿子举着橡皮泥捏的建筑人说,“这是爸爸,长大后,我要成为你这样的工程师!”看着这段十几秒的视频,张军辉这个西北汉子反复看了十几遍。

结果?与BERT-Large相比,参数可减少18倍,性能相当,推理速度稍快。

预训练语言模型的最新进展表明,自监督学习对于多种自然语言处理(NLP)任务的有效性。除了标准的语法和语义NLP任务外,预训练的模型还对涉及真实世界知识的任务进行了大幅度改进,这表明大规模语言建模可能是捕获知识的隐式方法。

美官员批特朗普“公然滥用权力”

2月14日是高嘉伟和刘芮这对情侣奋战在深圳“小汤山”医院一线的第11天。当爱情遇上疫情,他们今年的情人节“白色战袍”替代了风花雪月,消毒水的味道替代了玫瑰花香。对他们来讲,“同一战壕共同抗疫,就是最好的情人节!”

数据集由Wikipedia的16k 的表和118k人工注释的语句组成,这些语句带有ENTAILMENT或REFUTED标签来引用事实数据。

“保证3天内完成BIM的样板引路!”中建二局安装公司BIM深化设计师孙宇峰,面对自己“抢”到任务立下军令状。在整个工区,鱼骨鱼翅交界处综合管线布置最为复杂,其管线密集、交叉严重,且需同时满足医疗控制标高,是“难啃的硬骨头”,BIM的样板引路就起到了关键作用。

Generator: 一个小的MLM,在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。

然而,暴力对待抗议人群的并非只有联邦执法人员。早在6月,波特兰警方就因多次向抗议者使用催泪瓦斯而遭到指控和调查。

美国前联邦政府官员也对特朗普政府“插手”波特兰事务的长期影响表示担忧。奥巴马政府国土安全部前高级官员约翰·桑德韦格说:“现任政府和国土安全部的领导层对该机构的声誉造成了极大的损害,这威胁到了公共安全。这届政府的所作所为是毁灭性的。”

据英国广播公司(BBC)报道,特朗普部署的联邦执法人员到达波特兰市后,向抗议人群喷射催泪瓦斯。美国国土安全部代理部长沃尔夫之前还称抗议者为“暴民”。

这个过程其实非常简单,不涉及任何微调,仅进行预训练的上下文嵌入,以及余弦相似度和基于频率的重要性加权。

加强隔离管控。开展了流调排查重点人员与已集中隔离人员调查工作,确保密接人员、次密接人员精准隔离到位。截至5月15日20时,我市共设立隔离点15个,已启用13个。正在改建隔离点3个,已建隔离房间510个。在隔离点和居民小区免费为群众发放中药液,提高群众免疫力。

“今年情人节就在项目上过了,反正俩人在一起就行。不过现场很忙,每天几乎只有三次安全报到的时候才能见到,有时连打个招呼的时间都没有,今天我还没和她说上话呢!”高嘉伟说完就投入了新一轮的安全巡查。

发布会上,金华首先通报了舒兰市目前疫情情况。

Transformer是NLP中广为应用的成熟技术,在许多任务中取得了骄人的成绩,尤其是长序列文本上表现突出,但却极其耗费算力和内存资源,Transformer网络一层的参数量约0.5B,需要2G的内存空间,单层网络的Transformer在单台机器上尚可满足,但鉴于以下考虑,整个Transformer网络所需要的资源是惊人的:

中建二局从“两山”医院到沈阳六院,从蚌埠市一院到广西防疫工程,从广东省二院到深圳三院,圆满完成7座防疫医院的建设任务。每一次抗“疫”建设任务的完成,都更加坚定我们战胜疫情的信心,我们必将打赢这场疫情防控的人民战争、总体战、阻击战。

张军辉是中建二局安装公司深圳分公司副总经理,春节在成都东安湖体育公园项目坚守。2月3日,接到紧急通知后,他二话没说赶赴深圳,牵头组建“先遣队”,紧锣密鼓地组织开展援建工作。他用3天时间确立了7家高质量、高标准施工专业队伍,628名工人从四川、河南、山东等地向深圳汇聚。

在松散定义的环境(即生成连贯的文本)下,客观地测量生成质量,具有很大的挑战性。传统上,BLUE分数作为文本相似性的代名词,虽然被广泛应用(例如翻译、问答),但在长文本生成任务中却显得不那么完美。

延伸阅读 吉林通报2例确诊轨迹:1人在医院工作多次乘公交上班 吉林新增本地确诊2例 均与此前确诊病例有关联 舒兰市委书记李鹏飞被免职 由吉林市副市长兼任

上周,波特兰的抗议者与联邦执法人员冲突升级。据《纽约时报》报道,当地时间20日晚,上千名抗议者走上街头,控诉联邦执法人员在过去一周的残暴镇压。

目前这个任务的基准性能仍然处于中等水平,仍然大有可为。

新增病例,张某,女,1980年出生,与5月10日吉林省通报的舒兰市确诊病例10有关联。通过发热门诊主动筛查核酸检测阳性,5月15日经省、市专家组会诊,诊断为确诊病例。

从2月14日起,5天的大干中,张军辉总共睡了不到16个小时。从安排现场及后勤防疫,到协调物资,再到牵头技术方案,这个西北汉子的嗓子变得沙哑起来。“项目现场距离深圳市收治新冠肺炎的第三人民医院只有咫尺之遥,防疫工作,没有万一!”他和团队想方设法提速工期,与时间赛跑,创深圳速度。

千里奔袭立下“BIM军令状”

Transformer不仅与语言建模有关,在一些相关问题上也有一些巧妙的应用。

“老婆,我们顺利完成任务了,你放心,我很健康,我遵守了我们的约定,等隔离完就回来见你和女儿。”林强完成手头的项目收尾工作后,迫不及待地给妻子发了一通视频电话。

这篇文章通过下面几项技术解决上面提到的几个问题:

据美国有线电视新闻网(CNN) 21日报道,一名海军老兵称,他在波特兰参加第一次抗议活动的时候就被当地警方殴打并喷洒胡椒水。“我当时只是站在执法人员面前,并未携带任何武器。他们用胡椒水喷我,用棍棒打我的手臂、小腿和腰部,直到我离开那里。”

为了解决这些问题,谷歌研究人员提出了「一个精简的 BERT」(A Lite BERT,ALBERT),参数量远远少于传统的 BERT 架构,而性能方面则基本一致。

当地时间7月20日,特朗普称将派出更多联邦政府执法人员进入美国各地城市,以镇压反种族主义抗议活动。随后,芝加哥市市长在社交媒体公开表示,她绝不允许军队进入芝加哥,会竭尽全力阻止特朗普。21日,伊利诺伊州参议员塔米·达克沃斯接受CNN采访时表示,这是在滥用权力,她还对特朗普“放话”:想都不要想!

一个由上百名母亲自发组成的队伍也在抗议人群中,她们中的多数人身穿黄色衣服,以实际行动声援市民的抗议活动。自从波特兰抗议现场冲突升级以来,由母亲组成的队伍已多次站在抗议最前线。

全年完成水运建设投资1137亿元,比上年下降4.4%。其中,内河建设完成投资614亿元,下降2.3%;沿海建设完成投资524亿元,下降6.8%。全年完成公路水路支持系统及其他建设投资420亿元。全年完成民航建设固定资产投资969.4亿元,比上年增长13.0%。

Transformer 要实现高性能,需要大量计算,这显然不适用于受硬件限制的移动设备。在这篇文章中,作者提出了一种高效的移动端的轻量级的 Transformer,以此来促进在边缘设备上部署NLP应用程序。

ALBERT的优化包括三个方面

高嘉伟和刘芮是中建二局安装公司的一对小情侣,今年是他俩第一次回山东老家过年。2月3日,当得知项目建设急需人员时,他俩第一时间决定报名,连夜赶到深圳投身到这场无声的抗疫大战中。刘芮主要负责现场医疗防护用品及其他后勤物资的采买和发放,高嘉伟要为工友们做好入场安全教育和防疫知识普及,还要负责现场的安全管理。每天都有新的工友进场,最多的一天有200人,为确保每位工友的安全和个人物资供应,这对恋人每天都要工作到凌晨甚至通宵。

曾经,预训练是大模型(玩家)的天下,直到出现了 ALBERT。

相较于BLUE,这种度量方法会失去一些可解释性。这种学习型评分标准是否能成为新的评价标准呢?时间会给出答案。

作为中建二局华南公司派出队伍的施工现场组组长,林强不仅自己要第一时间奔赴施工现场,也要立即组织施工团队参加建设。时间紧,任务重,在奔赴项目现场途中,林强经过多方联系,最终成功组建了一支援建施工团队,并约定于2月5日全员启程赶赴施工现场。作为施工组组长,林强不仅高效地协调着现场任务,更把落实现场同事和工友们的防疫措施当成重点任务,他知道,他们身上也承载着与最爱的人许下的“安全回家”的承诺。

在这篇文章中,作者提出了一个简单而有效的弱监督预训练目标。这个目标明确强迫模型纳入有关现实世界实体的知识。使用这个新目标训练的模型在「事实完成」(fact completion)任务上有较大改进。当应用于下游任务时,他们的在多个任务(如问答、实体键入)上性能都优于BERT。

预训练自然语言表征时,增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法在未来会越发困难。进一步增加模型大小将带来三点困难:1)GPU/TPU内存不足;2)训练时间会更长;3)模型退化。

随后,金华介绍舒兰市防控工作采取的主要措施及进展情况。

跨层参数共享:重新使用不同 Transformer 模块的参数,例如FFN 或注意力权重。句子间顺序预测:作者认为从原始的BERT预测下一个句子并不是什么有挑战的事情,因此引入了新的句子级自监督目标。

全面开展核酸检测工作。目前,舒兰市共有核酸采样的医护人员530名。国家卫健委支援一座负压帐篷式移动实验室,每日提供2000份以上检测能力。吉林省卫健委将全省检测机构优先向舒兰市开放。及时发布与确诊病例相关联的重点场所寻踪公告。科学调配采样医护人员,建立了“六个一”检测模式,确保做到检测高效、流调及时。按照应检尽检、愿检尽检、能检尽检要求,重点围绕所有密接人员、次密接人员和确诊病例所在的住宅小区、重点场所以及高风险人群开展了核酸检测,截至5月15日,累计进行核酸采样19228人次。