NLP新基准SuperGLUE榜单刷新:追一科技超越Facebook跃居第二
admin
2020-01-27 01:58:40
0

近日,自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一,中国AI创业公司追一科技AI Lab团队超越FacebookAI,跃居榜单第二。值得注意的是,相比谷歌T5等超大规模研究型模型,追一此次登榜的RoBERTa-mtl-adv模型在商业化能力也非常强劲,相关技术已经落地到追一科技的AI数字员工产品线上,持续赋能银行、保险、证券、零售、地产、能源,教育,互联网等多个行业。

追一科技跃居SuperGLUE测试榜第二

SuperGLUE(SuperGeneral Language Understanding evaluation)是当下NLP领域难度最大,权威性最高,含金量最足的测评标准之一

,由纽约大学、华盛顿大学以及谷歌旗下的DeepMind联合Facebook作为主要发起人推出,最大程度涵盖了现实生活中可能遇到的不同类型的NLP任务,旨在更真实地反映当前最前沿的NLP技术可以达到的认知智能水平。

追一科技在为企业提供智能交互服务的过程中,技术和应用互相驱动,将实际商业化应用中总结出的多任务学习、对抗训练、知识蒸馏等技术手段和经验融入到参赛模型中,并在SuperGLUE测评数据集上拿到第二的成绩。

除去作为参照的人类水平,目前排名榜单第一的是Google的T5模型。从学术研究看,T5模型达到了目前“实验室智能”的最好水平,但如果考虑商用,T5需要耗费大量的算力,且模型自身体积过于庞大,目前还不能落地到实际业务场景中,缺少实际的商业应用价值。

而追一科技通过多任务学习、对抗训练以及知识蒸馏的方式,使得RoBERTa-mtl-adv模型大小合理,效果仅次于Google的T5。同时,相关技术也落地到了追一科技AI数字员工的产品线上。就SuperGLUE排名而言,可以说追一科技的RoBERTa-mtl-adv模型在目前全球具有实际落地能力的NLP模型中效果最好,排名最高。

“学霸”模型的商业化能力

SuperGLUE测试项目并非是“花拳绣腿”,而是实实在在考验模型通用能力的“铁人三项”;参加SuperGLUE也并非只是为了刷新评分,更重要的是检验当前技术能否很好地落地到实际应用场景中去。

SuperGLUE覆盖了问答、推断、语义理解、常识判断等自然语言理解维度,是人机智能交互过程中的核心环节,在具体的业务场景中都有很重要的应用价值。追一科技此次参赛模型的相关NLP技术已经被成熟运用于到自主研发的全套AI数字员工产品线上,广泛服务于银行、保险、泛互联网、地产、政企等多个行业的标杆客户。例如,在追一科技的智能在线机器人Bot中就融入了多轮问答技术、语义检索、机器阅读理解技术等NLP技术,能准确识别用户意图,满足用户需求。

口说无凭,接下来就结合SuperGLUE中的任务与Bot的具体案例,一探虚实。

单/多轮问答

技术

是指机器人和用户之间一问一答,实现多轮对话的过程。例如下面这个智能在线机器人Bot服务餐饮行业的场景:

智能在线机器人Bot不仅可以从对话中准确识别出地点,人数等信息,还能进一步追问用户未给出的“用餐时间”的信息,满足客户的需求。而传统的客服机器人并不会对未给出的潜在信息做出反应。

机器

阅读理解技术

在于机器人去“用力”理解文档中内容的意思,从而根据用户需求输出相应的结果。例如在金融保险领域会涉及到大量保险业务文档的修订、新增等情况。在面对客户时,即使是富有经验的客户经理,往往也很难迅速结合所有新增的文档内容进行有效回答。这时,定制了阅读理解技术的智能在线机器人Bot就又可以发挥作用了——可以实时帮助业务人员,针对相关问题从新文档中提取出答案,解决问题,降低出错的概率。

自然语言推断任务

中“文本蕴含”是常出现的形式,在实际用语中非常的普遍,参考下面这个银行领域的例子:

因为白金信用卡属于信用卡,因此“我的白金信用卡需要挂失”蕴含在“我的信用卡需要挂失”中,因此,智能在线机器人Bot 在回答用户时只需准确指引用户如何挂失信用卡即可。

指代消解

在人的交流过程中非常常见,在表达中适当地使用指代会让表达更加简练却不影响本意的阐述。如下面这个出行领域的例子:

智能在线机器人Bot理解了客户问句里的“上次”其实指代的是“上次中途取消订单”,所以立马给出了正确回复。

然而,最难为机器人的是常识推断

,对语言的理解离不开对常识的掌握。举这么一个例子:

机器人需要具备“影子是由太阳升起照射留下的”这样的常识性推断,才能正确的选择答案。对于人来说,这些常识很简单,但是对于机器来说,大量的这种常识知识都潜藏在我们意识的深处,AI系统的研究者几乎不可能把所有这样的常识都总结出来,并灌入到系统中,所以机器人在该数据集的表现往往不尽如人意。

落地到现实场景中,比如我们可以对智能在线机器人Bot说“我银行卡弄丢了”,Bot就会询问你是否需要挂失。因为它具备了“弄丢银行卡需要挂失”这样的业务常识。

可以看到,真实的交互场景中模型需要对语言的不同维度都具有理解能力才能完全正常流畅的对话。而上述的几个例子中的问题形式都很好地包含在了SuperGLUE的不同数据集中,因此,此次追一科技在SuperGLUE测评指标上获得的成绩,不仅是对其RoBERTa-mtl-adv模型在理解自然语言技术上的一个肯定,还验证了“技术驱动应用,应用导向技术”策略的可行性,更加坚定了追一科技继续深耕技术,持续用AI赋能百业的信念。

相关内容

热门资讯

机构:海洋经济驱动内需增长 深... 今日从自然资源部获悉,一季度海洋经济呈现向新向好发展态势。初步核算,一季度海洋生产总值2.5万亿元,...
今世缘(603369.SH):... 2025年4月30日,今世缘(603369.SH)发布2025年一季报。 公司营业总收入为50.99...
【机构调研记录】招商基金调研可... 证券之星消息,根据市场公开信息及4月29日披露的机构调研信息,招商基金近期对7家上市公司进行了调研,...
曾舜晞、潘展乐、孙俪“联袂”难... 4月29日晚间,国内男装龙头海澜之家(600398)披露2024年年度报告以及2025年一季报。值得...
五一前夜,五星酒店为何招不到前... 五一前夜,本该是酒店业繁忙的时刻,然而某五星酒店却遭遇了招不到前台的尴尬。或许是因为五一假期的特殊性...
顺鑫天宇荣登“2024北京建筑... 近日,北京企业联合会、北京市企业家协会与北京市建筑业联合会联合发布了“2024北京建筑业企业百强”榜...
累死年轻人的情绪价值,为什么那... 年轻人的情绪价值看似重要,实则常常被低估。在快节奏的现代生活中,年轻人往往面临着巨大的工作压力、生活...
演技综艺,失去演技 在如今的演技综艺领域,曾一度辉煌的演技表演如今似乎渐渐失去了其原本的光芒。曾经那些让观众为之惊叹的演...
在豪华酒店当试睡员,我发现了里... 作为豪华酒店的试睡员,我经历了许多不为人知的事情。起初,我以为只是简单地体验酒店设施和服务,但逐渐发...
美国参议院投票通过戴维·珀杜出... 当地时间4月29日,美国参议院以67票赞成、29票反对的投票结果确认戴维·珀杜出任美国驻华大使。美国...
俄外长:俄将在不损害伙伴关系前... 当地时间4月29日,俄罗斯外长拉夫罗夫在金砖国家外长会议后表示,俄方愿与美国开展建设性对话,但强调这...
神十九飞船已撤离空间站,计划于... 据中国载人航天工程办公室消息,北京时间2025年4月30日4时,神舟十九号载人飞船与空间站组合体成功...
谁在透支保障房?英国社会住宅私... 在英国,社会住宅私有化的进程中,一些本应保障困难群体居住权益的保障房却面临被透支的困境。原本为低收入...
中国石化一季度投资收益亏损38... 在2025年第一季度业绩说明会上,中国石化财务总监寿东华回应公司一季度投资收益同比下降69.9%至1...
万亿城市一季报,谁在领跑? 万亿城市一季报揭晓,谁在领跑成为市场关注焦点。从已披露数据来看,各城市呈现出不同态势。一些传统经济强...
为何港股新消费集体“起飞”了 港股新消费集体“起飞”,主要源于多方面因素。一方面,消费升级趋势愈发明显,消费者对品质、个性化的需求...
怎么又是你!陈盈骏两记关键三分... 北京时间4月29日消息,陈盈骏真有一颗大心脏,他接连2记关键三分帮助北京队客场再胜山西队。带着2-0...
渤海化学(600800)202... 据证券之星公开数据整理,近期渤海化学(600800)发布2025年一季报。截至本报告期末,公司营业总...
鲁抗医药(600789.SH)... 2025年4月30日,鲁抗医药(600789.SH)发布2025年一季报。 公司营业总收入为16.7...
看完柬埔寨选美,多少人怀疑自己... 看完柬埔寨选美,不禁让人对自己的审美产生深深的怀疑。那舞台上的佳丽们,身着华丽的服饰,展现着各异的风...