当前位置:首页 > 资讯 > 正文

2021-2022 机器之心年度趋势报告 | 顶会观察:人类语言处理汇总

2021-2022 机器之心年度趋势报告 | 顶会观察:人类语言处理汇总

本文是机器之心《2021-2022 年度 AI 技术趋势发展报告》中算法理论研究篇章关于人类语言处理的顶会观察,点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。


技术趋势分析

从ACL 2021年会议论文和近年来计算语言处理领域的研究论文可以看出,与其它AI相关的研究领域相比,计算语言处理领域中已有很多技术/算法/模型应用在实际场景中,所以与前几年追求准确率相比,近年来的论文更多关注模型的可解释性、泛化性以及社会性问题,同时也有越来越多的研究人员关注由此产生的伦理问题、垄断问题。

同时,Word Embedding仍然是各类NLP文章中最关注的技术和方法,说明这一技术在计算语言处理领域中的适用性、有效性仍然是最优的。

预训练语言模型在ACL 2021 的文章中几乎呈现了压倒性的优势,包括BERT、RoBERTa、BART、 GPT-2等。这是计算语言处理会议与其它顶会最大的不同。预训练可能是其它领域中某些情况下可选的技术方案,但是却是计算语言处理领域中的绝对最优技术方案之一。不管是字节跳动还是百度,在 ACL 2021上都公布了成绩非常出色的预训练语言模型。

不过,在计算语言处理领域中迁移能力仍然不乐观。计算语言处理领域中所谓的in-domain如何界定?目前英语的各类NLP模型直接迁移应用到其它语言中的效果均不佳 。

会议整体情况

计算语言学会(ACL)是自然语言处理领域影响力最大的国际学术组织,ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议之一。ACL 2021 已是第 59 届,于2021年8月1日到2021年8月6日以虚拟会议的方式召开。

奖项情况

本届大会的最佳论文《Vocabulary Learning via Optimal Transport for Neural Machine Translation》来自中国机构字节跳动火山翻译团队,提出了一种新的词表学习方案 VOLT(VOcabulary Learning approach via optimal Transport),在多种翻译任务上取得了优秀的结果。


论文链接:https://arxiv.org/abs/2012.15671
代码地址:https://github.com/Jingjing-NLP/VOLT

论文出发点。标记词汇的选择会影响机器翻译的性能。本文旨在找到“什么是好的词汇”,以及是否能够在不进行试训的情况下找到最佳词汇。

思路关键点。为了回答这些问题,作者首先从信息论的角度对词汇的作用进行了另一种理解。基于此,作者将词汇化的探索——寻找大小合适的最佳token词典——表述为一个最优传输(Optimal Transport,OT)问题。作者提出了(VOcabulary Learning approach via optimal Transport,VOLT)---一种简单有效的无需试训的解决方案。

实验结果。VOLT在不同的场景下,包括WMT-14英德翻译和TED多语言翻译,都优于广泛使用的词汇表。例如,在英德翻译中,VOLT实现了近70%的词汇量缩减和0.5 BLEU增益。此外,与BPE搜索相比,VOLT将英德翻译的搜索时间从384 个GPU小时减少到30个 GPU小时。


作者
组织
相关论文数量
Jie Zhou
Pattern Recognition Center, WeChat AI, Tencent Inc21
Minlie Huang
Tsinghua University14
Ting Liu
Harbin Institute of Technology13
Yue Zhang
School of Engineering, Westlake University 、 Institute of Advanced Technology, Westlake Institute for Advanced Study13
Furu Wei
Microsoft Research Asia12
Fandong Meng
Pattern Recognition Center, WeChat AI, Tencent Inc, China12
Maosong Sun
Department of Computer Science and Technology, Tsinghua University, Beijing, China11
Zhiyuan Liu
Tsinghua University10
Lei Li
ByteDance AI Lab9
Fei Huang
Alibaba Group, China9
Yan Song
The Chinese University of Hong Kong (Shenzhen) 、 Shenzhen Research Institute of Big Data9
Xuanjing Huang
Fudan University9
Qun Liu
Huawei Noah’s Ark Lab9
Nan Duan
Microsoft Research9
Haifeng Wang
Baidu Inc., China9
Shuming Shi
Tencent AI Lab8
Ryan Cotterell
University of Cambridge 、 ETH Zürich8
Kewei Tu
ShanghaiTech University8
Jun Zhao
University of Chinese Academy of Sciences8
Hua Wu
Baidu Inc., China8
Hai Zhao
Shanghai Jiao Tong University8
Daxin Jiang
Microsoft Search Technology Center Asia, Beijing, China8
表 ACL 2021发表论文较多作者情况


来自腾讯微信AI团队的Jie Zhou在本次大会中录用的论文数量最多,达到了21篇(包括正式论文和findings)。微信AI团队一直致力于机器翻译、智能对话、自然语言理解等领域,因此ACL 2021中的论文也主要与应用于机器翻译的语言模型、对话问答生成、对话语句中动态信息生成等内容相关。

来自清华大学的Minlie Huang(黄民烈)教授有14篇论文在ACL 2021中发表,主要也是关于对话中语言理解、问答系统等的内容。黄民烈教授的主要研究方向是NLP中的深度学习、对话AI、语言/文本生成、语义理解、情感分析以及NLP的各类应用。


发表论文机构相关数据情况

网易伏羲共有三项研究被本届ACL收录,内容包括自然语言生成、无监督文本表示学习等方向,相关技术已应用于游戏、文创及智慧文旅等行业。百度共有14篇论文被大会收录,内容覆盖跨模态预训练、语言理解、人机对话、机器翻译、知识图谱等多个方向。

美团技术团队共有7篇论文(其中6篇长文,1篇短文)被ACL 2021接收,这些论文涉及了事件抽取、实体识别、意图识别、新槽位发现、无监督句子表示、语义解析、文档检索等自然语言处理任务中的技术和应用。

ACL热门主题

ACL 2021论文主要包括10个分类,如下:(1)预训练语言模型及应用;(2)表征学习;(3)问答及检索;(4)文本生成;(5)摘要;(6)小样本;(7)对话;(8)情感及情绪分析;(9)信息抽取;(10)其他。根据下图的投稿量数据,本届计算语言处理大会中机器学习、翻译、信息提取、对话交互系统等主题是研究人员探索的主流。

从投稿关注的领域上,3年前,CNN等是计算语言方面研究人员关注的重点,但2021年大会上最受计算语言领域研究人员关注的重点则是预训练语言模型,包括BERT、RoBERTa、BART、GPT-2等。

图 ACL 2018和2021投稿关注领域


从最终收录论文所属的领域角度分析,前五名的主题和2020年相同,分别为机器学习、机器翻译和多语言、信息抽取、对话系统、NLP应用和句法分析。

图 ACL 2021 接收论文所属领域分布

ACL趋势观察

ACL 2021大会官网给出了计算语言处理领域的NLP研究热点趋势分析。结合大量的实际应用场景的需求,计算语言处理领域的研究热点集中在对话、语言和视觉、计算社会科学、知识基础/常识、NLP中的伦理等等。

从整个计算语言处理领域角度分析,近年来相关论文中涉及到最多的关键词为“Word Embeddings”。

图 ACL 2021 论文涉及关键词统计

计算语言处理这一领域在很多实际的社会场景中都有所应用。前几年重点关注各种NLP模型/方法识别率,而本次会议研究论文中更多的则是关注整个系统的表现情况、准确情况。大会发言人也呼吁:研究者不要仅关注SOTA结果,盲目追求系统准确性,也可以关注可解释性、泛化性、伦理性、社会影响等因素。

最后,根据ACL的一项调查,参与调查的人中有47.5%认为,从长期来讲NLP对于解决某些社会问题是有益处的。此外,还有30.5%的人认为,NLP在解决大量社会问题方面可以起到关键性作用。

图 ACL 2021 一项调查结果情况




点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。已获得机器之心Pro 会员」全功能账号权限的用户可直接下载查看。如您还没有机器之心Pro会员,扫描下方二维码关注「机器之心Pro」服务号(id:almosthuman2014pro),进入服务号主页,点击对话框,编辑发送机器之心Pro会员咨询,客服值班时间为工作日的10:00 - 19:00。