本文是机器之心《2021-2022 年度 AI 技术趋势发展报告》中算法理论研究篇章关于人类语言处理的顶会观察,点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。
从ACL 2021年会议论文和近年来计算语言处理领域的研究论文可以看出,与其它AI相关的研究领域相比,计算语言处理领域中已有很多技术/算法/模型应用在实际场景中,所以与前几年追求准确率相比,近年来的论文更多关注模型的可解释性、泛化性以及社会性问题,同时也有越来越多的研究人员关注由此产生的伦理问题、垄断问题。
同时,Word Embedding仍然是各类NLP文章中最关注的技术和方法,说明这一技术在计算语言处理领域中的适用性、有效性仍然是最优的。
预训练语言模型在ACL 2021 的文章中几乎呈现了压倒性的优势,包括BERT、RoBERTa、BART、 GPT-2等。这是计算语言处理会议与其它顶会最大的不同。预训练可能是其它领域中某些情况下可选的技术方案,但是却是计算语言处理领域中的绝对最优技术方案之一。不管是字节跳动还是百度,在 ACL 2021上都公布了成绩非常出色的预训练语言模型。
不过,在计算语言处理领域中迁移能力仍然不乐观。计算语言处理领域中所谓的in-domain如何界定?目前英语的各类NLP模型直接迁移应用到其它语言中的效果均不佳 。
计算语言学会(ACL)是自然语言处理领域影响力最大的国际学术组织,ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议之一。ACL 2021 已是第 59 届,于2021年8月1日到2021年8月6日以虚拟会议的方式召开。
本届大会的最佳论文《Vocabulary Learning via Optimal Transport for Neural Machine Translation》来自中国机构字节跳动火山翻译团队,提出了一种新的词表学习方案 VOLT(VOcabulary Learning approach via optimal Transport),在多种翻译任务上取得了优秀的结果。
论文链接:https://arxiv.org/abs/2012.15671
代码地址:https://github.com/Jingjing-NLP/VOLT
论文出发点。标记词汇的选择会影响机器翻译的性能。本文旨在找到“什么是好的词汇”,以及是否能够在不进行试训的情况下找到最佳词汇。
思路关键点。为了回答这些问题,作者首先从信息论的角度对词汇的作用进行了另一种理解。基于此,作者将词汇化的探索——寻找大小合适的最佳token词典——表述为一个最优传输(Optimal Transport,OT)问题。作者提出了(VOcabulary Learning approach via optimal Transport,VOLT)---一种简单有效的无需试训的解决方案。
实验结果。VOLT在不同的场景下,包括WMT-14英德翻译和TED多语言翻译,都优于广泛使用的词汇表。例如,在英德翻译中,VOLT实现了近70%的词汇量缩减和0.5 BLEU增益。此外,与BPE搜索相比,VOLT将英德翻译的搜索时间从384 个GPU小时减少到30个 GPU小时。
来自腾讯微信AI团队的Jie Zhou在本次大会中录用的论文数量最多,达到了21篇(包括正式论文和findings)。微信AI团队一直致力于机器翻译、智能对话、自然语言理解等领域,因此ACL 2021中的论文也主要与应用于机器翻译的语言模型、对话问答生成、对话语句中动态信息生成等内容相关。
来自清华大学的Minlie Huang(黄民烈)教授有14篇论文在ACL 2021中发表,主要也是关于对话中语言理解、问答系统等的内容。黄民烈教授的主要研究方向是NLP中的深度学习、对话AI、语言/文本生成、语义理解、情感分析以及NLP的各类应用。
网易伏羲共有三项研究被本届ACL收录,内容包括自然语言生成、无监督文本表示学习等方向,相关技术已应用于游戏、文创及智慧文旅等行业。百度共有14篇论文被大会收录,内容覆盖跨模态预训练、语言理解、人机对话、机器翻译、知识图谱等多个方向。
美团技术团队共有7篇论文(其中6篇长文,1篇短文)被ACL 2021接收,这些论文涉及了事件抽取、实体识别、意图识别、新槽位发现、无监督句子表示、语义解析、文档检索等自然语言处理任务中的技术和应用。
ACL 2021论文主要包括10个分类,如下:(1)预训练语言模型及应用;(2)表征学习;(3)问答及检索;(4)文本生成;(5)摘要;(6)小样本;(7)对话;(8)情感及情绪分析;(9)信息抽取;(10)其他。根据下图的投稿量数据,本届计算语言处理大会中机器学习、翻译、信息提取、对话交互系统等主题是研究人员探索的主流。
从投稿关注的领域上,3年前,CNN等是计算语言方面研究人员关注的重点,但2021年大会上最受计算语言领域研究人员关注的重点则是预训练语言模型,包括BERT、RoBERTa、BART、GPT-2等。
从最终收录论文所属的领域角度分析,前五名的主题和2020年相同,分别为机器学习、机器翻译和多语言、信息抽取、对话系统、NLP应用和句法分析。
ACL 2021大会官网给出了计算语言处理领域的NLP研究热点趋势分析。结合大量的实际应用场景的需求,计算语言处理领域的研究热点集中在对话、语言和视觉、计算社会科学、知识基础/常识、NLP中的伦理等等。
从整个计算语言处理领域角度分析,近年来相关论文中涉及到最多的关键词为“Word Embeddings”。
计算语言处理这一领域在很多实际的社会场景中都有所应用。前几年重点关注各种NLP模型/方法识别率,而本次会议研究论文中更多的则是关注整个系统的表现情况、准确情况。大会发言人也呼吁:研究者不要仅关注SOTA结果,盲目追求系统准确性,也可以关注可解释性、泛化性、伦理性、社会影响等因素。
最后,根据ACL的一项调查,参与调查的人中有47.5%认为,从长期来讲NLP对于解决某些社会问题是有益处的。此外,还有30.5%的人认为,NLP在解决大量社会问题方面可以起到关键性作用。
点击「机器之心2021-2022年度AI技术趋势报告 」,获取报告。已获得「机器之心Pro 会员」全功能账号权限的用户可直接下载查看。如您还没有「机器之心Pro会员」,扫描下方二维码关注「机器之心Pro」服务号(id:almosthuman2014pro),进入服务号主页,点击对话框,编辑发送「机器之心Pro会员」咨询,客服值班时间为工作日的10:00 - 19:00。
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://www.ksxb.net/tnews/2270.html