韩先培
(中国科学院软件研究所基础软件国家工程研究中心,北京100190)
计算语言学学会(The Association for Computational Linguistics,ACL)旗下的ACL年会是国际上最具影响的计算语言学及自然语言处理学术会议,而人类语言技术会议(Human Language Technology,HLT)则是人类语言处理的重要会议。2011年,第49届ACL-HLT联合会议于6月19~24日在美国波特兰市(Portland)成功召开。波特兰是美国俄勒冈州最大的城市,同时也是默尔特诺马郡的郡府,拥有“玫瑰之城”的美誉。除ACL-HLT主会议外,还有一个会议(CoNLL)、15个专题研讨会(Workshop)和6个专题讲座(Tutorial)同期举行。本次会议共吸引了创会议记录的来自世界各地的超过1100研究人员参加(总1068个人注册了会议,另外有额外115人只注册了Workshop和Tutorial)。
每年的 ACL论文,尤其是主会议长文(Full Paper),基本反映了自然语言处理领域的最新研究进展、代表了本领域最高研究水平。今年的主会议论文投稿数达到了1146篇,其中长文634篇、短文512篇。被录用的长文有164篇,录用率25.7%;短文被录用128篇,录用率 24.5%。在录用论文中,共有116篇长文和56篇短文被选为口头报告论文,其他论文则以张贴的形式进行展示。
以下着重介绍最受关注的主会议长文的情况。表1中给出了ACL 2011论文按领域投稿和录用情况。从表1中可以看出,机器翻译、句法和信息抽取是三个投稿最多的领域(也是录用论文最多的三个领域),而语义、情感分析和机器学习也是当前计算语言学的热点。考虑到机器翻译论文被分为两个领域,其总共的论文投稿数和录用数都远远多于其他领域,这也说明机器翻译仍是当前自然语言处理研究的重中之重。另一方面,与ACL 2010相比,本次会议增设了NLP for Web 2.0和Multilinguality领域,反映了自然语言处理对新兴Web 2.0研究热点的关注和对构建资源贫瘠语言的N LP技术的关注。
表1 分领域长文投稿与录用情况
从地域分布来看,北美地区发表的论文仍然居于领先地位,亚太地区居第二位,其次为欧洲。从国家分布来看,美国占有绝对优势,而中国大陆则以14篇在世界上居于第二,其他发表论文较多的国家有日本、新加坡、德国、加拿大等。中国大陆的研究机构中,今年发表论文的研究机构有北京大学、清华大学、中国科学院自动化研究所、中国科学院软件研究所、中国科学院计算技术研究所、苏州大学、哈尔滨工业大学、复旦大学等单位。此外,商业机构中的百度公司和微软亚洲研究院也有论文发表。
在参会人员中,来自世界各地的华人也随处可见。到会的中国大陆学者主要来自于北京大学、清华大学、复旦大学、苏州大学、中国科学院自动化研究所、中国科学院软件研究所、中国科学院计算技术研究所、百度和微软亚洲研究院等单位。同时除了上述中国大陆学者的情况外,来自中国香港和中国台湾、新加坡、日本及欧美各国的华人学者也在ACL 2011上展示了强大实力。
今年的两个特邀大会报告分别关注了当前NLP的热点和未来发展方向,包括IBM公司的David Ferrucci对前段时间引起世界性关注的Watson问答系统的介绍和斯坦福大学的Lera Boroditsky对语言如何影响人思维的报告。两个报告都吸引了极大关注。在关于Watson问答系统的主题演讲中,David Ferrucci介绍了如何综合自然语言处理、信息检索、机器学习、知识表示和推理以及大规模并行计算的技术来构建高性能的问答系统,展示了当前研究在实际应用中所能达到的高度。Lera Boroditsky展示了一系列有趣的心理学实验结果,揭示了语言在形成人类思维过程中的强有力且通常让人惊讶的作用。这些研究也让我们意识到,自然语言处理可以从更多像心理学这样的领域中吸取养分,从人类本身的角度出发去理解语言。
总的来说,自然语言处理仍在平稳发展中,但是新应用、新环境和新学科交叉也不断在刺激技术的发展和新研究方向的诞生,从而使NLP这个古老的研究领域历久而不衰。
每年ACL都会颁发两个极受关注的奖项:终身成就奖(Lifetime Achievement Award)和最佳论文奖(Best Paper Awards)。
自2002年开始,ACL的终身成就奖是对本领域具有卓越科学成就(同时在理论上和应用上)的学者的终极承认与褒奖,是本领域颁发的最高个人荣誉。今年,来自于布朗大学(Brown University)的Eugene Charniak因其在句法分析等领域的卓越贡献而获得终身成就奖,其获奖报告的题目是“ The Brain as a Statistical Information Processor” ,报告关注并展示了自然语言学与认知心理学关联的一个实例。
最佳论文则基本上代表着当年本领域最好的研究成果,也一定程度上预示着未来的发展动向。今年的最佳长文(Best Long Paper)颁发给来自于Google公司的“Unsupervised Part-of-Speech Tagging with Bilingual Graph-Based Projections”,该论文主要关注如何利用机器翻译的对齐技术,提供资源丰富语言到资源贫瘠语言的映射,从而构建资源贫瘠语言的高性能自然语言资源和技术。今年的最佳学生论文(Best Student Paper)则颁发给了来自于华盛顿大学的“Global Learning of Typed Entailment Rules”,该论文主要关注于推导规则的学习,通过基于图框架的方法并利用规则之间的约束,最大化推导规则的全局一致性。今年的最佳短文颁发给了来自于俄勒冈卫生科学大学(Oregon Health&Science University)的“Lexicographic Semirings for Exact Automata Encoding of Sequence Models”。从今年最佳论文的内容可以看出,考虑局部模型之间的约束(如双语对齐语料中的词性一致约束,全局蕴涵规则之间的约束),利用更丰富的易获取资源(如双语对齐语料),从全局的角度进行优化可以有效的提升自然语言处理系统的性能。这些论文也同时说明基于图的方法可以有效表示和利用这些全局约束。
在ACL的business meeting上,与会学者对ACL的现状和发展进行了深入探讨。首先,针对今年随ACL论文提供代码和数据共享的优缺点进行了讨论,与会学者认为,提供论文代码和数据的优点在于其提高了数据集的共享程度,降低了其他人构建数据集的难度,并提高了结果的可复制性;其缺点在于数据集和代码通常难以匿名,且当前的共享率仍然较低。同时,与会学者还针对NLP领域的期刊论文不足问题进行了讨论,探讨是否可以开办一个新期刊,每月接受投稿,同时被收录的杂志论文直接在下年度ACL会议上发表(目前增设期刊的提议已经在ACL执委会中获得通过,并进入实际操作阶段)。与会学者认为,开办新期刊的优点在于其能改善NLP领域期刊太少的现状,使得研究人员的投稿机会和投稿时间点都能显著增加;其缺点在于难于统一会议论文和期刊论文的标准,如论文质量和文章长度,同时也对由此可能带来的审稿压力增加有一定的担忧。
总的来说,ACL是自然语言处理一年一度的顶级会议,在会场亲眼目睹了国际学者们的风采,也领略了顶级自然语言处理的研究水平。同时也感受到了华人在自然语言处理、信息检索、语言技术领域中地位的迅速提升。相信随着时间的推移以及中国的不断发展,人类语言技术领域必将会有华人更大的舞台。
感谢王海峰老师对此文初稿所提的修改意见和建议。