吴 甜,田 浩,吴 华,王海峰
(百度公司,北京 100738)
2010年7月11~16日,第48届ACL年会(The 48th Annual Meeting of the Association for Computational Linguistics)在瑞典第四大城市乌普萨拉(Uppsala)成功召开。除ACL主会议外,还有一个会议(Conference)、13个专题研讨会(Workshop)和6个专题讲座(Tutorial)同期举行。虽然世界杯决赛阶段比赛在南非激战正酣,全世界自然语言处理领域的学者们参加ACL的热情依然不减,来自世界各地的参会学者近千人,接近历史最高水平。
在这次会议上,中国大陆继续保持良好势头,录用长文(Long Paper)数达14篇,发表论文的机构数量也有大幅增加,中科院计算所、中科院自动化所、北京大学、上海交通大学、哈尔滨工业大学、北京航天航空大学、国防科技大学、东北大学、苏州大学、西南财经大学、微软亚洲研究院、百度公司等都有论文发表。除参加会议和发表论文外,中国大陆学者还对会议有了更为全面的参与。例如:百度王海峰担任了专题讲座主席(Tutorial Chair)、微软亚洲研究院林钦佑和李航担任了领域主席(Area Chair)、林钦佑、王海峰和中科院计算所刘群分别担任了分会场主席(Session Chair)等,来自北京大学、清华大学、复旦大学、哈尔滨工业大学、中科院计算所、微软亚洲研究院及百度公司等单位的多位学者担任了程序委员会成员(PC Member)。
ACL会议收录的论文,尤其是主会议长文(Long Paper),基本反映了自然语言处理领域最新研究进展、代表了本领域最高研究水平。今年,符合要求的主会议论文投稿数达到了956篇,再创历史新高。其中长文646篇、短文310篇,长文录用率约25%,短文录用率约22% 。
今年的ACL,从征稿(Call for Paper)时就做出了一些变革,将论文分为四大类,除传统的研究型论文(Research paper)外,还包括:综述与计算语言学相关的新兴领域的综述论文(Survey paper)、两种相反观点进行辩论的立场论文(Position paper)和提出该领域未来挑战目标的挑战论文(Challenge paper)。虽然比较遗憾最终没有立场论文被录用,但综述论文和挑战论文各有3篇被录用也足以成为本届大会的一个亮点了。如果再将研究型细分,我们会发现,经验型论文(Empirical)以129篇长文占据了绝对多数,而理论型论文(Theory)只有11篇长文,这也反映了理论创新是多么不易。
从研究领域来看,今年的ACL论文分为19个大领域,各领域的主会议长文分布情况如下表。
领 域投稿数录用数录为短文录用比例Bioinformatics10110.0%Discourse381128.9%Formal semantics19631.6%Generation/summarization3910128.2%Information extraction44818.2%Information retrieval24625.0%Lexical semantics591627.1%Machine learning571322.8%Machine translation641523.4%Mathematical linguistics231043.5%Multimodal13430.8%Parsing6816226.5%Psycholinguistics14535.7%Question answering225231.8%Resources and evaluation28828.6%Sentiment analysis469121.7%Speech18422.2%Tagging371027.0%Text mining237134.8%
对比前几年的数据,近年来广受重视的机器翻译(Machine Translation)研究仍然保持热门,投稿量和论文录用数量都处于前列。从机器翻译领域研究内容来看,主要还是集中在基于句法的统计方法研究,其他受到较多关注的还包括形态处理对机器翻译质量的影响、语法资源和语义资源对翻译的影响、对齐、评价等。机器翻译领域录用主会议长文共15篇,其中句法5篇,翻译质量评价3篇,形态2篇,语义资源2篇,基于短语的翻译方法2篇,对齐1篇,另有短文10篇。值得一提是,机器翻译并没有如去年一枝独秀,句法分析和词汇语义两个方向的录用论文数甚至略微超过了机器翻译。
每年的ACL都会颁发两个备受关注的奖项:终身成就奖(Lifetime Achievement Award)和最佳论文奖(Best Paper Awards)。
终身成就奖是本领域颁发的最高个人荣誉,授予曾在本领域做出过卓越贡献的学者,是对他们的终极承认与褒奖,今年的终身成就奖得主是ITA Software的Bill Woods。Bill Woods在理论和应用两方面都有深远影响,例如他在Augmented Transition Network (ATN) 方面的研究让“基于自动机的自然语言描述”得到了复苏,他提出的“概念索引”思想目前已经被应用于很多信息检索的任务中,同时也影响着当前热门的复述研究,他的获奖演讲题目是“The Right Tools: a retrospective on language and computation”。
ACL的最佳论文代表着当年本领域最好的研究成果,也一定程度上预示着未来的发展动向。今年,最佳论文委员会选择了3篇作为最佳论文,其中,最佳长文(Best long paper)是密歇根州立大学Matthew Gerber等人的“Beyond NomBank: A Study of Implicit Arguments for Nominal Predicates”;IBM最佳学生论文(IBM Best student paper)是来自哥伦比亚大学David Elson等人的“Extracting Social Networks from Literary Fiction”;另外一篇最佳短文(Best short paper)是来自布朗大学的Michael Lamar等人的“SVD and Clustering for Unsupervised POS Tagging”。
总体看来,自然语言处理领域的各个方向都处于平稳进步的阶段。其中一个值得注意的现象是,随着互联网的发展,用户生成内容(User Generated Content)的增加,越来越多的研究开始关注从百科(如Wikipedia)、博客、微博(如Twitter)等获取语义知识、结构化知识、多语言知识,这些知识被广泛应用于机器翻译、信息检索等领域,大大提高了机器翻译和信息检索的性能。例如,随着该类资源的增加,可以获取海量的多语言专名、词典和平行句对,大大促进了统计机器翻译的发展。同时,随着网络资源的迅速庞大,用户可以获取多种结构化的语义资源,对基于语义的信息检索起到了促进作用。在本届ACL会议中,有大量的信息抽取的文章集中在怎么从用户生成的网络内容中获取结构化知识和语义知识。如上所述,最佳长文和最佳学生论文分别来自语义和信息抽取领域,在某种程度上预示着当前热点和未来发展动向,而互联网上海量的用户生成内容无疑会促进这些领域的发展。
这次大会的召开城市乌普萨拉,位于瑞典东部、首都斯德哥尔摩以北,濒临费利斯河和梅拉伦湖,城市四周有肥沃的田野、茂密的森林,景致非常优雅清新。瑞典的地理位置接近北极圈,ACL会议在夏季召开,正处于一年中白天最长的季节,每天完全的黑夜仅两小时左右,白天阳光明媚,海鸥在城市上空飞翔鸣叫,傍晚至夜深前,光线温和,微风轻佛,令人心旷神怡。会议主办方组织了丰富的活动,包括在乌普萨拉大学主教学楼举办的招待晚宴和在乌普萨拉城堡举行的一次正式宴会,在宴会上,几位学者和会议主席分别做了妙趣横生的演讲,引起参加者不断的掌声和笑声,并有当地演唱团带来的音乐节目,体现了瑞典人热爱音乐的天性。期间正值2010南非世界杯的决赛阶段,主会场里张贴了乌普萨拉适合看球赛的酒吧和餐馆地图,可见主办方的细心周到。
ACL是自然语言处理领域一年一度的盛会,除中国大陆学者外,来自中国港台、新加坡、日本及欧美等世界各地的华人学者也充分展示了风采,华人学者在国际舞台上的影响力、贡献度正在不断提升。