董振东,董 强,郝长伶
(1. 中科院计算机与语言工程中心, 北京 100091; 2. Canada Keentime Inc., 蒙特利尔)
2011年是一个有着许多周年纪念日的年份。与我们更密切相关的应是中国中文信息学会成立30周年。此时此刻,我们还应记得今年也是我们中国中文信息学会前理事长陈力为院士逝世10周年。我们特别要纪念陈力为院士,因为他最后的20年曾全身心地投入了中文信息处理事业。20世纪80年代初,他主持制定出用以统一汉字代码的《GB 2312汉字编码字符集——基本集》,作为国家标准颁布,于1985年获得国家科技进步一等奖。随之国内外出现了“万码奔腾”的输入方案,他不辞辛苦地参加评测和审定,同时他提议必须开发能为普通人方便地使用的输入方法,在他的直接指导下,中国第一个智能型拼音输入于20世纪80年代末终于研制成功了。自此可以说中文已经顺利地进入计算机了。于是陈力为又带领我们开始了难度更高的研究,这就是“词”这个中文信息处理的“拦路虎”。在“七五”期间他组织并主持了《信息处理用汉语分词规范》的研究与制订工作。专家们曾经开过几十次大小研讨会,陈力为都是每次必到,来与大家一起讨论。同时他亲自指导根据该规范在大规模语料的基础上提取和编制中文词表。“八五”期间,陈力为组织领导了全国几十位计算机和语言学等方面的专家,着手建立中文信息处理技术的应用开发平台。这个课题的重点放在汉语语料库、语法词典、语义词典、句法规则库等语言知识的获取和句法分析系统的研究开发上。简要回顾这段历史,一则是为了在我们学会成立30周年之际,缅怀纪念我们的前任理事长, 一则是让我们看到陈力为是如何从“字”到“词”,从“词语”到“文本”,思索和规划中国的中文信息处理研究的,是如何牢牢把握研究要“面向应用,服务于用户”的方针的。今天的中文信息处理研究如何呢?今后的道路要不要我们自己探索呢?我们应该期望我们下一代的学者成为什么样的人?我们是否有必要进行一番回顾与反思,有必要展望未来,预见到新的挑战,预见下一站应该在哪里。这就是本文想要说的,希望或是抛砖引玉,或是当个靶子,激发同行们讨论和批评。
回顾中文信息处理发展30年,我们应该引以自豪的是我国的中文信息处理研究成果曾经被认定与“两弹一星”并列的对国家具有深刻意义的成就。30年见证了王选的激光照排,汉王在OCR技术基础上发展起来的系列产品,中软总公司推出的中国第一个商品化机器翻译系统“译星”,华建在“863”基础上发展起来的多语言翻译产品,TRS在全文检索研究基础上发展起来的信息处理系统,格微软件在以知识管理为特色的人机交互协同翻译平台,以及源于亚伟速记技术的现已成为产业的亚伟速录机的发明与应用。此外,汉字字处理、少数民族语言研究目前也相当活跃。本文的重点想放在计算语言学的研究方面。计算语言学是自然语言处理之本,亦即人类语言技术之本,它包括了: 机器翻译、自然语言处理、数据资源、信息检索、语音理解、字符识别等诸多领域。
我们很长时间来一直有一个百思不得其解的疑问: 当我们自己说起来时,总是认定与国外相比较,特别是计算语言学研究领域是落后的。近20年来,我们的计算语言学研究,应该说是最与国外同领域接轨的,我们在国外的所谓的“套路转变(Paradigm shift)”后面一直是紧跟不舍的。我们在20世纪90年代初期便不失时机地建立了大规模语料库,随之进行了对大规模语料的词性标注。我们很快采用了国外流行的各种机器学习算法和语言模型。在机器翻译研发上我们研究的主流是数据搜索统计方法。我们不仅建立与海外相同的数据资源,如树库等,我们也直接利用海外的数据资源,我们参加了海外举行的包括从中文分词到问答系统等的几乎所有各类评测。据报道我们的研究在各个领域与海外比较都有一定差距,例如在依存关系分析的评测中中文与英文相差10多个百分点[1]。我一直在想,这究竟是我们的中文天生不适应当今这种类型计算机处理呢?还是中文不适应海外的那种研究套路呢?还是我们自己是歪嘴和尚没有念好外来的真经呢?简言之,究竟应该是怪语言,还是怪方法,还是怪人呢?中文加工处理要分词,印欧语系不需要,这样一开始我们就输在起跑线上,于是一步赶不上,就步步落后,就没有翻身的机会。可是为什么从上述对中文信息处理研究各类应用看,它成绩斐然,令人赞许,并不见得落后,有的还处于领先的地位?那么是明明已是落伍了而我们还自我陶醉,还是不应该笼统地断言落后,而是应该具体问题具体分析呢?与这个落后问题相关的是: 如果是语言自身的问题,就是说中文面对计算机处理时就先天不适应,但是它为什么面对人的时候,中国人并不会感到处处都是歧义,一步一个坎儿呢?人际交流中没有丝毫别扭呢?下面我谈谈我们一直以来的一些看法。
“跟”是一种学习和引进,是必要的。但下一步应该是消化、吸收,再下一步,也是最关键的一步,就是创新。只是“跟”,而没有创新,那是“学艺”或“临摹”,而不是研究。我认为跟随别人的技术,并不是最重要的,最重要的倒是应该学习别人的那种活跃、敏捷的思路和那种创新的意识。试以机器翻译为例,1999年约翰·霍普金斯大学夏季讨论班研究人员开发了Giza软件包,实现了IBM Model 1到IBM Model 5。F.J. Och随后对Giza进行了优化,加快了训练速度,特别是IBM Model 3到5的训练。Och发布的软件包被命名为Giza++,直到现在,该软件包仍是绝大部分机器翻译系统的基石。在基于短语的统计翻译模型逐渐走到了尽头的时候,越来越多的研究人员开始考虑在模型中引入句法知识。2005年的评测中,马里兰大学的系统就采用了一种引入了句法知识的统计翻译模型——“层次短语模型”。这是由一位叫蒋伟(David Chiang)的华人研究人员提出的。蒋伟还在使用BLEU时发现缺陷后做了改进,提出了BLEU-SBP方法。有报道称我们平时使用时也曾发现BLEU的缺陷,但是却没有进一步去思考为什么。这可能就是我们与蒋伟等的差距!可喜的是,近年来有更多的学者已经意识到了,开始注意和学会创新。 例如据称计算所的Silenus系统已经具有了国际领先的水平,目前许多国际同行都在跟踪他们的这项技术。
近20年来,在计算语言学的诸多领域,我们基本上采取“跟”的办法。我们很少人怀疑这样的做法。紧接着我们再次跟进,开始了以词性为句子基本单位基础上的树库建设,其实树库本身也是可以质疑的。参与宾州树库工作的以色列海法大学学者Shuly Wintner 曾这样写道: “考察一下面向数据的革命以来在自然语言工程领域的重大成果吧。比如宾州树库,1992年第一个版本问世以来,它的标注体系被用来对众多的词类和分析器进行训练。这套标注体系的背后是什么理论?在什么意义上这个标注体系是“正确的”?会不会有其他某个标注体系也是同样好的?我们凭借什么准则对这样一套资源的质量进行评估?”[2]在宾州中文树库的规范中有这样的例子:
(IP (NP-SBJ (NN 经济))
(VP (ADVP (AD 年平均))
(VV 增长)
(QP-EXT (CD 百分之十七))))
(PU ,)
(IP (NP-SBJ *pro*)
(VP (VV 高于)
(NP-OBJ (NP (DP (DT 全))
(NP (NN 国)))
(ADJP (JJ 年平均))
(NP (NN 增长)
(NN 速度))))))
(PU 。)))
此例中“增长”与“年平均”出现两次,根据其所谓的句法功能不同,标注的词性不同。下面的例子中的“细心”,是否也应该标注不同的词性?
(c) 这孩子很细心
(c-1) the kid is verycareful
(d) 请细心检查牙龈
(d-1) please examine his gumcarefully
(e) 细心对外科医生更加重要
(e-1)carefulnessis more important for a surgeon
中文真的是这样的吗?我们普通中国人头脑中真有这么一部语法吗?我们的语法究竟是普通人的语法还是语法学家的语法?再者,我们的词典里“增长”、“年平均”、“细心”都像英语词典那样列出了不同的词类及其相应的词法和句法信息了吗?没有。这不就天生落后了吗?我们的句法分析与词典是不配套的,是不同的语法系统。而这些是人为的,并不是我们的语言自身的问题。正如我在2006年写道: “让中文归于中文。千万不要把中文硬是塞进那种非中文的语法框架中,犹如常言所称的,削足适履”[3]。
现在流行一种说法,就是不应该太强调汉语的特点。还有一种说法就是既然有“universal grammar(普遍语法)”,说明不同的语言都是有大体一致的文法的。进一步得出能解决好英文的语言技术,就能够同样解决好中文。这样就在理论上找到了现在种种接轨的做法的依据了。然而,共性寓于个性之中。其实乔姆斯基提出的“普遍语法”,说的是一种人类所特有的机制。不是说不同类的语言都有着一部一致的语法,比如都得有名动形副等词类,句法成分都得有主谓宾等,都得遵循X阶标理论(这是乔姆斯基早年提出过的,而今自己已经放弃的理论)等等。
中文就是中文。中文有自己的特点。中文的特点是客观存在。我们做中文处理时,是不能不认真对待的。中文缺乏形态变化。中文靠意合。中文的句法手段主要是词序和虚词。这些是中文语言学家早就取得的共识。然而由于在理论上过分强调所谓的“共性”,在语言技术上又过分地依赖于现成的方法或者不敢改变,或者懒于改变,因此如何真正使对于中文句法手段的共识体现并融合于语言技术并不多见。
试看下面的机译例子,说明中文里很普通的语言现象——重叠,在我们的机译系统中,并没有专门的技术去处理。
(f) 我希望两家人能从今以后和和平平地融洽相处。
(g) 大家都快快乐乐的该多好!
(h) 一张张小课桌,一把把小椅子,让我想起了自己的小学一年级。
(f-1) I hope that two people from now on the ground and the peace and harmony.
(g-1) We almost happy music time!
(h-1) Zhang a desk, a chair to a small, reminds me of their first grade.
再看下面的机译例子,说明中文的所谓的“OOV”与英文是不同的,中文更多见的是一种“伪生词”,中文语言处理是必须有专门的技术来对待这类的伪生词的,因为它们是能产的。
(i) 其实早在三个月前总经理已萌生去意。
(j) 看来他去意已决,不好挽留了。
(k) 他们未向我表明他们的来意。
(l) 成都青羊区职改办流出职称假证供企业出售牟利。
(i-1) In fact, as early as three months ago, has been general manager think of killing
themselves.
(j-1) It seems he went to Italy has decided, to retain the good.
(k-1) They have not told me that they had come.
(l-1) Chengdu Qingyang District Office Office of outflow Title false testimony enterprises sell at a profit.
再看看下面的实例,有三个机译系统给出同一句中文的机器译文:
(m) 邻居家大嫂又生了个小子,小脸胖乎乎的,眼睛大大的,一笑还两个小酒窝,可讨人喜欢了。
(m-1) Neighbor’s sister and gave birth to a boy, chubby little face, big eyes, smile has two small dimples can be likable a.
(m-2) Neighbour‘s’ sister-in-law gave birth to a boy, fat face, big eyes, smile has two small dimples, be like.
(m-3) Neighbour‘s’ sister-in-law has given birth to a boy, the small face is plump, the eyes are big, smile and return two small dimples, very lovely.
这里三个不同的机译系统的译文,粗看好像还过得去,这就是有些研究者说汉英的机译结果比英汉的要好一些的假象。其实这三句译文都是不合英语文法的。中文这样的句子语法学家称之为省略句,也有学者称之为标点句。这样的句子还是不是棵树呢?它的句法体现在哪里?实际上它的语法,即真正的成句的约束在于语义。如果第一个逗点后出现“部件”,应与该逗点前的紧邻的“整体”对应。这里的“紧邻”,则体现了中文语法在词序上的约束。
说到省略,我们再举一个例子:
(n)昨天在校园里遇到了李老师的夫人,她说李老师前天胃疼,住院做了检查,医生说可能是胃炎,吃点中药调理调理就会好的。
此例中,是谁“吃点中药”?人理解是没有一点困难的,人靠的是什么?如果把此例译成英文,“吃”前面的主语也可以省略吗?我们要处理中文,就不能不应付这样难题。现下流行的做法是逃避,逃到“浅层”去,还说“浅”的都解决不好,哪能去碰“深”的。其实,中文是给了我们一个走向深层的机会,一个有所发现,有所创新的机会。为什么要过分地强调语言的共性呢?
文本标注是当下流行的语言技术手段。针对不同的需求,进行不同类型的标注。我们可以为一个文本中的每个词语标注它们的发音,也可以标注它们字数,或为满足句子分析的需要,我们流行的是标注每个词语的词性。英语这样做了,我们汉语也这样做了。我们直到近两年才有学者对于中文语料的词性标注提出质疑[4-5]。核心是: 中文句子也与英文句子一样是动词(V)、名词(N)、形容词(A)等那样的词性的序列吗?我们注意到,在中文里,所谓的V、N、A的任意顺序、任意个数的排列都是有歧义的。例如:
(a) 守军 作战 勇猛(defending troops fought bravely)
(b) 沙漠 作战 艰苦(the desert battle is arduous)
也许有人会说,在(b)中的“作战”,我们标注的是Vn。但是这对于句法而言是一种伪命题,你们凭什么呢?显然根据的不是句法,而是语义。这是为什么呢?正如沈家煊指出的,由于汉语的词语从词库取出后入句时没有“熔解”的过程,汉语词语没有形态变化。因此如果用V、N、A标注语料,这样的做法不会比英文来得有效[6]。中文有没有词类的问题从50年代初就开始争论,即便是暂时压下去了,还总是不时就会冒头。如果我们彻底忘记了《马氏文通》,我们这些普罗大众还会不会有名动形这种语法概念了呢?我本以为语言工程界会对这个问题有些冲击的。可惜没有。
我们最近做过这样的观察,我们随机挑选中英文各3个“名动兼类”的词语,中文是: “影响”、“计划”和“通知”;英文是“search”、“influence”和“record”,我们为每一个词语随机挑选50个句子。然后我们选定以该词语为中心的三元组,为三元组中的每个词语标注现在最流行的词性,结果是:
英文——语境总数: 51,其中歧义语境数: 1对
例子1: Your Dolphin Disc record voucher is in the post—if you don’t want to spend it, you could always read it.NXnN
The De Obsessione says that Malcolm assaulted Durham and was driven off by Uhtred during ☞thelred’s reign, and the Irish Annals of Ulster record fighting between Scots and English in 1005 (recte 1006).NXvN
中文——语境总数: 78,其中歧义语境数: 9对
例子1: 天气 变化 将 不致 严重 影响 发射
AdjXvV
菅直人 就 福岛核电站 事故 造成 的 严重 影响 表示 歉意,
AdjXnV
例子2: 全市 计划 招生 9 620人 ,其中 普通高中 5 400 人
NXvV
在 上述 十 年 计划 颁布 后,
NXnV
英文的词性序列都比较整齐,目标词周围词的词性对目标词词性有很好的约束作用,而汉语词性序列则显得松散,目标词周围词的词性对目标词词性缺乏严格的约束作用。
邢富坤做过这样的实验: 都是以中英文词性标注语料为基础,用同样的隐马尔科夫模型,两种语言的兼类词标注准确率的判别结果中英文分别为 88.12% 和94.63%。
前面曾经引述过以色列学者Shuly Wintner对于宾州树库的质疑。我也曾经多次对于中文树库提出过质疑。当时提出质疑时,只是凭推想。我想第一,汉语与英语不同,如果说英语句子是一棵树的话,那汉语是不是呢?例如上面举出过的例句(m),是一棵怎样的树呢?严格地说,汉语是图。第二,既然我们的普遍的共识是: 汉语的“词性”与句法功能是不像英语那样严格对应的,那么一个以“词性”为基础、以主谓宾等句法功能为架构的中文树库,真的能够全面而准确地反映汉语的语言现实吗?近期有人在参与树库建设中,产生了许多疑问,于是做了详细的考察。有一点是可以肯定的,那就是汉语中任意的名动形的序列,无论是二元的、三元的,都是歧义结构。例如树库中有:
[vp-PO [vp-PO 告诉/vSB [np-AD 孩子/n 们/k ] ] [vp-LW [vp-PO [vp-SB 洗/v 干净/a ] 手/n ] [vp-ZZ 再/d [vp-LW 来/v [vp-PO 看/v 书/n ] ] ] ] ]
[vp-JY 让/vJY 国人/n 大梦初醒/iV ] ] ,/, [dj-ZZ 一时间/d ,/, [dj-ZW 信息/n [vp-PO 成为/v [np-DZ 热门/a 话题/n ] ][7]
这样的树库标注,是否就能使计算机从中学会区别: “洗 干净 手”和“成为 热门 话题”这个“V+A+N”的结构歧义了呢?有人说它靠更大的上下文来消歧。从上面的例句看,它们还为我们提供了怎样的上下文呢?
最后,也是由于汉语的词性与句法功能的不对应,造成我们的标注规范非常复杂。这样标注的一致性就较难保证。这点从所谓的“动名(Vn)”上表现得尤为突出,从评测的成绩反映,这个环节也是表现较差的。
Kenneth Church在2007年发表一篇题为“A Pendulum Swung Too Far”的长文[8],很值得一读。在文章的开始作者简单回顾了20世纪90年代当初创建SIGDAT的情形。他说“当时我们背叛我们自己老师的立场是出于实用主义的考虑的。如今数据可以容易的得到了,我们何不拿来利用一下呢?我们认为与其高不成低不就,不如做点简单易行的。让我们来摘取低枝的果子吧。”开始的时候SIGDAT的学术会与当时的ACL的主流是很不一样的,(很另类吧)。当时SIGDAT只是想在那里有自己的一席之地(他的原话是“At the time, all we wanted was a seat at the table”)但是没过几年,一切都变了,经验主义不仅复苏了而且是太成功了,以至于除此之外的其他东西却不再有什么地盘了。顺便说一点,如果当年的Church们也只是老师走一步就跟一步,老师走到哪里就跟到哪里,丝毫不敢越雷池一步的话,那么还会有后来的辉煌的技术路线转变了吗?如今20年过去了,当时离经叛道的学生已经是老师了,他们该如何对待自己的学生呢?这应该就是Church这篇文章的主旨。他认为“钟摆摆得太远了”。他在思考那些低枝的果实都被摘得差不多时,谁去摘那些高枝的呢?又怎样去摘呢?他的学生们将如何面临和准备迎接未来的新挑战呢?在他的文章中他提出要教授学生语言学知识。2006~2007年,美国政府机构曾组织过一个有关自然语言处理或称人类语言技术问题的研讨会,可以简称为MINDS研讨会。这应该是美国有关语言技术的战略研讨会。我们从这里可以领悟到他们怎样关心战略,他们如何总结过去和展望和规划未来。总而言之,他们在思考未来。我曾多次呼吁,不要别人走一步我们才跟一步,让我们先行一步,去到下一站等着,不行吗?
下一站在哪里?下一站是个什么站?在我们准备走向下一站时,首先应清醒地认识到: 任何的技术路线和方法,在语言信息处理面前都会有它的局限性。不要走极端,也不要走回头路。总起来说,充分发挥超大计算能力的优势,充分利用超大规模的数据,注意利用移动通讯的能力,另外,任务牵引,而不是技术牵引,这些都是首先要把握的前提。下一站究竟是怎样的?我们可以做如下的设想。
与10年前不同了,现如今声称自然语言处理只会添乱的声音消失了;如今说语义抓不着摸不到的声音也不很响了。从浅层走向深层,从表象走向内容。过去的研究和技术,我们常听到的是“浅层分析”、“基本名词短语”等。这些就是所谓的低枝果实。“深”包含两层意思: 一是数据的加工要深,语义是一个必须提到议程上来的问题;二是用以计算的工具要有处理意义和内容的能力。这里不得不在语义的问题上多说一些。说到语义,首先要破除一些误区。最大的误区是: “语法还没有解决好呢,语义就更谈不上了”。这样的说法对于英语,还说得过去,但对于汉语就完全是一个误区了。对于英语,语法可以是进入语义和内容的“拐棍”;但对于汉语,所谓的语法,特别是那种强加给汉语的“语法”就不是“助力”了。试看以下例子:
桌腿、河口、房檐、人脑、槐树叶,飞机座舱、学校总务处、众议院外交委员会
说它们是汉语语法里规定的“定中结构”,这对于人或计算机有意义吗?或者在标注语料时把它们标注为N+N有意义吗?中国人说汉语是要遵守NN的语法呢还是要考虑这是“定中结构”呢?如果我们这样表述: 当汉语要描述事物的部件,并描述的是它是何物(作为它的整体)的部件时,应该遵循这样的规定: 这些中文词语或短语的语序是固定,必须是“整体”+“部件”。如果标注语料,是不是标注“整体”的语义描述+“部件”的语义描述更有意义呢?例如: 在《知网》中“桌腿”的标注是:
{part|部件:PartPosition={leg|腿},whole={furniture|家具:{put|放置:LocationFin={~}}}}
当我们教外国人学习汉语时,是教他应该用“整体+部件”的顺序好呢还是教他“N+N”顺序或一个“定中结构”好呢?当我们做语言信息处理时,要计算“桌腿”的相关词语时,上面的标注将会为我们提供诸如“餐桌”、“办公桌”、“茶几”、“写字台”等等,反之如若仅标注“N+N”,意义的相关性计算也就没有可能了。我们相信在揭示词语意义的深度上,《知网》代表着未来。在词语内在意义以及内部义原之间的关系上,《知网》的深度是可以满足中文语言处理的要求的。《知网》开始于80年代末,应用于2000年初。我们可以自信地说《知网》是“在下一站等着”的一个典型。
前面提到的MINDS报告里出现了一个新的概念,“annotation science”。标注对于语言处理的作用是不容置疑的。标注什么?怎么标注?由什么样的人来标注?确实值得很好的研究,真的将成为一种学问。这里我们介绍一下我们长期以来对于汉语语料标注的一些设想。对于汉语语料我们希望尝试新的标注策略和技术路线。它具有如下特点。
a.汉语语料不做“词性”标注,不建立以词性为基础的树库。标注的着眼点是意义,一步到位标注语料的意义和内容。从要标注的知识,到标注工具的设计和功能,都应服务于意义求解的目的。
b.除了全文逐词标注外,采取定点、难点的专题标注,即针对汉语的问题进行专题分解的标注。例如,对于汉语的介词的管辖词语的标注;对于“削苹果的皮”/“削苹果的刀”类型的歧义结构的标注;对于语义歧义的词语如“把握”、“材料”、“初二”、“发展”等在给定语境中意义的标注等等。
c.采用类似于维基百科建库的群体性方式,资源共建、共享。标注人员非专家化,欢迎任何普通人来参与。这就要求我们确定好专题,编制好不同的软件工具,采用问答方式。
d.所谓的“问答式”,如前面曾举出过的诸如“增长”那种所谓的“动名词”(还是叫名物化)的,在新体系中是不应有的。我们设计的问答式标注工具,是不会出现类似如下的提问的: “这个词是动词还是名词,是动词按1,是名词按2”。类似a项中的例子,标注工具应问: “这里‘削’的是‘皮’呢还是‘苹果’呢?”当在标注工具中选中其中的实词时,标注工具可以自动给出该词语在当前语境中的汉语解释。当选中“皮”时,标注工具应能给出“皮是苹果的部件”。当选中“刀”时,应能给出“刀是切削苹果的工具”。如果标注后的结果都能给出这样的释义,那就意味着标注结果是可计算的、可直接利用的。
标注工具应该具备自动学习的功能,即: 当人工标注一种实例后,该工具可以在大量语料当中找出和搜集相同或相似的实例,并把它们保存在待查数据库中,人工确认后将其放入正式语料库中。
对于语义歧义的标注,应该给出例子,然后提问,试以“材料”为例:
例1家里卫生免不了的清洁一通,里里外外全都搞了个遍,好像天生就是干活的材料,没事总是闲不住,非要找出个什么事情来做做才心安。
标注工具将给出《知网》中“材料”这个词语的各个义项的例子:
① 收集~,鲜活的~,熟悉~,调查~,整理~,给~分类编目,手头的~,掌握~,考研~,又发给我们一堆学习~,参考~,第一手~,上报的~中有记载的,一本~,黑~,
② 唱歌的~,跳舞的~,不是干这的~,上大学的~,不是块读书的~,是块干力气活的~
③ 建筑~,装修~,买~,家装~,航天飞机外壳是用什么~做的,房屋~,合成~,防水~,防火~,高分子~,纳米~,~科学,
然后来提问,受试人只回答①或②或③。应注意的是,标注工具在接到答案后,标注上去的不是①或②或③,而是它们所对应的《知网》中的概念定义。在受试人回答后,就接着再提问如:
例2作为一个领导干部,不能只坐在办公室,靠电话做工作,要深入群众、抓第一手材料,才能当好及时给县委提供情况,并提出建议的好‘参谋’。
我们将集中比如说100个含“材料”的例子,都照此办理。对于这种类型的歧义判别,与其依靠所谓的词性或句法,不如依靠词例或大语境。我们也许可以为每一个多义词语建立某种语言模型,来进行“定点清除”式的排歧。
综上所述,建设这样的问答式标注工具本身就是一个颇具挑战意义的研究与发展。它要求深入研究汉语的难点、歧义等。
e.除上述而外,语料标注的一个大工程是全文的依存关系。这项标注采用群体性问答式的方式,可能不容易,还是要靠专人,且有一定的规范。规范起码会规定标注什么样关系,是所谓的句法成分呢,还是语义角色呢?说到此,也不得不展开一点。这里有两个误区。其一,标注句法成分比语义角色简单,容易取得好的一致性。其实对于汉语而言,语义反而容易,比那个人造的“语法”容易。试看下例:
朋友家我住很长时间了
按如今汉语语法学界流行的语法规定,这里“朋友家”和“很长时间”都是什么成分?都是宾语?如果按语义,前者为“处所”,后者为时段,这是凭人的直觉可以感悟的,不是更简单吗?英语与汉语不同,如: I stayed in my friend’s house for a long time,英语可以规定介词短语修饰动词,为“状语”,先不必管语义上是什么,等到了语义分析这一步,再说它们的论旨意义。其二,认为无论是句法成分或是语义角色,越少越好,越容易取得好的一致性。根据我们多年的经验,实际情形并非如此。当然,在确保语义关系描述准确的前提下应该力求简单。试比较:
(o) 手术进行了将近8个小时
(p) 他父亲死了快10年了。
上述例子中的“时段”,可以细分为“进程时段”,即动作延续的时间,以及“事后时段”,即动作发生后起算的时间。这里在标注规范中可以有所取舍,可细可粗。但我们在知网的体系里还是从“细”。因为如果把上述两个句子译成正确的英文,它们的差异就会在英文句法结构上反映出来了。
(o-1)The operation lasts about 8 hours.
(p-1)It is nearly 10 years since his father died. (*His father died for nearly 10 years)
f.标注语料的规模不是越大越好,不是越多越好。未来我们应该善于从较少的语料中学到更多的知识。无论标注的语料或生语料,都要强调质量。这不仅是考虑成本,更是为了排除语料中噪声对于信息处理的干扰。
我们说的融合不是简单的加工结果的融合,而是系统内部的技术的融合。其所以要融合而要摒弃单打一、走极端,是因为任何一种方法都是有它的局限性的,另外,语言处理是极其复杂的,就应该根据不同的任务采取不同的策略。我们所说的融合,是任务需求牵引下的融合。在同一个系统里融合各种方法,而不是非此即彼,互不兼容。学会和善于融合各种不同质的资源、不同技术路线的方法,正是我们创新的广阔天地。如今的“基于句法的统计机器翻译”是技术融合的一个很好的例子。我们相信未来的语言处理系统将纳入大规模的意义计算所需的知识资源和推理机制。这里我们还以机译为例,试看下面英文句子:
(q) When I came to the bank again, I found the river had gone dry. We could not go fishing any-more.
句中的“bank”对于翻译人员而言,是毫无疑问的。但是我们让5个流行的机译系统来翻译,却没有一个翻对的。它们有的是基于统计的也有的是基于规则的,试看译文:
(q-1) 当我再次来到银行,我发现河水已经干燥。我们不能去钓鱼了。
(q-2) 当我再次来到银行时,我发现这条河干枯了。我们可以不去钓鱼了。
(q-3) 当我来到银行,我发现河水干枯了。我们可以不去钓鱼了。
(q-4) 当我再次来到银行时,我发现河已经变干。我们不能再去钓鱼。
(q-5) 当我再来了到这家银行,我发现这条河干燥。 我们不可能去再钓鱼。
(HowNet EC MT)当我再来岸边时,我找到了河变得干。我们未能再钓鱼。
《知网》的英中机译系统会正确判别“bank”的意义,是因为它融合了一个被称之为《意义群落测定》的功能。该功能可以在概念相关性基础上进行推理。在本例句中,“river”和“go fishing”均会给“bank”作为“河岸”的义项投票加分,以至于使该义项的测定值高于其他义项。
前瞻下一站,人本计算应该是一个必要的关注点。“人本计算”英文是human-centered computing(HCC),近年来与之相关的流行的术语有“human-centered artifacts”、“human-centered design”、“computer-supported cooperative work”等。人本计算属于新兴的多学科的研究领域。它与人机交互、信息科学有着密切的关系。我们认为格微软件公司开发的《格微协同翻译平台》是典型的人本机器翻译系统。人本机器翻译是以人为本的,以人为主体的。它不同于全自动的机译系统,翻译人员处于被动的地位,只能被动地去修改那质量不高的,或有错误的机器译文;它也有别于机助翻译系统,一般的机助翻译主要仍会依赖机器提供的全自动的和翻译记忆的译文,它功能单一,适应性差。“协同翻译平台通过创建用户模型,实现了人(用户)机(系统)的一体化设计,使用户、系统和知识处于一个和谐统一的管理平台中。用户模型作为用户在系统中的一种映射,为系统在翻译过程中的决策优化提供了支持和保障,也进一步提高了翻译知识积累和应用的有效性”[9]。人本协同翻译平台的优点是: 第一,它为用户提供了极其丰富的知识,它们包括: 翻译模板、术语、翻译对象的本体知识、网站在线翻译的结果、译员的同事的翻译结果及其频次、该同事的翻译能力档案记载、校对记录等等。每个译员的行为模型将成为翻译平台的知识的一部分。翻译平台不仅会现场地帮助译员翻译,而且能够为他们提供培训。它可以在短短的几个月内把一个从未从事过任何翻译工作的大学毕业生培养成能够较熟练地翻译专利文献或专门领域资料的翻译人员。除了译文质量难满足用户要求外,全自动机器翻译的另一个缺陷就是它的“喧宾夺主”。在与机器交互时,人的主动参与是永恒的主题。博客的兴起也可以说明这一点。人本计算还会包括一个重要特色: 普适计算,这也是我们特别要关注的。
30年对一项事业是太短了,中文信息处理走过的这30年是辉煌的,是令人骄傲的。我们期望今后我们各自的研究更加突出自己的特色,有自己的创新,竖起自己的旗帜。我们期望我们大家更早地去到人类语言技术研发的下一站。但愿在意义和内容的深层计算技术中,我们有更多的创新。
[1] 冯志伟.论语言学研究的战略转移[J].现代外语,2001,(1):1-11.
[2] Shuly Wintner, What Science Underlies Natural Language Engineering?[J].Computational Linguistics Volume 35, Number 4, 2009 Association for Computational Linguistics.
[3] Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. World Scientific Publishng Company, Singapore, 2006.
[4] 邢富坤,宋柔. 自动词性标注中语法因素和词汇因素对英汉语的不同影响[C]//CCL—2011论文集,清华大学出版社,2011.
[5] 宋柔. 从语言工程看汉语词类[M]//语言学论丛(第40辑),商务印书馆,2009.
[6] 沈家煊. 我只是接着向前跨了半步——再谈汉语的名词和动词[M]//语言学论丛(第40辑),商务印书馆,2009.
[7] 李艳娇,杨尔弘. 树库中歧义组合考察[C]//CCL—2011论文集,清华大学出版社,2011.
[8] Kenneth Church, A pendulum Swung Too Far[J].Linguistic Issues in Language Technology—LiLT, Volume 2, Issue 4 May 2007.
[9] 张桂平,蔡东风. 基于知识管理和智能控制的协同翻译平台[J].中文信息学报,2008,22(5): 3-11.