李宇明
(北京语言大学 语言资源高精尖创新中心,北京 100083)
中文信息处理的发展史只有几十年,但对于中国语言生活的影响,对于中国社会的推进,却是巨大的。回顾中文信息发展的历史,讨论语言生活的变化,有利于认识中文信息发展的规律并预测其走向,有利于把握语言生活的新状况并帮助过好语言生活。本文讨论三个问题:第一,中文信息处理的进展;第二,语言生活的新时代;第三,语言学与中文信息处理。
科学技术都是由问题驱动而前的。中文信息处理是在处理汉字、词语和句子的一系列问题中,步步向前的。
中文信息处理起步于20 世纪七八十年代。一开始是处理书面语,遇到的第一个大问题便是汉字。在解决汉字信息处理时,取得了诸多成就:大规模统计了汉字使用频率,总结出了“汉字效用递减率(周有光)”,制定了第一个汉字编码国家标准GB 2312-80。汉字键盘输入的编码方案“万马(码)奔腾”,汉字自动识别技术、汉字存储技术及输出技术迅速发展。特别是王选教授研发的汉字激光照排系统,使汉字印刷告别了铅与火的时代。此期,信息检索也有进步,主题词表、文献库、全文检索、自动标引、自动文摘等方面都有成绩可述。
汉字进入计算机的难题逐步攻克,词语处理成为亟待解决的问题,其基本任务是自动分词和词性标注。汉语书面语,不像英、法、俄、德等语言以词为单位排列,而是以字为单位排列。信息处理是以词语为识别单位的,故而需要制定信息处理的分词规则、建立分词词表、妥善处理表外的“未登录词”(基本上是专有名词和专业术语)。汉语形态不发达,词类兼类现象较为普遍,需要制定适合信息处理的词类系统、建立词类标注规范、确立词性标记集。为支持词语处理,信息处理学界还建立了“语言工程”理念,建设了一些知识库、语料库,进行了大规模的词频统计。此期,汉语语音处理技术(特别是语音识别)、机器翻译、计算机辅助语言教学与测试等也都有进步。中文信息处理技术整体迈入实用化、商业化阶段。
词语处理进展到一定时期,句处理的任务就紧迫起来。句处理需要进行句法分析和语义分析,还有更多的语用问题。句处理其实就是真实的自然语言处理,对于语言资源的需求也更为急切。为支持句处理工作,一批高质量、大容量的大型通用汉语语料库建立起来,如国家语委、清华大学、北京大学、北京语言大学等都建立了自己的大型语料库。各类知识库也先后被开发出来,如《现代汉语语法信息词典》《动词大词典》、“知网”、《现代汉语语义词典》《中文概念词典》《同义词词林扩展版》、汉语虚词知识库、汉语事件知识库等等。此期,机器翻译研究呈现新面貌,在语料库语言学的指导下,基于实例的翻译方法和统计翻译方法得到广泛运用,网上机器翻译系统发展迅速,口语机器翻译研究取得突破。互联网的进步和网络技术的发展,大大地促进了信息检索技术的发展,信息检索、文本分类、信息抽取、文本摘要等的研究价值也充分显现出来。计算机学界与语言学界合作紧密,中文信息处理呈现出蓬勃发展的情景。
2010年前后,中文信息处理扫除诸多中文处理的特殊困难,开始与国际自然语言处理更加同步。此时,“深度学习”“知识图谱”“大数据”等概念流行起来,中文信息处理走上了“数据驱动”之路。词向量技术带动着语义分析领域的进展,机器翻译、信息检索、人机对话、机器写作、虚拟主持人、社会计算等领域都有突破性进展,情感分析、机器语言行为等也受到关注。当前,社会对于包括中文信息处理在内的人工智能特别关心,国家制定了人工智能发展规划,一批人工智能、语言智能的研究院、学院相继建立起来。语言信息处理进入一个新的繁荣期。
中文信息处理开展的时间不长,机器的中文智能还比较低下,但的确是“人工智能一小步,人类社会一大步”。回首过往,会发现我们的语言生活已经发生了巨大变化。
过去汉字要用笔书写,现在主要用键盘敲击。“键盘时代”使我们常常“提笔忘字”,很多人已是手拙字丑,只认识印刷体不认识手写体。键盘输入,笔画、笔顺已经没有写字时代那么重要,那么,小学识字教学,是否还要特别强调“四、国”的第二笔有钩无钩?是否还要强调“万”的第二笔、“方”的第三笔是写一撇还是写横折钩?从历史上看,汉字形体的发展变化都是由书写推进的,如篆书演变为隶书的“隶变”,隶书演变为楷书的“楷化”。那么,以后汉字的形体还会发生变化吗?键盘时代,带给人很多写字的忧虑,带给人很多关于汉字前景的思考与遐想。
语言总是需要媒介、需要载体的。文字和印刷术的出现,使语言在声波的基础上又获得了光波这一新媒介,产生了书面语,有了图书报刊等平面媒体。广播、电视的出现,使语言又获得了电波媒介,人类有了有声媒体。互联网的发展为人类构筑了一个虚拟空间,产生了网络媒体。平面媒体、有声媒体、网络媒体的迭代融合,便形成了融合媒体。中文信息处理,使我们在网络时代可以进入融媒体时代。
网络媒体和融媒体,正在改变着我们的阅读习惯。碎片化阅读、行走中阅读、读标题、读图等所谓的“浅阅读”成为常态,专心阅读一篇长文已是“奢侈”之举、罕见之事。信息检索主要靠网络,靠知识库,纸媒图书已经退居到知识的“桥栏杆”的地位。许多治学者也主要靠数据库查阅文献,平时的文献阅读、素材积累的功夫正在退化。图书、杂志等信息提供者已经不满足于向用户被动地提供书目单或内容提要,而探索着信息的二次加工和信息的精准投送。融媒体时代,知识的生产、储载、应用的模式都在悄悄地发生着变化。
互联网,特别是移动互联网,4G及5G互联网为人类架构了一个“虚拟空间”。而正是因为有了中文信息处理的成果,国人方可在虚拟空间中过上虚拟语言生活。过去的语言交际方式是“人-人”交际,现在多数是“人-机”交际和“人-机-人”交际,在“人-机”交际和“人-机-人”交际的背后,其实还存在着“机-机”交际。网络里,人们可以用虚拟身份进行交际,可以利用微信等聊天工具同时在多个群里出现,同时扮演不同的交际角色。人类的语言交际方式发生了重大变化。
人类在现实空间从事的各种活动,都尝试迁移到虚拟空间中。在这种“空间大挪移”的魔术中,有些活动比在现实空间做得更好,有些则无法迁移,有些则可以在两个空间中合作进行。凡在虚拟空间做得更好的活动,就可能不在现实空间中进行,比如信件被电子邮件代替了,邮递员这个职业消失了。虚拟语言生活在改变着人类的活动方式,增加了许多新行业,也“取缔”了不少传统职业。
虚拟语言生活十分活跃,新词语及语言的新用法常在网络上孕育,再传播到现实语言生活中。就语言发展、语言风格等方面来看,现在是虚拟语言生活在引领现实语言生活。网络媒体成了新词语、新现象产生的温床,网民是语言发展最为重要的力量。对待网络语言的态度要与时俱进。
随着计算机语言智能的提升,计算机可以做的语言工作越来越多,介入人类的语言生活也越来越广泛、越来越深入。语音输入、口语与书面语的自动转换、机器翻译、文献处理、人机对话、机器写作等等,带来了人与机器在语言生活中的深度合作。特别是将来具有语言智能的机器人出现,人类将与机器人共处共事,共同进行语言生活。这不是童话故事,而是正在实现的未来。目前,网络上机器人的写作已经占到15%左右。
在人与机器人的语言合作中,不仅驯化着机器,人类也在驯化机器中改变自己,改变着自己的书写习惯、阅读习惯、语言交际习惯甚至是语言思维习惯。这些习惯正在形成一种新文化,这种新文化需要通过教育传授给社会和未来人,正如文字产生之后要进行扫盲和学校语文教育一样。更为重要的是,语言智能会为社会各领域带来发展“红利”,也会促进社会劳动力的大转移,从被取缔的行业转移到新兴行业。就个人而言,需注意语言智能的前沿发展,为自己插上语言智能的翅膀,而不是被机器碾压。就国家来说,语言智能的发展已经严重影响到国家人力资源的分配与开发,需要及时调整学校的学科设置和课程设置,培养适合于语言智能时代的人才,同时也要及时发出产业预警,并通过社会培训有计划地进行劳动力转移,防止出现大面积失业现象。
语言智能的发展在支撑着一个信息化时代,同时也须思考,语言智能(包括智能机器人)是否会用在危及人类的地方,机器人的智力“无限增长”是否会变得不可控制,而最终把人作为它的奴隶。这也许是“杞人忧天”,但也确实应为语言智能装上“牛缰绳”“马笼头”。这缰绳和笼头,包括从业者的自律、科学道德和法律的保障。2018年,北京语言大学开始设立“语言智能与社会发展高层论坛”,既要促进语言智能的快速发展,保证社会获取人工智能的最大红利,也要应对语言智能发展可能带来的伦理学、法学问题。
数据驱动着中文信息处理驶入快车道,在许多领域,中文信息处理已经走在世界自然语言处理的前列。数据驱动的能量还极其强大,要不失时机地释放数据的能量,推进语言智能的快速发展,推进语言智能的社会应用。但是,数据驱动的缺陷也是比较明显的,比如数据所包含的知识并不全面,可能具有“偏颇性”;数据学习表现的是统计频率,而不是因果关系,不是客观规律;机器从数据中学到了什么,人们并不十分清楚,深度学习是一只“灰箱”。有学者预测,数据驱动的发展也会遇到“天花板”。而规则是人对事物的认识,对规律的把握,反映的是因果关系。语言智能的下一个学术发展周期,应当是数据与规则的“双轮驱动”。这规则可能来自于多个学科,其中一个基础学科就是语言学,是语言学得到的关于语言及其运用的规则。
语言学与中文信息处理有过一段超长的“蜜月期”,只是到了语料库语言学时期,统计方法可以有效解决一些问题时,语言学的“规则”效力始被质疑。到了深度学习的理论与方法流行之后,语言学的规则仿佛成了“无用之物”。语言学之“无用”源自三个方面:
其一,数据效力遮蔽了语言学效力,其实语言智能关于语言的属性与概念、语言各层级各单位之间的关系、语言与人类社会的关系的认识等,还都来自于语言学的基本知识体系。
其二,语言学的知识表述没有形式化,是供人看的知识,而不适合于机器阅读。形式化表述成了语言学知识到达语言智能车间的“最后一公里”。
其三,语言学是以语言结构为学术基点的,主要精力在于语言结构的研究上,而中文信息处理在基本解决了字、词语的问题进入句处理阶段后,就开始了对真实话语的处理,而语言学对话语研究用力不够,积蓄不多。为了打造语言智能的语言学“规则之轮”,语言学必须实现“话语转向”,把学术基点转至“话语”。话语是语言的真实存在状态,本应成为语言学研究的重要对象。
中文信息处理的发展过程中,语言学起到了重要的支撑作用,包括人才支撑和语言学知识体系的支撑。同时,中文信息处理也得到了一些新的数据,比如字频和词频;提出了或强调了一些研究课题,比如词的识别和词性的识别、词语兼类、专有名词及其简称、数量结构、代词的指代关系、词语和句子歧义问题等等;建设了一批语言工程,如各种语料库、知识库等,这些资源支持着语言研究的现代化;问世了一批语言信息化产品,如电子词典、自动翻译机等,帮助语言学开展社会语言服务。这些新数据、研究课题、语言工程、语言信息化产品也在启发着语言学,装备着语言学,提升着语言学的研究能力,推进着语言学的现代化。
中文信息处理取得如此显著的成就,与国家的语言规划具有密切关系。1986年1月召开的全国语言文字工作会议就提出:汉语汉字的信息处理是一门新兴的边缘科学,有广阔的前景,加强这方面的研究,对经济、文化、科学技术的发展具有长远的意义。因此,当前语言文字工作的任务必须包括这项内容。之后,又进一步提出了语言文字的“三化”(规范化、标准化、信息化),汉字整理工作的“四定”(定量、定形、定音、定序),并发布了信息处理用的多个规范标准,甚至还成立了“语言文字信息管理司”专司语言文字信息工作。1986年之后,国家语委一直把语言信息化作为重要工作,除了制定语言信息化的工作目标之外,所有工作都会考虑信息化的背景和对信息化的支持,许多语言文字规范,包括《通用规范汉字表》,都充分照顾到语言信息化问题。如果没有国家语言政策的支持,我国的中文信息处理事业,乃至整个国家的信息化事业都不可能有今天的局面。在语言智能时代,需要什么样的国家语言规划,这是应当继续考虑的。多少有点遗憾的是,人们常常忽略国家语言政策、语言规划对信息处理发展做出的重要贡献。
学科交叉不仅是科学发展的要求,也是人才培养的要求。培养语言学与自然语言信息处理的交叉人才,是语言智能发展能够获得双轮驱动的必要保证,也是促进语言学能够充分利用现代信息技术、实现话语转向、乘借语言智能而发展自己的必要保证。而当前,我国语言学人才培养的体制和机制,都不适应新时代的语言生活,不适应语言智能的时代发展,需要进行改革。
在一些重要的文献中,已经理智地认识到人工智能的发展,要与神经科学、认知科学、量子科学、心理学、数学、经济学、社会学等相关基础学科交叉融合,但是往往忽视了语言学,这是“语言意识薄弱”的一种表现,也是不利于人工智能事业发展的。