林伊洋
(上海市控江中学,上海 200093)
1999年,美国计算机学家Bill Manaris在《计算机进展》一书中提出了自然语言处理一词,将其定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。而随着现代化技术的发展,如今的自然语言处理的广泛定义为自然语言处理研究在人机交互的过程中,如何能使人类与计算机更高效地进行通信的理论知识和科学手段,它囊括了计算机学,语言学和数学。其过程主要分为四个阶段:对人类面的语言进行处理,以缜密的数学形式化模型呈现出;将数学化模型改写为能在计算机上输入的算法模型;根据所定义的算法模型,编写计算机语言程序,使自然语言处理得以应用化实现;对已成型的自然语言处理模型进一步优化,应用于更多领域。
20世纪40年代到20世纪50年代属于自然语言处理技术的萌芽期。在此期间,A.M.Turing的计算机算法模型为现代计算机科学奠定了基础。他的研究也帮助了之后Culloch—Pitts(麦克罗克-皮特)的神经元理论和Kleene(克林)有关有限自动机和正则表达式的研究,使之后的算法计算模型得到了显著的提升。除此之外,N.Chomsky(乔姆斯基)关于形式语言理论的研究和C.E.Shannon(香农)概率和信息论模型的研究也相继取得成功,成为了巩固现代计算机语言的各项基本技术。
20世纪60年代到20世纪80年代属于自然语言处理技术的发展期。机器翻译技术日趋成熟,并被应用于实际生活。同时,统计算法在语音识别算法研制中也取得了成功。语音和语言处理概率模型的提出以及基于逻辑学方法在自然语言处理中的研究是这个时期主要的科研成果。
20世纪90年代后属于自然语言处理技术的繁盛期。机器翻译中引入了建立大规模语料库方法,使其性能得到了飞跃般的提升。随着计算机计算量、计算速度以及万维网的爆炸式发展,数据挖掘和信息检索的需求越来越大,自然语言处理技术也因此在更多的方面得到进一步的发展。
3.1.1 搜索引擎的现状及存在问题
随着信息化时代的到来,互联网在人们的生活中起着尤为重要的作用。而互联网最实用的作用之一就是信息搜索。目前的搜索引擎主要分为三大类,分别是全文搜索引擎、目录搜索引擎和元搜索引擎,但以上三种传统搜索引擎都是基于关键词查找,无法理解用户输入的内容,造成搜索结果的不全面、不准确。因此,提升搜索引擎对计算机自然语言的理解是解决该问题的关键,要进一步研究计算机自然语言处理技术,使其应用于智能化搜索引擎的开发。
3.1.2 基于自然语言处理的汉语搜索引擎发展状况
20世纪60年代,国外成功开发出了一项能够通过分析词句的语法信息来理解句子的自然语言处理系统,在一定程度上实现了基于自然语言处理的智能化搜索引擎。但由于语种的差异,通过此类方法来实现汉语的智能化搜索难度要远远大于英语。但在90年代中后期,中国科学院的黄增阳教授,基于中国传统语言学、物理学、信号处理、哲学等方面的功底,成功研究出了面向自然语言理解处理的概念层次网络(HNC)理论。该理论通过模拟人类大脑对语言的感知过程,使计算机理解自然语言,也成功地实现了一部分基于信息语义的智能化搜索。
2001年1月,前Infoseek资深工程师李彦宏与加州伯克利分校博士徐勇从美国硅谷回国,在北京创立百度(Baidu)公司,定位于打造中国人自己的搜索引擎。据统计,目前百度收录中文网页已超过2亿,其独立访问者有2.687亿,是世界最大的中文数据库。百度公司的这支队伍掌握着世界上最为先进的搜索引擎技术,使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。
现今,一部分西方发达国家非常重视自然语言处理技术在军事领域的潜力,潜心研究自然语言在各个方面的技术应用,例如语音识别,文本分类,信息挖掘,信息检索,机器翻译等。美、英、法等国家也相继投入大笔资金,将计算机自然语言处理技术融入军事行动之中,开发信息化的武器装备,大大提高了国家的军事实力。
3.2.1 基于语音识别功能的军事武装控制
现代化的战斗机操作系统日趋复杂化,而飞行员不仅要在各种天候下,克服苛刻的任务要求,还要准确无误地操作战斗机的各项设备,无疑是一个很大的挑战。因此,在战斗机座舱中加入语音识别系统会对此类问题有很大的改善。在环境噪声高达120分贝的座舱内,实现高度精确的语音识别较为困难。同时,飞行过程中的重力、引力、向心力也会影响飞行员的发音。英国、德国、西班牙、意大利联合研发了搭载直接语音输入系统(DVI)的新式战斗机—“台风”,Eurofighter Typhoon。飞行员控制系统在有了语音控制操纵杆系统(VTAS)后变得更加高效,直接的声音输入允许飞行员使用声音命令实现模态选择和数据登录程序,这也是世界上第一种语音操控系统,覆盖传感器、武器控制、防卫帮助管理和飞行中的操纵,够识别大约200个单词,反应时间大约为200ms,正确率超过95%,提供24个原来需要指尖控制的指令。
3.2.2 基于语音识别与分析的情报搜索
人类的说话声音能作为一种生物特征被鉴别,而语音识别与分析技术就能够活用于此领域来实现人物身份鉴别。语音分析共分为两种方式,一是从某段连续的语音数据中,抽取出一两个单词或词组的声音信息,与保存在计算机数据库中的声纹信息相比较,筛选出相似度最高的一个;另一种是对某段语音的声带特征进行解析,来确定被调查者的身份。据悉,美国国防部十分重视语音处理技术,通过监听系统截取部分声音内容就可准确确定该段对话的讲述者。美国911事件的主导者,本·拉登在逃亡期间完全避免使用移动电话或互联网等电子设备为的就是不让美国中央情报局监测到他的位置。但美国情报局却通过语音识别与分析的手段成功截获并解析出他的一名信使与他人的通话,最终找到了本·拉登的藏身之处。由此可见,基于自然语言处理的计算机语音识别技术的重要性之大。
医学影像报告—组成电子健康病例(EHR)中大量数据信息的主要部分。但大多以自由文本形式出现的医学影像报告,由于其非结构式数据的信息而不利提取,故自然语言处理(NLP)成为了使医学影像报告信息化的重要手段。自然语言处理技术能通过计算机自动分析自有文本,提取其中的有利信息并将其加以整合。其主要过程分为三个阶段:特征提取、特征加工、系统训练和验证。
在特征提取阶段中,计算机首先进行词汇分割,判别词根,扩写缩略语等,识别出单个词汇的概念;再进行每个词汇的语义分析,定义出词汇相联系之后得到的医学概念,输出结构式的数据;然后进入到特征加工阶段,计算机检索得到的结构式数据是否包含目标概念,判断出能否根据其推导出某种临床结局。这一过程必须遵循一种规则,它可以由专家制定,也可以由计算机自主学习生成规则,亦或是二者相结合。完成特征加工之后的系统,需要通过给予计算机大量的标准数据来进行训练和验证工作,也就是系统训练和验证。通常情况下,提供的标准数据越多,系统在实际运用中的稳定性也越强。
通过使用自然语言处理技术处理医学影像报告,能够进一步挖掘出报告信息与临床信息的内在关系,并与此同时综合分析报告的结果,给予评价,为辅助影像医师提供更便捷的帮助。
目前,对于中文的句法分析还不够准确,应建立更加完整的数学形式化模型,并对一些特殊的词句用法进行独立的处理,面对中文的复杂性,使计算机全面准确地理解用户的语义,做出精确更高的反馈。
自然语言处理系统不易被接受的很大一部分原因在于其处理信息的规则不够明晰。若是由专家制定的规则,人们尚能接受,但倘若是由计算机自主学习并制定的规则,其背后的原理过程太过复杂,得不到人们的信任。故面对此类问题,应进一步发展自然语言处理的自主学习,提高其过程的可读性。
随着现代技术的发展,计算机自然语言处理技术日趋成熟,并在各领域为人们提供了许多便利,解决了许多问题。在搜索领域方面,自然语言处理技术让现有搜索引擎的结果更加准确,更加人性化。在军事领域方面,自然语言处理技术的发展大大加强了各国的军事实力,无论是在语音控制,还是情报检索中都发挥着必不可少的作用。而在医学领域,自然语言处理技术同样为医学工作者们带去便捷,自动化的临床诊断与信息分析指日可待。自然语言处理技术在人类的生活中担任着尤为重要的一个角色。
[1] 冯志伟.自然语言处理的学科定位[J].解放军外国语学院学报,2005(03):1-8.
[2] 殷淑娥,田伟,于泳海.自然语言处理技术在搜索引擎中的应用[J].电子商务,2012(05):67+69.
[3] 张凤,高航.自然语言处理技术在西方国家军事领域的应用现状[J].国防科技,2014,35(06):75-82.
[4] 马帅,王霄英.自然语言处理在医学影像中的应用[J].放射学实践,2016,31(12):1120-1123.
[5] 冯志伟.自然语言处理的历史与现状[J].中国外语,2008(01):14-22.