自然语言处理的现状研究与未来发展初探

2017-03-24 10:07王天笑
中国科技纵横 2017年2期
关键词:机器学习处理人工智能

王天笑

摘 要:自然语言处理是人工智能领域所研究的重要课题之一,同时也是目前最前沿的科技研究热点之一。探究并实现人与计算机之间使用自然语言进行有效通信的各种理论和方法,是未来人工智能的核心驱动力。因此,了解自然语言处理技术的科学内涵,阐述自然语言处理的研究方法及发展历史,深入探究自然语言处理在各个领域中的应用与现状,进一步展望未来的发展趋势,是十分必要且有意义的。

关键词:自然语言;处理;人工智能;机器学习

中图分类号:TN941.1 文献标识码:A 文章编号:1671-2064(2017)02-0196-02

随着社会的日益信息化,计算机学科也在逐步发展成熟,人们也越来越强烈地希望能更好地同计算机进行交流。而伴随信息爆炸而来的是更为广阔的信息检索需求、日益严峻的信息安全问题以及潜力十足的机器翻译市场。如何让计算机实现自动的语言处理功能、挖掘和有效利用海量语言信息显得尤为重要,也对于人工智能研究领域提出了更新的要求。

1 自然语言处理的含义及任务

1.1 自然语言处理的含义

1.1.1 什么是自然语言处理

自然语言处理(NLP, Natural Language Processing)是使用机器处理人类语言的理论和技术,将语言做为计算对象来研究相应的算法。目的是让人类可以用自然语言形式跟计算机系统进行人机交互,从而更便捷、有效地进行信息管理。关键是要让计算机“理解”自然语言,所以自然语言处理又被叫做自然语言理解(NLU, Natural Language Understanding),也称为计算语言学(Computational Linguistics)。

1.1.2 什么是自然语言

根据新华字典的解释,自然语言是指以语音为物质外壳,由词汇和语法两部分组成的符号系统。众所周知,语言是人类交际的工具,也是人类思维的载体。我们所说的自然语言具体是指约定成俗的、区别于人工语言的语言,如程序设计语言。

1.1.3 什么是处理

处理的含义包括理解、转化、生成等。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。

1.2 自然语言处理的层次性

自然语言的理解和分析过程是一个层次化过程,许多语言学家把这一过程划分为以下五个层次,从而更好地体现语言本身的构成:

1.2.1 语音分析

根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。

1.2.2 词法分析

分析目的是找出词汇的各个词素,从中获得语言学的信息。

1.2.3 句法分析

对句子和短语的结构进行分析,目的是找出词、短语等的相互关系以及各自在句中的作用。

1.2.4 语义分析

分析目的是找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。

1.2.5 语用分析

研究语言所存在的外界环境对语言使用者所产生的影响。

2 自然语言处理的研究内容

2.1 自然语言处理的研究方向

自然语言处理的范围涉及众多方面,如机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等等。大致可分为以下四个方向:

2.1.1 语言学方向

把自然语言处理看作语言学的一个分支来研究,研究内容只涉及语言处理与计算相关的方面,不涉及在计算机上的具体实现方法。这个方向最重要的研究领域是语法形式化理论和数学理论。

2.1.2 数据处理方向

把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。

2.1.3 人工智能和认知科学方向

把自然语言处理作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。

2.1.4 语言工程方向

把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般也被称为“人类语言技术”或“语言工程”。

2.2 自然语言处理的应用

以上所讨论的研究方向基本上涵盖了当今自然语言处理主要的研究内容,进一步可细分为具体的应用如下:书面语输入、语言分析和理解、话语分析与对话、语言生成、多语问题的计算机处理、口语输入、口语输出技术、自然语言处理中的数学方法、信息传输与信息存储、文献自动处理、语言资源、多模态的计算机处理、自然语言处理系统的评测。这些应用领域都需要对语言进行更形式化的描述,建立合适的算法,并在計算机上实现这些算法,因此,要涉及到的学科包括数学、逻辑学和计算机科学等,当然也需要运用到电子科学技术。由此我们可以得出,自然语言处理都是一个多边缘的交叉型学科。由于它的对象是语言,因此,本质上它是一个语言学科,但还涉及到其他众多的学科,尤其是数学和计算机科学。

3 自然语言处理的发展概述

3.1 自然语言处理的发展历程

1956年之前,人们主要进行的都是自然语言处理的基础性研究。1948年Shannon把离散马尔可夫过程的概率模型首次应用于描述语言的自动机,同时又把“熵” (Entropy)的概念引用到语言处理中。 就在同一时期,Kleene研究了有限自动机和正则表达式。1956年,Chomsky提出了上下文无关文法,也因此产生了基于规则和基于概率两种不同截然不同的自然语言处理方法,进而引发了数十年该领域研究中两大阵营有关孰优孰劣的争执。

1956年,人工智能誕生以后,自然语言处理迅速融入了人工智能的研究中。随机派学者在这一时期利用贝叶斯方法等统计学原理取得了一定的进步;而以Chomsky为代表的符号派也进行了形式语言理论、生成句法和形式逻辑系统的研究。由于这一时期,多数学者注重研究推理和逻辑问题,只有少数学者在研究统计方法和神经网络,所以符号派的势头明显强于随机派的势头。

1967年美国心理学家Neisser提出了认知心理学,从而把自然语言处理与人类的认知联系起来。

70年代初,由于自然语言处理研究中的一些问题未能在短时间内得到解决,而新的问题又不断地涌现,许多人因此丧失了信心,自然语言处理的研究进入了低谷时期。尽管如此,一些发达国家的学者依旧地研究着。基于隐马尔可夫模型(Hidden Markov Model,HMM)的统计方法和话语分析(Discourse Analysis)在这一时期取得了重大进展。

80年代,在人们对于过去的工作反思之后,有限状态模型和经验主义的研究方法开始复苏。

90年代以后,随着计算机的速度和存储量大幅增加,自然语言处理的物质基础大幅改善,语音和语言处理的商品化开发成为可能;同时,网络技术的发展和1994年Internet商业化使得基于自然语言的信息检索和信息抽取的需求变得更加突出。自然语言处理的应用领域已不再局限于机器翻译、语音控制等早期研究方向。

从90年代末到21世纪初,人们逐渐认识到,仅用基于规则的方法或仅用基于统计的方法都是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种处理技术开始融合,自然语言处理的研究又迅速发展并逐渐兴旺起来。

3.2 自然语言处理的研究现状及思考

自然语言处理的研究历史虽然不是很长,但就目前已经取得的成果和地位足以显示它的重要性和广阔的应用前景。就目前的研究成果来看,部分问题已经得到了解决,可以为人们提供可靠的辅助性帮助,比如专业领域文档翻译,电子词典,搜索引擎,文字录入等。但随着信息服务、通讯、网络内容管理、情报处理、国家安全等社会需求的日益迫切,很多基础问题的研究仍然任重道远:比如语义表示和计算、比如高质量的自动翻译。目前所进行的研究中,暴露和存在的问题还有很多很多,研究中仍然缺乏坚实的理论基础;词汇句法方面的问题尚未解决,已开始挑战语义、知识等深层次课题;语音识别中采用的统计语言模型推动了发展,于是目前的统计模型在迅速向语言深层发展等等等等。所以,许多技术离真正实用其实还有不少距离,若干理论问题也有待更深入的研究。我们可以从现有的模型和方法改进入手,在不成熟技术的基础上开发出更实用的人机系统,我们也有理由期待更有效和更健全地理论体系。

3.3 自然语言处理的未来前景及研究意义

从长远看,自然语言处理具有广阔的应用领域和令人惊喜的应用前景。作为一个多学科交叉的新型领域,自然语言处理的繁荣发展对于很多相关学科及方向都具有深远的影响力。伴随着各种词表词义词法语料库等数据资源的日益丰富、分析技术的快速进步、新方法新理论的不断涌现、研究模型的逐渐迭代更新,不仅可以为理论研究奠定坚实基础,自然语言处理的快速发展也将逐步巩固其在人工智能领域乃至整个计算机科学研究的核心课题地位。

最后,基于上文对于自然语言处理领域现状的深入研究与现状分析,我们可以得出以下结论:未来该领域的研究方法将更强调多技术多领域集成、更强调理性与经验方法相结合、更强调模块构件化和工具环境开发、更强调知识与意义的表示和利用、更强调实际研究成果的实用化。

参考文献:

[1]蔡自兴,等.人工智能及其应用[M].北京:清华大学出版社,2001.

[2]俞士汶.自然语言理解与语法研究[M].北京:商务印书馆,1999,1240.

[3]姚天顺.自然语言理解-一种让机器懂得人类语言的研究[M].清华大学、广西科技出版社,2002(第二版).

[4]汪安圣.认知心理学[M].北京:北京大学出版社,1997.

[5]王小捷,常宝宝.自然语言处理基础[M].北京邮电大学出版社,2002.

[6]冯志伟.自然语言处理的历史与现状[J].中国外语,2008.

猜你喜欢
机器学习处理人工智能
人工智能与就业
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
桥梁软土基础处理应用