刘子琦
(天津英华实验学校,天津 301799)
现在,有很多网站都提供用户与客服在线聊天的窗口,但其实并不是每个网站都有一个真人提供实时服务。所谓的在线客服,往往仅是一种初级的人工智能,大多聊天机器人无异于自动应答器。这其中运用到的便是人工智能(Artificial Intelligence, AI)技术。其中最有趣也最困难的是,这些聊天机器人必须擅于“理解”自然语言。当下社会,各行各业对于人工智能方面的人才需求也在不断增加,可见人工智能专业的未来发展空间还是很可观的。
人工智能是计算机科学的一个分支,是以仿制人类智能的方式研制出的技术,该领域的研究包括机器人、图像、语言识别、自然语言处理和专家系统等,这些复杂多样的技术研究使其可以帮助我们完成更复杂的工作[1]。人工智能技术使得其能像人类一样思考问题并做出反应,对于更为高级的人工智能而言,它们的智能可能正在逐渐超越人类。
那么,人工智能领域的热门研究方向又是什么呢?人工智能作为科技创新产物,促进人类社会进步,提升人类生活水平,在方方面面都起着至关重要的作用。此时,不得不谈的便是人工智能自然语言处理这一研究技术。顾名思义,它与语言学有着密不可分的联系,但又有着至关重要的区别,这一技术的实质在于研制能有效地实现自然语言通信的计算机系统中的软件系统。更深奥地说,自然语言处理技术是在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写[2]。
自然语言处理技术的发展脉络可被分为萌芽期、快速发展期、低速发展期和复苏融合期等阶段[3]。
1956 年以前属于自然语言处理的萌芽期。一方面,人类文明经过了几千年的发展,积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件,同时也是自然语言处理的理论基础;另一方面,“图灵机”这个观念由阿兰·图灵于1936 年首先提出。“图灵机”是真正意义上的电子计算机产生于1946 年的重要原因。而电子计算机的出现,也为后来的机器翻译及后续的自然语言加工奠定了坚实的基础。在1943 年,Shannon提出了一个基于离散马尔可夫的可能性模式来表示该语言的自动机。然后,他在“熵”这个热力学的定义中引入了一个概率运算。20 世纪50 年代初期,Kleene 开始对有限自动机和规则表示进行了深入的探讨。在1956 年,Chomsky 还将语境独立的语法引入到了自然语言的加工中。他们的研究结果导致了两种以规则为基础的、以概率为基础的不同技术方法的产生。
1957 年至1970 年属快速发展期,由于有基于规则和基于概率这两种不同方法的存在,自然语言处理的研究在这一时期分为了两大阵营:一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。在此期间,两者的理论和实践都有了很大的进展。50 年代中叶至60 年代中叶,象征主义学派以乔姆斯基为首,在形式语言学和产生语法方面展开了一系列的探索。而在此期间,贝叶斯统计分析的随机性理论也有了长足的发展。该阶段主要的研究结果有:宾夕法尼亚大学于1959 年开发出TDAP,并在此基础上构建了布朗美国英语语料库。1967 年,美国心理学家Neisser 提出认知心理学的概念,直接把自然语言处理与人类的认知联系起来了。
1971 年至1993 年属低速发展期,随着研究深入,一连串新问题接连涌出,导致许多人对此丧失了信心,自此,信息处理进入了低谷期。尽管如此,研究仍在不断进行,并有很多新的发展。之后,自然语言处理研究者对于过去的研究进行了反思,事态逐渐有了起色,研究也在慢慢复苏。
1994 年至今属复苏融合期,互联网的商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。同时,计算机的速度和存储量的大幅增加,使得语音和语言处理的商品化开发成为可能。
谈及国内发展,中国阿里达摩院的自然语言处理研究团队最近提出一种名为StructBERT 的优化模型[4],它能让机器更好地掌握人类语法,加深对自然语言的理解。使用该模型好比给机器内置一个“语法识别器”,使机器在面对语序错乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提高机器对词语、句子以及语言整体的理解力。这一技术已广泛使用于阿里旗下阿里小蜜、蚂蚁金服、优酷等业务。阿里达摩院的语言模型和阅读理解技术也被用于行业赋能,推进人工智能技术在医疗、电力、金融等行业的落地。据悉,StructBERT 模型日前被评为全球性能最强的自然语言处理系统。
自然语言处理技术(Natural Language Processing,NLP)是在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。它能够实现人与计算机之间用简单语言进行有效交流的各种理论和方法。其中自然语言即人类语言,是人类交流的主要工具,也对人类文明产生了深远的影响。定量化研究就是将实验和以数字为基础的数据联系在一起的研究。
自然语言处理通常通过机器学习进行工作。机器学习系统像其他任何形式的数据一样存储单词及其组合方式。短语、句子、有时甚至整本书的内容都被输入机器学习引擎,并在其中使用语法规则或人们的现实语言习惯,或两者兼而有之进行处理。然后,计算机使用这些数据来查找模式并推断出接下来的结果。自然语言处理技术在生活中有着许多应用,机器翻译、聊天机器人和其他人工智能的聊天软件,这些都依赖于语言处理技术在后台运行[5]。
语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的一种技术。其原理主要是:通过对声音波形分帧构态,对语言特征进行处理分析,经由音素系统对其进行相应的算法处理。通常,语音识别有以下4 种方法:第一,基于语言学和声学的方法;第二,随机模型;第三,利用人工神经网络;第四,概率语法分析。语音识别会对收集到的目标进行预处理,其中包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等多个步骤,而这些也涉及语音识别技术的算法。把语言变为文字需要提取和匹配,自学习系统就是对这两个数据库进行训练分析。
Sarash Borys 采用随韵律而定的音位变体模型的言语识别,说明韵律因素在音素建模及其在言语识别应用方面的重要性。王作英和肖熙等在汉语的语音识别中,利用了音段时长的信息,大大提高了识别率。但是,总的来说,怎样在汉语自动语音识别的框架中利用语音学知识仍然是个新的课题与挑战。随着我国科技的进一步发展,自动语音识别这一技术必然会蒸蒸日上,为我国科技发展服务,为国家奠定科技基础[6]。
聊天机器人是通过后台智能分析输出,模拟人类发出语音信号从而进行交谈的一种计算机程序。其社交原理是大多数聊天机器人会搭载自然语言处理技术,再通过从数据库找到能与问题相匹配的最合适应答句。他们就如同客服和你聊天,24h 在线,并且研发人员会将大量网络流行用语加入词库以保证时效性而不会被社会所淘汰,这也使得对话机器人能够更精确地理解人们的意思。中规中矩的话语不会引起人们的青睐,这也是聊天机器人广受大众喜爱的缘由之一。与早期人工智能相比,现在的人工智能必须有智慧和逻辑推理的能力,必须更快、更强。它的应用也大多使用于对话与通讯,广泛运用于即时通讯平台,如脸书、微信等软件,以娱乐、零售行销、以及客服为目的。墨西哥航空利用人工智能售票、回答问题,墨航和荷兰皇家航空并且提供航班资讯,处理乘客报到,发出行动登机证,推荐旅馆、餐厅、目的地行程。中国的旅行社在此之前已用微信等软件来提供这些服务。
智能写作是以人工智能程序为写作主体,模仿人类的写作行为和机制,自动或半自动地生成文学作品,也被称为人工智能文学。它的实质就是利用AI 技术写作,即通过计算机程序,针对获取的输入内容,进行一系列具有较强自动化的处理和生成工作,最终得到有一定创新特色的、全新的输出内容。目前,AI 写作技术正处于一段蓬勃发展的时期。它的基石是自然语言处理技术,这一技术与数据挖掘、机器学习、知识图谱等多种AI 技术有很强的关联性。从原理上来说,可将AI 写作分为3 种模式:板块式写稿机器人、抽取式机器人和生成式NLG。接下来分别介绍这3 种不同模式的具体方法。
板块式写稿机器人是当前最成熟的一种模式。这一模式会在完成内容前,先存放一定量的写作用模板,这些模板与对应的给定材料内容匹配,在组合后产生新的文本内容。抽取式机器人在目前主要被用于摘要自动生成、新闻实时自动报道等领域。这一模式会自动对获取得到的文本进行一系列的语义分析,对其中的多余信息进行识别与排除,对其中较为重要的内容进行提取,再将这些重要信息集中起来,生成新的摘要内容。生成式NLG 模式是目前较为流行的一种模式,它借助人工智能领域中深度学习的方法,通过巨量的样本数据进行训练(这些训练数据一般是由已有的文学作品构成),针对不同的写作内容和文本风格建立多种不同的模型。在实际的不同需求和风格应用中,能得到对应的输出文本。这一方法创造性更强、生成的结果更有多种多样的风格。
从现阶段来看,模板式和抽取式写稿机器人的技术已经趋于成熟,在市场上得到了广泛的应用;生成式NLG技术更加多样化,也是当前NLG 技术中更为高级的目标。
情绪识别指AI 通过收取分析人类的生理或非生理信号而进行推测辨别的一项技术。情绪识别的研究内容非常丰富,包括面部微表情、微小动作、心理、语言、心率、行为等方面。目前,面部表情识别多采用图像识别的方法来实现,也有通过语音识别技术进行情绪识别的方法。
人类的情绪是具有多样性的,也是非常多变的。情绪是可以被掩饰或改变的。要去识别情绪,首先就要了解情绪表现的来源和识别这些情绪表现的方法。对于不同来源的情绪表现,识别它们的方法也相应地有多种方法。其中,最主要的是基于非生理信号的识别和基于生理信号的识别这两种。基于非生理信号的识别有多种方式,目前主要采用对面部表情的识别或对语音语调的识别。对面部表情的识别从属于图像识别领域,通常根据人在特定情况下产生的特定表情肌肉运动来识别,在此不赘述。而对语音语调识别需要的信息更加少,只用获取声音就能识别。其原理是:拥有不同的情绪时,人表达语言的方式(语音、语调等)会发生一系列变化,这种变化会传递出表达人自有的情绪特征,比如开心的人的语气比激昂,伤心的人的语气比较低沉。这些都属于基于非生理信号的识别方法。这类方法虽然具有操作便捷、无需设备的优点,却也具有可靠性差的缺陷。因为,人们可以通过伪装表情或者语气来掩饰自己的真实情绪,这种掩饰在现阶段较难被人工智能方法成功识别出来[7]。
从1956 年至今,自然语言处理技术已经历了萌芽期、快速发展期、低速发展期和复苏融合期等阶段的发展。这一技术的原理是基于人工智能技术,通过机器学习、模拟分析等方法推断出结果。自然语言处理技术有语音识别、聊天机器人、智能写作和情绪识别诸多应用领域,在机器翻译、信息提取等多方面帮助着人类。在理论研究方面,自然语言处理技术发挥巨大作用,很有前瞻性和挑战性;在社会影响方面,该技术可以帮助那些想要以适当形式表达自己想法的人。