基于词联接的自然语言处理改进技术研究

2020-11-29 14:57:13
科技传播 2020年20期
关键词:分词实例语料库

随着NLP技术越发成熟,人类开始将它与其他技术相结合并应用到不同领域,有效提升计算机自然语言处理技术,使其变得更具有人工智能,符合计算机综合应用。通过采用TCT技术,能够使得NLP技术更加精准地翻译出不同的语言,从而更加适应人类信息化社会的发展。在互联网中存在着海量信息,这些信息与自然语言有着很强的联系,可以通过应用自然语言处理技术来实现语言翻译,给人类的生活、学习、工作带来很大便利,不断升级和改善NLP技术能够使其更加适应市场需求,满足用户的翻译体验。

1 自然语言处理技术简述

自然语言是人们日常生活中所使用的语言,如我国普通话(汉语)、国际用语(英语)等,自然语言处理技术指的是通过利用计算机技术对自然语言进行处理和运用,是基于人工智能和语言学基础上的一门学科,能够实现人机交互。语言是人类的表达工具,计算机要想掌握自然语言的处理能力,必须要从多个方面出发,可以分成三个基础部分:认知模块、理解模块、生成模块[1]。其中,认知和理解起到的作用是将输入的自然语言与计算机符号相连接,然后根据用户需求进行处理;生成是将计算机中的信息转化成为自然语言。通过三者互相作用,就可以帮助用户通过自然语言与计算机进行交互,提高计算机的智能程度。

2 基于词联接的自然语言处理技术

2.1 发展阶段

基于词联接的自然语言处理技术就是一种自然语言规则处理技术,能够通过语言规则来分析翻译语言的正确性,进而建立语言规则库。语言规则分为语义规则和语法规则两个方面,是基于乔母斯基的形式主义语言学发展而来的。通过将形式主义语言学应用到自然语言处理技术中,能够加快对词语关联和句法关联的处理,准确得出相应的自然语言。在应用过程中,通过在计算机硬件部分强化真实文本处理,就能通过统计的方式来分析自然语言的正确性。由此可以看出基于词联接的自然语言处理技术具有重要地位。

2.2 处理模型分析

自然语言处理技术会受到自然语言环境的限制,而传统的处理方法不能对当前语言环境进行有效分析,导致翻译出来的语言缺乏技巧,甚至是词不达意。而TCT技术通过将结构主义语言学与认知语言学结合起来,构建一个更加全面的语言处理模型。在这个处理模型中,需要在受限语言环境中建立动态语料库,然后语料库分为高级知识和实例知识,其中主体是高级知识,实例知识是对高级知识的重要补充。另外,在一定环境下,实例知识可以转化为高级知识。

2.3 词联接自然语言处理技术的特征

第一,具有受限性。TCT是一种语言智能仿知技术,它的语料库需要依赖于自然语言环境,会受到语言环境的限制。因此,在进行TCT改进时需要将语言环境合理划分,可以将其按照场景、职业、功能等因素划分成各种小环境,就能更加确保TCT的语言操作性,高效处理各种自然语言信息;第二,具有动态性。人在进行语言表达时就处于一个动态过程,语料库的建设也是一个动态过程。因为随着时间的变化,自然语言也在不断的发展进化,要想保持高准确率就必须及时更新语料库。统计学的出现能够加快信息处理效率,进一步加强语言智能机器对自然语言的处理效率。第三,具有经验性。TCT的知识获取是通过实例知识来建造的语料库,然后基于实例知识和语料库转化成高级知识,因此它的知识获取是自底向上的,具有一定的经验性。第四,具有综合性。TCT的知识获取需要应用到多种计算机技术,常见的技术有统计技术、语言规则技术、神经网络技术等,通过使用这些技术来综合运用高级知识和实例知识。TCT的核心技术是实例技术,是基于实例知识建立的语言处理技术[2],通常会以词联接为实例知识,词联接能够明确句子的词序安排,更快更好的翻译出句子的意思。

3 自然语言处理的难点

在自然语言中,不同环境下的同个词语会有不一样的意思,就拿我们汉语来说,在语言文本和对话中会存在很多具有歧义或多义的词语,例如“一行行,行行行,一行不行,行行不行”同样是“行”字,但是读音不同就会有不同的意思,因此就会加大自然语言的处理难度,怎样消除歧义和进行语义分析成为一个大难题。总的来说,要想消除歧义就必须积累大量知识,这样才能提高语言信息处理技术的处理效率。举个例子,在常见的英文对话中“Thanks”是谢谢的意思,但是如果对话是问:“Would you like some water?”答:“Oh thanks”,这代表的不是谢谢的意思,而是拒绝的意思,因此,翻译机器需要拥有一定的背景知识库,这样才能精准地翻译出对话。

人类的活动和表达都非常复杂,常常通过有限的词汇转化成不同的意思,这就导致有时候同一种语言形式可以表达出不同的含义[3]。就拿我们汉语来说,汉语是以字为基础,通过字与字相结合组成词语,然后在通过词语组成句子,再由句子组成段落,最后由段落组成文章,在组合过程中包含了多层意思的转换,就容易导致同样的语句在不同语境下有着不同的意义,另外,相对于英语来说,汉语还有分词难题,而NLP技术的最小承载语义是单词,因此还需要解决分词问题。在进行口语表达时,汉语的词语词之间是具有连贯性的,为中文处理增添以一层处理障碍。在NLP技术中,会通过分隔符来进行词语的处理,但有时候句子存在歧义,就会加大分词难度,举个例子,“南京市长江大桥”如果在不同地方使用分词符,就会变成不同的意思,如在“市”后面进行分隔,就可以将其理解为南京市的长江大桥,但如果在“长”后进行分隔,就会变成南京有一位市长的名字将江大桥。因此,如何正确分词成为NLP技术的处理难题,但总的来说,需要根据语境进行分词,通过掌握文本语义进行翻译能够提升翻译的正确性。分词问题同样适用与短语,比如“控制电脑”可以理解成我控制了这台电脑,也可以理解成具有控制功能的电脑。另外,如何正确获取上下文内容也是一个难题。本文一直强调,需要结合语境分析词组的意思,因此在理解一句话时需要结合前后文,这样才能准确掌握句子的语境然后推断出句子的含义。在汉语中代词就是一种需要结合前后文来推断的典型代表,比如“我从小羽手里拿走一个橘子给小刚,他可高兴了。”这句话中的他代表的是小刚,由此可见在进行语言分析时也需要结合前后文,这样才能将自然语言准确反映出来。

4 基于词联接的自然语言处理技术改进

由于自然语言在应用过程中会存在很多限制和不足,为了能够减轻这些限制就必须要改进TCT处理技术。改进的方向主要在于提高对单词边界的识别能力、解决词类和词性的模糊性等方面。第一,在汉语中,最常见的词汇是双音节词语,同时,三音节词语和四音节成语也是较为常见的词组,这些词语的界定还是一个问题,计算机很难将其界定为词语、成语或短语。因此,在进行词联接自然语言处理技术改进时需要强化词组的界定边界;第二,日常交流的词类和词性具有一定的模糊性,如同一个词组既能是动词又能是名词,怎样判断词组的词类和词性成为语言处理技术的难题。这时候就需要构建一个基于词联接自然语言处理技术改进模型,充实语料库的词汇量和实例知识。在改进模型中,需要包括自然原因知识表述、语言分析和语言生成3种模块,这样就能对输入语言进行有效整合分析和输出整理。另外,在改进模型中要增加知识获取、评价及修改功能,就能最大限度的对自然语言进行分析及修改,保证语料库语言知识的准确性。其中,知识表述是对自然语言处理技术的综合改进,能够提高对主体的帮助,也能够帮助主体获得相关知识,建立一个完善的知识体系。知识具有无限性,自然语言一直处于发展中,是一个动态过程,但是用于储存知识的计算机对知识的认识有限,为了能够提升对知识的掌握度,需要不断升级知识储存主体,丰富其内在语料库。

自然语言是人类交际的主要语言,它承载着人类知识和信息。通常来说,自然语言的结构有五个部分组成,分别是字、词、句、篇和章,通过采用TCT技术,能够增加词联接,提升其他五个部分的关联性,有效改善自然语言处理技术,而且能够将复杂的句子转化成由词联接的句子,可以明确字与句子的关系,准确表达出该句子的含义,确保词义的准确性。

5 基于词联接的自然语言处理技术应用效果

在改进TCT技术时,需要明确规避词义模糊和不确定的缺点,通过将词联接加入到语言成分结构体系中,能够简化句子的分词,可以有效降低词义模糊的弊端,进而能够提升自然语言处理技术的应用效率。根据TCT技术特点,可以将其应用到自然语言的处理中,也可以将其应用到文学语言处理、词汇应用技巧、修辞概念手法等领域中。在人类生活的几千年中,人类之所以能够不断发展强大,主要依靠的就是对知识的学习和音乐,随着人类不断积累技能和经验,才能更好地创造幸福家园和文明社会。而知识的获取需要依赖于载体,在计算机中应用NLP技术也需要遵循同样的道理,而采用词联接技术能够丰富和充实自然语言,加快自然语言处理技术的发展和改进。

5.1 获取更多间接知识

通过采用TCT技术能够获得更多的间接知识。人类获得的知识可以分为直接知识和间接知识,其中,直接知识指的是人类直接从自然界中实践得出的经验,通过不断积累经验,使其转变成为一种知识体系,这样的知识获取需要耗费大量的人力、物力和时间。随着人类生活水平提高,人类创造的自然语言也得到不断升级和改进,也增加了人类获取知识的方式,就是间接知识的获取。间接知识是建立在直接知识基础上,可以满足人们直接拿来使用的需求,间接知识是对直接知识的概括和归纳,具有很强的使用意义,能够丰富自然语言知识。因此,可以通过改进自然语言处理技术的方式来改变知识获取途径,这样就能有效扩展人类获取知识的途径,也能方便人类直接利用知识。

5.2 建立完善的语言体系

通过应用TCT技术能够让语言应用变得更加科学,从而构建一个完善的语言体系,促进人们对语言的应用更加准确。采用TCT技术还可以丰富自然语言语料库,而且通过加工、整合的方式来对语料库的知识进行重新整合,可以有效标注出容易出错的和具有歧义的内容,并完善不同的语境下词汇的含义,提升自然语言处理效率。另外,通过对语料进行加工,能够让被加工的语言更加规范完整,使得字词更加具有逻辑性和修辞性,为人类提供富有多元化语料注释,让知识的翻译更加人性化和个性化。

5.3 规范语言规则

怎样提升语言规则的规范性也是自然语言处理技术需要着重升级的一个重要内容,通过采用TCT技术,就能增强词与词之间的关联性,也就能能够升级语言规则的规范性。在现实中,人类是先有语言,然后才有语言规则,语言规则的出现是为了强化语言的使用逻辑,能够让人们在交流中直接精准的理解对方的意思。因此,语言规则的规范性也是能够提升自然语言处理技术的重要因素。如果在语料中增加语言逻辑思维,就能让词组按照一定的逻辑性组装成句,在通过句与句的组合构成一个表述清晰的段落。采用TCT技术就能让每个句子按照一定的逻辑体系进行排列,从而形成才能语义完整的文章,

5.4 规范人们日常用语

将TCT应用到人们日常生活交际中,能够帮助人类组织逻辑性强的话语,可以增加对话的趣味性,也能让对方更容易理解自己要表达的意思。在人际交往中,对话是最能增进感情、提高认识的方式,要想给别人留下一个良好印象,就必须要确保话语的逻辑性,不能常常说一些词不达意的话,这样容易形成鸡同鸭讲的局面,不仅会降低对方对自己的印象,还会让对方觉得说话的人没有内涵。而应用TCT技术能够让说话人的思维更加清晰,然后可以在大脑中演练好对话过程,使其表达能够形成一个完整的结构。

6 结束语

自然语言处理是一门新兴学科,同时它也是一门重要学科。随着信息技术不断发展,人类的生活已经离不开信息技术,这时候自然语言处理技术能够实现人机交互,是不可缺少的重要技术。采用基于词联接的自然语言信息处理技术能够提升NLP技术的活力,使其更加适应现代化生活,也为NLP技术的发展带来更加光明的未来。

猜你喜欢
分词实例语料库
《语料库翻译文体学》评介
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
把课文的优美表达存进语料库
值得重视的分词的特殊用法
基于JAVAEE的维吾尔中介语语料库开发与实现
语言与翻译(2015年4期)2015-07-18 11:07:45
完形填空Ⅱ
完形填空Ⅰ
高考分词作状语考点归纳与疑难解析
论英语不定式和-ing分词的语义传承
外语学刊(2011年3期)2011-01-22 03:42:20
语料库语言学未来发展趋势