基于词联接的自然语言处理改进技术研究

2018-09-10 19:22赵栋材周雁
计算机与网络 2018年9期
关键词:技术改进

赵栋材 周雁

摘要:随着人类社会信息化程度和计算机水平的提高,自然语言处理(NLP)技术逐渐成为计算机应用和人工智能研究的热点。自然语言的处理方法主要采用描述语言规律的基本思路,研究者探索出一些有效的技术,并取得一定的成果。通过对此类技术进行升级改造,总结了研究成果,改进基于词联接的自然语言处理技术的应用原理,从而使得该技术在应用中具有更高的处理语言文字的效率和准确性,使其更适应现代的人际交往。

关键词:词联接;NLP;技术改进

中图分类号:TP391文献标志码:A文章编号:1008-1739(2018)09-61-2

Study on Improvement Technology of Natural Language Processing Based on Word Link

ZHAO Dongcai, ZHOU Yan(School of Information Science and Technology, Tibet University, Lhasa Tibet 850000, China)

0引言

随着人类社会进入信息化时代,计算机硬件水平不断升级改进,NLP技术也日益发展成熟。计算机自然语言处理技术的目标是让计算机具有类似人的语言智能,例如能够和人一样对语言文字进行基础的听、说、读、写等方面的处理,使得语言文字处理技术逐渐发展成熟,最终形成一门综合性、交叉性学科[1]。

自然语言处理技术是计算机应用和人工智能研究的热点和难点,也是计算机技术和信息社会发展的一项重大课题[2]。在改进计算机语言处理技术的同时,发挥词语联接功能,研究基于词连接的自然语言处理技术的升级改造,使之更精准地适合于人类信息化社会的发展,为人类信息化社会和计算机技术的提升提供一定的帮助[3]。

1基于词联接的自然语言处理技术

1.1词联接自然语言处理技术发展阶段

自然语言规则处理技术属于理性处理方法,其基本思想是根据语言规则分析语言的正确性,建立语言规则库。语言规则包括语义规则和语法规则两方面,其理论基础源于乔母斯基的形式主义语言学。该语言学理论在人类语言学和计算机语言学中都占有重要地位,其理论中关于语言结构部分已经被广泛应用于自然语言的词语关联和句法关联处理中[4]。在升级计算机硬件条件基础上,将处理重点放在大规模的真实文本处理上,通过建立统计语言分析模型来分析自然语言的正确性。

基于词联接的自然语言处理技术也正在不断地改进和发展,在自然语言处理技术的应用中占有重要的地位。

1.2词联接自然语言处理技术模型分析

由于受到自然语言环境的限制,传统语言处理方法无法对文学语言进行处理分析,缺少对文学语言的写作内容和创作技巧的分析探究。基于词联接的NLP技术,将结构主义语言学和认知语言学相结合,建立起全面、简便的技术结构,已经成为自然语言处理技术中的核心技术,在自然语言处理系统中占有重要地位,基本模型如图1所示。

此模型中,体现在受限的自然语言环境中建立动态语料库,动态语料库中以高级知识为主体,实例知识是对高级知识的补充,在一定情况下,实例知识还可以转化为高级知识,二者都是动态语料库中的重要组成内容。此模型中也可以分析得出,基于词联接的自然语言处理模型具有受限性、动态性和经验性。

基于词联接的自然语言处理技术依赖于自然语言环境,面向的也是受限的自然语言处理,也是某一特定语境中真实应用的语句,是因为NLP技术的受限性才让此技术具有可操作性,对受限内容进行规范化处理,从而正确而高效地处理语言内容[5]。

NLP技术在自然语言处理上具有动态性,因为NLP语料库的建设过程就是一个动态的过程,受限自然语料库随着时间的推移不断改变,动态语库要进行不断地更新替换,知识库的更新同样会加强语言智能机器处理的能力。因而,NLP技术在现实中的应用能够不断更新,获取高质量的知识[6]。

2基于词联接的自然语言处理技术改进

词联接自然语言处理技术在现实应用中有其自身的特点,然而在应用过程中依然会存在一定的限制和不足。首先对单词边界的界定,一般而言,汉语中以双音节词为主,如蝴蝶、蜜蜂等。但有时一些三音节的词也比较多,如红彤彤、绿油油等,四字成语如翩翩起舞、天涯海角等,这些是否界定为词语还是成语,或者是短语,不仅是语言界难以界定的问题,也是目前语言处理技术难以克服的问题。其次,在日常语言交际中,词类和词性都具有一定的模糊性。汉语中,一个词具有多类词性,如工作既可以是名词又可以是动词,而词义上面的模糊性更加明显,如白天和晚上2个词表示的时间是不明显的,更加没有完全的界限。

通过对词联接的自然语言技术的了解和分析,可以构建出此类技术的改进模型,如图2所示。

此类技术中包括自然语言知识表述、语言分析和语言生成,这3类技术着重对语言的知识进行输入分析和输出整理,包括知识获取、知识评价和知识修改这3类技术的应用能夠最大限度地对自然语言知识进行整理分析和评价修改,确保自然语言库中语言知识的准确性。

知识是主体认识经验的总和,知识表述技术是对自然语言处理技术的综合改进,知识作用于主体能够有效帮助主体解决问题,也是主体获取知识、认识世界的间接过程。但是由于世界的无限性,知识也具有无限性,而知识主体的认识却是有限的,间接通过认识世界来获取知识,可以节约时间和提高效率。

自然语言是人类特有的、最为主要的语言,语言作为承载人类知识和信息的载体,有其自身的结构和体系。一般而言,语言结构包括字、词、句、篇和章5个组成部分,基于词联接的自然语言处理技术模型可以包括除上述5个层次之外,加入词联接层次,通过改进基于词联接的自然语言处理技术,在语言结构中加入一个词联接单位,使得原来由词和复杂的句子连接的成分变成了由词联接和句子相连,词的语义具有不确定性,也存在很多多义词,而构成词的下级成分———字,具有明确的含义,构成词的上级成分———句子和篇章,往往表达的也是明确的含义,因而需要在词和它的上级成分之间建立一个词联接,以确保词义具有明确性。

3基于词联接的自然语言处理技术应用

经过改进的词联接自然语言处理技术,可以规避词义模糊性和不确定性的弱点,将词联接加入到语言成分结构体系中,将词联接技术加入到自然语言处理技术中,可以减少词义模糊性带来的弊端,提高自然语言处理技术在现实生活中的应用效率,使得此技术既可以应用于自然语言的处理中,又可以最大程度地处理文学语言,包括文学语言的词汇应用技巧以及文学语言中的修辞概念手法等。

基于词连接的自然语言处理技术在现实生活中具有广泛的应用,可以利用此技术来进行知识的获取,人类之所以能够不断发展强大,其中一個重要的原因就是经过漫长的知识学习,积累了技能和经验,而知识的获取需要通过语言这种载体来承载。词联接技术使得自然语言得到一定的丰富,也使得自然语言处理技术得到一定的发展和改进。

①基于词联接的自然语言处理技术能够获得更多的间接知识,直接知识是指人类从自然界和社会生活中经过实践而得来的知识和经验,需要耗费大量的时间和精力,那么通过语言和语言处理技术的不断改进的同时,也改进了人类获取知识的方式。间接知识概括间接,可以直接拿来使用,因而间接知识存在的意义往往大于直接知识,通过不断改进自然语言处理技术,也是改变知识获取的途径,从而扩展人类获取语言和知识的途径。

②基于词联接的自然语言处理技术的应用使得语言更具有一定的体系,也使得语言在运用中更具有准确性。通过词联接自然语言处理技术对语料进行加工,再对某些出错或者存在歧义的语料内容进行标注,最终使得被加工的语言更加规范完整,有一定的逻辑性和修辞运用合理等特点,使得知识的传递更加规范和准确。

③基于词联接的自然语言处理技术能够增加语言规则的规范性。语言规则是规范语言使用中的一套逻辑体系,一般而言,人类先有语言,后有语言规则,语言规则是对语言本身的一种有效性规范,也是对语言材料在加工中加入逻辑思维的一种方法。语法规则是由最基础的字词按照一定的规则组装成句,再将每个句子按照一定的并列、转折、递进等关系来规范段落和篇章的逻辑体系,从而形成一套语义完整和逻辑清晰的篇章。

④能够在日常生活中得到广泛应用,人们在日常交际中需要运用语言来组织话语,使得话语具有一定的逻辑结构从而完成交际活动。基于词联接的自然语言处理技术通过语料库的积累和语法规则的建立,从而使得语句上具有一定的逻辑性体系,每种句法成分和句型句式可以通过一定的推理和演绎法来进行表达,并形成一个完整的算法结构。

4结束语

在信息技术不断发展的社会,人类语言处理技术也发生着巨大的变化,自然语言处理技术经历了3次大的阶段性转变后,基于词联接的自然语言信息处理技术正在处于不断上升阶段,但此类技术在运用中依然还存在一定的问题和弱点,为此,需要进行一定的升级和改造,使之适应当今高效率的现代社会人际交往。通过对改进后的技术进行应用,探究其在现实中的应用效果和优势。

参考文献

[1]王萌,俞士汶,朱学锋.自然语言处理技术及其教育应用[J].数学的实践与认识,2015,45(20):151-156.

[2]俞士汶,朱学锋,耿立波.自然语言处理技术与语言深度计算[J].中国社会科学,2015,12(3):127-135.

[3]孙道功.基于大规模语义知识库的“词汇—句法语义”接口研究[J].语言文字应用,2016(2):125-134.

[4]贾润亮.基于自然语言处理的知识检索算法研究[J].微电子学与计算机,2016,33(10):130-133.

[5]熊志恒,闵华松.基于自然语言的分拣机器人解析器技术研究[J].计算机工程与应用,2017,53(8):113-119.

[6]任海英,于立婷,黄鲁成.基于链接预测的科学研究机会发现方法研究[J].情报杂志,2016,35(10):53-58.

猜你喜欢
技术改进
林业可视化技术的意义及推广
关于高压电气试验设备现状分析以及技术改进
锤用热冲复合模持续改进的技术经济研究
语音业务多系统融合技术研究与实现
电气试验设备现状及技术改进分析
DX发射机运维改进