自然语言处理与信息检索系统分析

2020-07-22 09:57曾照华
数字技术与应用 2020年6期
关键词:应用系统自然语言处理

摘要:自然语言处理是能够实现人机间利用自然语言进行相互通信的重要手段,帮助计算机能够迅速理解自然语言所表达的含义,最常见的运用自然语言处理技术的应用系统是信息检索系统。本文从自然语言处理、信息检索系统以及自然语言处理在信息检索系统中的运用三个方面进行简要阐述,以供参考。

关键词:自然语言处理;应用系统;信息检索系统

中图分类号:TP391  文献标识码:A     文章编号:1007-9416(2020)06-0000-00

0引言

随着科技水平的不断提高,针对信息检索系统的应用变得越来越广泛,让与内容查找有关的操作变得越来越轻松,然而信息检索操作需要在特定的应用系统中将自然语言处理技术进行有效的运用,才能够达到查询相应的内容,因此自然语言处理是实现信息检索系统功能的核心内容。

1自然语言处理的技术难点

1.1内容的有效界定

日常生活中句子间的词汇通常是不会孤立存在的,需要將话语中的所有词语进行相互关联才能够表达出相应的含义,一旦形成特定的句子,词语间就会形成相应的界定关系。如果缺少有效的界定,内容就会变得模棱两可,无法进行有效的理解[1]。例如他背着母亲和姐姐悄悄的出去玩了。这句话中如果不对介词“和”作出界定,就很容易形成母亲和姐姐两个人不知道他出去玩,或者是母亲不知道他和姐姐出去玩。

1.2消歧和模糊性

词语和句子在不同情况下的运用往往具备多个含义,很容易产生模糊的概念或者是不同的想法,例如高山流水这个词具备多重含义,既可以表示自然环境,也能表达两者间的关系,甚至是形容乐曲的美妙,所以自然语言处理需要根据前后的内容进行界定,从中消除歧义和模糊性,表达出真正的意义。

1.3不规范的内容

许多情况下,出现的词句内容存在不规范的情况,利用自然语言处理时需要根据对应的内容进行判断,或者是对不规范的内容进行校正,从而形成正确的内容。例如输入过程中文字的拼写或者语音输入时带有方言的口音等情况时,需要进行相应的调整,才能是正确的内容。

2信息检索系统基本原理

2.1信息标引和存储

信息检索系统的主要目的就是帮助查询必要的信息内容,然而信息检索系统在获取特定的查询条件后,需要将信息内容进行标引处理,也就是利用特定的检索语言、标识符、主题词等对信息进行标记,确定查询条件中的内容类别,便于有针对性的进行检索。标引完毕后将被标引的信息进行存储,让其具有特定的序列,再按照顺序进行有效组合,作为信息检索的主要工具或相关文档,也就是将查找条件进行有归纳整理的过程。

2.2需求分析与检索

查找条件已经被有效的归类,接下来就需要进行需求的分析,即已经被标引的内容在信息检索系统中所对应的内容和检索方向。做好需求分析后,利用系统内部的检索方式将已经存储的被标引内容进行检索,才能够找到与被指定的信息相对应的内容,避免了产生很多与信息内容相关但又并非是需要查找的内容,产生大量的数据冗余,造成数据资源的浪费,也会占用许多的系统资源。

2.3内容判断与反馈

检索的过程中会根据检索的情况产生相应的结果后,需要信息检索系统对内容的判断的过程,无论查找的信息内容在系统中是否存在对应的内容,都会进行内容相关性的判断,也会根据判断的结果来对检索的情况进行反馈[2]。当系统中存在检索的内容时,系统就会将内容迅速的显示出来,相反情况下,系统中没有检索到对应的内容,就会给予相应的提示来作为内容的判断与反馈,这样用户就可以进行直观的辨别。

3自然语言处理在信息检索系统中的运用

3.1检索条件的处理

信息检索系统进行检索前将条件内容进行处理是首要的环节,也就是对特定的句子或词语进行整理。整理的过程中只有运用自然语言处理技术才达到有效处理的效果,毕竟检索的条件内容在格式和规范方面存在许多的不确定性,需要先对内容进行相应的处理,让其变得规范化,能够达到信息检索系统中的要求,便于计算机系统能够有效的识别,才能够让信息检索系统进入正常的工作状态,发挥其信息检索的功能。

3.2信息内容的匹配

信息检索系统在进行检索过程中需要对内容进行匹配,也就是查找对应的内容,然而查找过程中特定的信息内容会被做好相应的标引操作,这种方式能够将信息进行有效的标记和分类,但当中的很多内容都会被分离,变成特定的部分内容,比如文献的名称、类别、姓名等,当这些内容被做好标记和分类后就会作为检索时的索引,只是信息检索系统中的数据内容过于冗杂,信息量极大,只是针对单个的被标记的索引进行查找自然会有许多的内容,此时就需要将被标引的部分进行有效排序,并利用自然语言处理重新进行语句和词语的界定,形成相互间的联系,消除模糊性,这样就能够让检索的内容变成指定的关联内容,系统内的检索方法会根据该内容进行有针对性的查找,这样就能够将许多不必要的内容进行过滤,只留下相同的部分[3]。

3.3检索结果的输出

查询到准确的结果,是用户利用信息检索系统的最终目的,检索结果的输出也就成为了信息检索系统的必要环节。系统利用被标引的内容作为索引,通过simhash等各类算法在存储大量数据的数据集中查询到相应的数据内容后,会将查询的结果作为初步的查询结果,便于确定查询结果的范围并进行判断。除了对查询结果的状态信息进行判断外,还要对检索内容的顺序进行校验,只有状态信息与顺序都得到保证,才能够确保检索条件与结果的精准度。至于检测已经存在结果,进行完全输出呈现操作前,信息检索系统需要通过自然语言处理将查询到的结果还原为与检索条件相同的内容,这样确保了检索过程中关键词汇与语法的正确运用,即便是检索内容的关键词汇与检索条件存在差异,但是在显示过程中语法不会出现问题,保证检索前后信息结构的一致性,而且检索结果以目录的形式展现出来时,也能够让截取到的关键词汇处在语句的正确位置上,对关键信息的截取和突出显示都能相互对应。更好的帮助用户迅速找到与检索条件内容相同或相似的信息进行调用,提高对检索结果的使用效率。

4结论

综上所述,自然语言处理与信息检索系统有着紧密的联系,也是信息检索系统的关键内容,只有将自然语言处理技术不断的进行完善才能够为信息检索系统提供有效的帮助,优化信息检索系统的功能,提升信息检索系统的工作效率,达到更加快捷的提供信息服务的目的。

参考文献

[1]李娟,曹晨.大数据时代信息检索系统的发展[J].中国科技信息,2020(9):105-106.

[2]仲远.自然语言处理在信息检索中的研究和应用[D].镇江:江苏科技大学,2019.

[3]章涵,张志昌.自然语言处理在信息检索中的应用分析[J].电脑迷,2018(2):199.

收稿日期:2020-04-14

作者简介:曾照华(1975—),男,山西太原人,硕士研究生,讲师,研究方向:人工智能。

猜你喜欢
应用系统自然语言处理
基于组合分类算法的源代码注释质量评估方法
企业云平台建设研究
词向量的语义学规范化