文/冯少博,河北六联通信科技有限公司
基于开放网络知识的信息检索与数据挖掘
文/冯少博,河北六联通信科技有限公司
随着数据信息的海量增长,数据类型的不断多样,人们检索数据信息需求的增加,需要提高信息检索的精度与效率,因此开放网络环境下的信息检索与数据挖掘日益重要,需要对其原理方法进行深入研究。
开放网络;数据挖掘;信息检索
本文围绕着数据挖掘的基本理论,对开放网络知识信息检索和数据挖掘的种类特点进行分析。
用户当前面对的是一个开放动态的网络环境,在开放的大数据库时代,信息使用者必须围绕主观需求对需要搜索的内容进行总体性的概括,要求在用户头脑中形成客观的搜寻目标,这样才能通过一系列的资源整合最终找出搜寻的结果。关键词是当前描述用户信息需求的重要方法,利用关键词在开放的网络环境中进行信息搜索可以在整体上对信息内容进行高效的批量化处理,从而通过有效的检索来查找到有价值的信息。通过关键词来感知用户的意图,需要对用户的需求进行更深层次含义的解析,以及对用户信息需求进行划分,这样才能通总体感知用户的信息需求,从而为更好的智能化服务用户打下坚实的基础。
有效的信息检索必须是围绕着关键信息点进行拓展的信息检索活动。只有围绕着用户输入的关键词进行拓展性的信息提供,才能在不断的延伸中满足用户的信息使用需求,并且为检索活动创造更多的价值。在当前现有的数据库基础上对用户检索数据信息进行拓展意味着将信息复杂化和形象化,这不仅需要对数据库的信息进行整合,而且还要研究用户的个性化需求,以及用户信息查询的状态,从而使围绕关键词的拓展活动更有科学性和完整性,并且可以在修正关键词的基础上提高用户的检索效率。对关键词的拓展质量已经从某种程度上决定了信息查询质量,只有建立起较为实用的数据化形式,才能更好的拓展符合用户需求的数据信息内容,从而全面满足用户查询和使用信息的需求。
语义问答是当前了解用户需求的重要形式,只有在用索信息时进行必要的语义问题,对关键信息的内涵和外延进行科学的判断,才能全面为用户提供更有价值的信息服务内容,实现信息检索服务的深层次提供目标,突破以往信息检索只提供参考性内容,以及关键信息内容阐述不准确和只能提供简单相关性界面服务的问题。目前进行语义问答来获得用户关于检索目标的描述,主要通过语言及文字的处理发展而来,检索系统会自主围绕着检索需求来提供给用户进行一些有针对性的问题。系统会通过与用户必要的信息交流,判断用户对信息的深层次要求,并且给数据库提供有效运行指令方式,从而实现数据库与关键词的紧密结合,在全面提高数据检索精准性的同时,极大提高检索的效率。
网络数据挖掘是建立在网络数据抽取规则之上的活动。网络数据挖掘从本质上是对概念、实例和属性的提取,只有建立拥有普遍联系的抽取规则,实现不同数据之间对无关联概念的联系,才能更好的在开放性的网络数据环境中进行高效的数据挖掘活动。线索挖掘是基于数据的相关性进行的信息价值的判断评估活动。线索挖掘的方式主要围绕着关键信息进行比对式的连接,从而通过相关路径找出更深层次和更有价值的信息。在大数据库时代的结过挖掘的难度相对较大,由于大数据时代的关联信息会无限制的延伸下去,因此其运行的频率与质量直接的影响着数据挖掘的效率。
数据推理主要指的是基于数据实体间的关系而开展的判断推理活动,力求找出关联数据库中潜在的联系,这样可以从中挖掘出有内在关联性的知识。数据推理从本质上是为了在相关数据中找出隐含的数据关系,Sherlock-Holmes是开放网络领域基于文本关系的推理方法。数据推理的方法建立在归纳逻辑编程的基础上,它具体通过一般规则的特殊化,从数据库中找出正例和反例等例句。由于推理活动基于的概念不同,因此用户可以通过自建推理规则来辅助完善数据挖掘的活动。对知识库中的数据进行推理是挖掘数据价值的重要方式,但是在当前超大规模的数据库中使用数据推理方式来进行数据挖掘,还需要提高推理的精确性。
当前数据库的规模越来越大,数据挖掘便倾向于使用实体关系进行数据预测。关系预测通过对数据的量变与质变做出有效的分析和预判,从而达到对新产生的逻辑关系,数据类型的变化,数据关系变化的频率等问题进行有效的掌握。目前对关系预测的方法主要由机器学习法来实现,机器学习法可以分有监督学习法和无监督学习法两种,目前有监督学习算法是比较流行的信息预测方式,它主要基于实验来收集数据的相关知识,然后在此基础上对数据的变化进行预测。非监督学习法的准确度相对较高,但是预测算法较为复杂,预测成本相对较高。预测可以从极大的程度上推动知识的更新,可以结合数据库的更新来更好的判断数据信息的变化,关系预测是当前数据挖掘领域里获得新知识的重要途径。
数据挖掘可以提高网络信息摘要的准确率,可以满足用户使用关键词进行信息检索的需要。通过自动数据挖掘可以给用户提供关于网络信息的深入摘要,可以帮助用户更好的确定信息的价值,从有助于帮助用户理解整篇文档的信息,可以揭示出信息主题与内容知识之间的关系,更可以实现对语义内容的标注,全面提高了摘要的准确性和有效性。
通过信息挖掘可以拓展网络信息资源量,可以给用户检索出需要的文字、表格、图片、视频等多种形式的信息,使用数据信息挖掘技术可以为用户提供更明确有效的索引,可以把潜藏的信息直观的呈现给用户,因此有助于拓展用户的信息量,更好的满足用户对潜在信息的使用需求。
通过数据挖掘可以对信息结果进行重组,有助于实现数据信息的分类目标,从而帮助用户在千万个相关信息中形成网络数据信息的重点,可以结合用户的需求实现不同主题特征的归类,实现对检索结果页面进行等级分析,帮助用户得到更适合的结果,实现高相似度的分析目标。
基于开放网络知识的信息检索与数据挖掘,提高了信息的使用效率,实现对了数据库的深层次挖掘,有助于满足用户使用信息的实际需求。
[1]戴礼灿.大数据检索及其在图像标注与重构中的应用[D].中国科学技术大学,2013.
[2]马仲兵.数据挖掘技术在图书馆采访中的应用[D].重庆师范大学,2012.