朱月琴,谭永杰,吴永亮,张林兵,李 杨,赵亚楠
(1.中国地质调查局发展研究中心,北京 100037;2.国土资源部地质信息技术重点实验室,北京 100037;3.中国地质大学(北京)地球科学与资源学院,北京 100083;4.北京久远太和科技有限公司,北京 100078;5.湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南 湘潭 411201)
矿业纵横
面向地质大数据的语义检索模型研究
朱月琴1,2,谭永杰1,2,吴永亮3,张林兵4,李 杨5,赵亚楠5
(1.中国地质调查局发展研究中心,北京100037;2.国土资源部地质信息技术重点实验室,北京100037;3.中国地质大学(北京)地球科学与资源学院,北京100083;4.北京久远太和科技有限公司,北京100078;5.湖南科技大学地理空间信息技术国家地方联合工程实验室,湖南 湘潭411201)
随着物联网、互联网、大数据、云计算等新一代信息技术的发展和在地学领域的应用,如何更全、更准的从海量地质数据中检索到用户所需要的信息,并以一种智能的方式推荐给用户,成了亟待解决的问题。本文从地质大数据语义模型定义和基于知识图谱技术的地质大数据语义模型构建入手,提出了一套面向地质大数据的语义检索和聚类分析方法,并完成了面向地质大数据语义检索系统平台的开发、实施及实验验证。验证结果表明此方法在查准率和查全率方面较其他方法更具优越性。
地质大数据;语义模型;知识图谱;聚类分析;语义检索
地质数据是地质工作的真实记录和成果的最终载体,是人类研究了解生存环境、开发利用自然资源所必需的依据,具有海量、结构繁多和应用价值广泛等特点,是名副其实的“大数据”[1-2]。为了有效管理和利用地质大数据,需要研究多源异构地质数据的组织方式和快速整合方法[3],以及深层语义下的地质大数据智能检索技术。传统的搜索引擎技术致力于从海量数据中过滤对用户有用的信息,然后直接将过滤结果返回用户,但无法获取和解析这些结果间存在的内在关联关系,缺乏从语义角度去挖掘隐藏在大数据深层次规律和知识的能力,用户只能从结果中自己去理解和筛选知识[4]。
语义检索模型可以不拘泥于用户所输入请求语句的字面本身,而是通过现象看本质,准确地捕捉到用户输入语句背后的真正意图,并以此来搜索信息,可更准确的返回符合需求的搜索结果,让用户发现他们意想不到的知识,有效克服了上述不足[5]。目前国内外在这方面的研究主要在三个方面取得较好的成果并得到了一定应用:第一方面是语言模型的构建方面的构建及应用[6];第二方面是信息检索的扩展方面的研究[7-8];第三方面是围绕信息检索的结果聚类分析,特别是针对大数据的研究及应用,代表性成果有聚类算法的研究与改善[9-11],基于图数据库的检索机制及基于知识图谱的语义检索机制的研究[12],以及围绕语义模型的领域应用与知识服务[13-15]等。由于地质数据的复杂性和特殊性[16-18],对地质大数据语义检索的研究仅侧重于地质数据的知识建模[19-21]、知识图谱构建[22]、地质大数据的存储及一体化检索方面[23]及基于地质语义计算在云服务方面的应用等[24-25]。这些研究目前还无法很好的实现对地质大数据进行深层次的挖掘和语义级检索。
本研究从地质大数据的信息检索实际需求入手,结合地质领域知识语义表达与组织特点,以矿产资源数据为例,提出了矿产资源语义模型智能构建方法,研究了面向地质大数据的语义检索机制,开发了面向地质大数据智能检索服务应用平台。该平台以地质语义模型作为数据支撑,在对用户查询的关键字进行解析和推理之后,将其映射到知识模型树中的一个或一组实体之上,再根据模型中的概念层次关系,向用户返回图形化的知识。本文技术方法可有效避免传统基于字符串匹配的浅层检索局限性,对实现地质大数据的智能分析与挖掘等具有重要的实际价值。
语义通常被认为是数据(符号)所代表的概念的含义,以及这些含义之间的关系。对于计算机领域来说,语义一般指用户对于那些用来描述现实世界的计算机表示的解释,也就是用户用来联系计算机表示和现实世界的途径[26]。语义模型则是被定义为通过模型作为媒介来实现数据语义关系的形式化描述的一种方式[27-28]。即把待研究的对象通过适当的过滤,用适当的表现规则描绘出的抽象的概念集合。通过模型,人们可以了解到所研究对象的本质,并在形式上对其进行分析和处理。本文依据通用语义模型的含义来定义地质数据语义模型。
地质数据语义模型是一个四元组,记作GDO=
实体的概念划分方法有很多种,大多是按照特定领域知识库资源,如词典、本体等资源的分类体系来进行[29-30]。考虑到地质本体的研究现状,以地质工作的类型、地质数据的应用为划分依据,并参考“地质资料服务产品体系划分”以及“地质学汉语叙词表”,采用自上向下法对地质相关概念进行划分,形成地质领域实体概念体系框架(图1)。在首先将地质实体分为基础地质、海洋地质、矿产地质、物化遥感勘查等,在此分类体系下,对每个分类体系有若干个小的分类体系,如矿产地质,又可分为矿产地、资源储量、典型矿床、成矿区带等[31]。
此框架体系中的关系是用来描述概念之间的关联情况,是实现数据组织、分析、推理、关联检索、智能推送的基本依据。考虑到只需实现数据的关联检索、智能推送等功能,所以在地质数据领域实体应用中,不需要构建复杂的关系。对主要的12种语义关系(包括上下位关系、等同关系、与关系和交叉关系、或关系、矛盾关系、时间关系、空间关系等)进行取舍,确定地质数据语义模型中的主要应用6种语义关系,包括:上下位关系、等同关系、交叉关系、概念实例关系和空间关系。
1) 上下位关系:用来描述地理概念之间的层级关系,包括从属关系(即部分与整体之间的关系)、继承关系(也称父子关系,即类与子类之间的关系),如“自然地理”与“陆地水系”。
2) 等同关系:用来描述同级地质概念或实例之间的等价关系。等价关系主要情况如下:同一概念的不同命名;俗称与学名;同一概念的不同译名;简称与全称;全译名与外文缩写词等,如“鄂”与“湖北省”。
3) 交叉关系:有且只有部分内涵相同的两个概念间的关系称为交叉关系,如“破碎带蚀变岩型金银矿”与“蚀变破碎岩型铅锌银矿”。
4) 概念实例关系:用来描述地理概念与相应实例之间的关系,如“湖泊”与实例“青海湖”。
5) 空间关系:空间关系是指事物之间的位置关系。空间关系主要包括:相交、相接、相离、包含、被包含、覆盖、被覆盖、重合等拓扑关系。
地质数据除数据类型复杂外,还具有明显的专业背景、空间范围、用户应用行为等多样性特征[32-33]。根据TD/T1016—2003《国土资源信息核心元数据标准》,同时考虑数据产生的背景和矿产资源预测的需求等因素,确定属性信息主要包括:标识、数据质量、空间参照系统以及分发信息等。
图1 地质领域实体概念体系框架
语义信息构建主要包括显式语义信息的构建和地质隐式语义信息的构建[34-36]。显式语义信息构建主要是把地质领域本体库或领域分类体系作为概念模板来构建语义信息。隐式语义信息的构建主要是基于机器学习或人工智能的技术[37-39],通过信息提取及数据挖掘的方法,综合整理语义信息。考虑到目前地质本体的构建不够完善,机器学习等算法在地质领域应用不成熟等情况,本论文采取了综合方法来构建地质语义知识图谱,即通过如地质叙词表、地质大辞典等已有地质领域知识库,并结合近年来围绕地质本体领域构建提出的概念模板,采用自动信息提取的技术来实现地质大数据语义知识图谱的构建(图2)。
图2 地质数据语义知识图谱构建流程(以地质文本数据为例)
自动构建地质数据语义知识图谱,将文档内容分为文本和表格两种内容进行分别处理[40-41]。在文本部分,首先对文本标题进行识别和分类,分清其上下级嵌套关系,然后对各个标题下的内容进行提取并进行语义识别,从而获取到关键语句;在表格部分,首先识别表头,如遇到复杂表头将其化简,然后对单元格内容进行提取并进行语义识别,获取关键语句。对所得到的关键语句采用基于叙词表扩展的半自动化地质领域本体构建方法来构建地质数据语义知识图谱,其具体实现算法可描述如下。
1) 用户输入地质大数据(以文档为例);
2) 根据内容识别将文档中的文本和表格分别进行处理;
3) 对于文本内容,提取基于标题和内容的主题模型,通过标题与标题格式库对比获得标题上下级嵌套关系,然后对各标题下的内容进行提取;对于表格内容,识别表头,对复杂表头化简取最底层字段名称,然后对单元格内容提取,同一行内容用逗号隔开,不同行内容用分号隔开;
4) 对提取到的内容进行语义识别,结合地质数据语义模型和地质领域专家知识及地质领域知识库模板获取内容中的关键语句;
5) 将关键语句采用基于叙词表扩展的半自动化地质领域本体构建方法来构建地质数据知识图谱。
一般地,由于用户查询时输入较简单有限,难以准确表示查询的信息需求。知识图谱是结构化的语义知识库,通过地质语义知识图谱中的知识,有助于理解用户的信息需求[42-43]。把用户的查询需求看作一个实体,可以利用地质语义知识图谱来理解信息输入,得到候选的扩展词。地质语义知识图谱通过知识抽取,融合等手段,将数据转变为能代表实体的知识,利用知识之间的语义关系构成的[44-47]。同时,还可通过大规模信息搜索分析来提高搜索结果的深度和广度。
地质语义知识图谱在搜索引擎中的应用,使得搜索引擎可以更好的理解用户的需求,并且能够提供给用户更加智能、精确、人性化的结果。
为了实现语义检索,首先需要采集地质相关数据。数据源一方面来自于收集的地质领域专业文档;另一方面则通过网络爬虫等技术,从互联网中获取地质相关数据信息。结合多种数据源的成矿信息,应用Neo4j作为图数据库的引领工具,完善地质知识图谱。
Neo4j具有非常直观和形式化的模型,能够完美地映射到任何领域的模型。同时,对于具有较高连接关系的数据,具有比关系型数据快千倍的速度。因此,这里知识图谱中涉及的实体信息以及语义关系,均通过Neo4j提供的图谱数据存储框架进行存储。
在大规模知识图谱的多模式查询中,除了传统的图数据查询模式以外,可达性查询也是语义检索应用中的一个重要环节。在具体实现过程(图3),还引入了模糊查询和精确查询方法。
图3 面向地质大数据的语义检索模型
与传统的搜索引擎提供的“一对多”式的信息服务不同[48],基于地质语义知识图谱的检索结果更符合用户的个性化需求,实现“一对一”式的信息服务,而用户的参与程度也更低,降低了用户搜寻信息的成本。与传统的基于关键字匹配的搜索引擎工作原理不同,地质语义知识图谱利用概念、实体的匹配度返回给用户与搜索相关的更全面的知识体系。
面向地质大数据语义检索是基于地质数据语义模型的推荐预测式检索,面向全体数据,追寻数据之间的关联关系[49],具有知识库数据与探索式搜索的特点。在每次交互检索过程中,通过知识图谱能够分析出与检索结果相关数据的特征。
用户在使用图谱知识库时,可能会发现知识库信息不完善。为了弥补这一缺陷,本文提出了基于地质知识图谱的探索式和知识纠错的混合搜索模型(图4)。该模型具有知识库信息补全的功能,用户可以结合自己的背景知识和系统的推荐信息完善知识库。
语义检索的知识图谱可根据检索结果进行机器学习或通过用户人工修改而不断完善。通过这种语义检索方法,可预测用户可能感兴趣的数据内容,简明合理地向用户展示查询结果和用户潜在感兴趣的数据内容,以引导用户改进和调整查询目标,获取到新的关联信息。
图4 面向地质大数据的语义检索机制
本文应用基于语义模型树的知识图谱为核心检索算法,设计了面向地质大数据的语义检索系统平台框架。平台主要包含五个部分的功能层(图5):数据存储层、数据访问层、业务处理层、数据入口层和可视化展示层。
图5 地质大数据语义检索系统框架体系
1) 数据存储层:将科技文献、科学数据等结构化数据存到关系数据库中,文件数据等非结构化数据存储到非关系数据库,实现地质数据的规范存储。
2) 数据访问层:通过访问关系数据库,获取深层次的数据关系信息,进行语义管理,同时访问NoSOL数据库,形成Neo4j图形数据库。
3) 业务处理层:利用地质语义知识图谱对用户的检索词进行检索并扩展,同时对资料全文中的术语自动聚类,实现二级精细查询。
4) 数据入口层:提供输入、输出接口,获取用户检索关键词。
5) 可视化展示层:进行语义检索及知识图谱等可视化应用展示。
本系统平台基于Java开发,结合Tomcat、Solr软件部署应用,系统支持IE系列、360、Google、火狐等主流浏览器。该平台主要实现了地质资料、地质科技文献等各类结构化数据、非结构化数据的一体化查询。摆脱了基于关键词检索的局限性,可分析检索词之间的语义关系,使得检索词不再孤立,推理用户的检索意图,从而为用户提供更全面、准确的查询结果。
本系统主要实现了五个方面的功能。
1) 粗粒度地质信息知识服务地质文本聚类。用户在检索关键词时,系统在返回搜索结果的同时对相关性强的术语进行聚类统计,展示了相关术语的聚类结果,方便用户进行二次检索。
2) 地质资料与地质文献信息的综合语义检索。系统的语义模型树是基于文本、表格两方面综合构建,实现了两个数据库中的数据信息查询。
3) 基于全文的内容信息查看和检索。系统支持文本数据在浏览器中以XML的形式供用户查询浏览全文内容和检索相关信息的定位和显示。
4) 空间数据和非空间数据的一体化查询。系统实现了空间数据的查询与可视化。
5) 关联分析。系统可以实现地质数据之间的各种关联关系分析,主要有地质科技文献的作者、机构单位、合作单位、承担项目之间的关联分析,以及矿产资源数据之间的各种关联分析等。
目前,国内大部分地质数据库仅仅采用关键词作为检索的唯一标识,不能描述词间关系,导致查全、查准率低,影响检索的有效性。为了验证基于本文提出的语义模型及语义检索方法比传统依据自然语言和叙词进行检索更具优势,下述实验选取了“火山岩”为关键词,通过关键词检索、语义检索(序词表)和语义检索(知识图谱)等进行智能检索,结果图如表1所示,其中所采用的实验条件如表2所示。
表1 实验结果对比
表2 实验条件
从表1中可以看出,在不降低查准率前提下,本文检索方法查全率远高于前两种方法,特别是引入深层语义分析的知识图谱后,检索的查全率非常高。这是因为关键词检索仅是将浮于文字表面,无法从语义角度去挖掘深层次规律与知识,从而降低了查全率。本文在基于叙词表扩展的本体构建方法基础之上,补充并扩展了知识图谱,使得系统在检索关键词的同时获取了更多“火山岩”的内在关联信息,通过聚类相应的术语进行二次检索,从而提升了查准率。
与传统的基于关键字匹配的搜索引擎工作原理不同,本文提出的基于地质语义模型的语义检索方法,由于利用概念、实体的语义网络结构返回给用户与搜索相关的更全面的知识体系与信息,检索结果在更准、更全的基础上,更符合用户的个性化需求,既实现了“一对一”式的信息服务,又减少了用户的参与程度,从而降低了用户搜寻信息的成本。但同时也可以看出,由于知识图谱构建技术的应用推广、地质知识库的积累、地质本体库自动构建技术的研究与开发还存在众多局限,可以预见,在未来基于语义的地质大数据智能检索及自动问答系统将涌现大量的研究成果。本文针对地质大数据的特征,提出的语义检索模型希望能够为下一步地质大数据的综合开发和利用提供新的思路和技术途径。
[1] 谭永杰.地质大数据与信息服务工程技术框架[J].地理信息世界,2016,23(1):1-9.
[2] 朱月琴,谭永杰,张建通,等.基于Hadoop的地质大数据融合与挖掘技术框架[J].测绘学报,2015,44(S1):152-159.
[3] 周永章,黎培兴,王树功,等.矿床大数据及智能矿床模型研究背景与进展[J].矿物岩石地球化学通报,2017,36(2):327-331.
[4] 樊中奎.地质资料全文聚类分析及信息提取的研究[D].北京:中国地质大学(北京),2014.
[5] 黄敏,赖茂生.语义检索研究综述[J].图书情报工作,2008,52(6):63-66.
[6] 涂新辉.基于概念的信息检索模型研究[D].武汉:华中师范大学,2012.
[7] 李大高.信息检索中的查询扩展算法研究[D].镇江:江苏大学,2008.
[8] 张金.个性化信息检索系统中文本聚类的研究[D].长春:东北师范大学,2010.
[9] 明均仁.基于本体图的文本聚类模型研究[J].情报科学,2013,31(2):29-33.
[10] 王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328.
[11] 高茂庭.文本聚类分析若干问题研究[D].天津:天津大学,2007.
[12] 王鑫印.无结构和半结构信息检索相关技术研究[D].上海:复旦大学,2007.
[13] 程晓伟,杨百龙,葛春,等.基于领域本体的网络攻防训练资源库建设研究[J].网络安全技术与应用,2009(10):53-55.
[14] 颜端武.面向知识服务的智能推荐系统研究[D].南京:南京理工大学,2007.
[15] 张红岩.我国图书情报领域本体研究可视化分析[J].图书馆学研究,2012(6):7-12.
[16] Zhu YQ,Zhou WW,Xu Y,et al.Intelligent Learning for Knowledge Graph towards Geological Data[J].Scientific Programming,2017(12):1-13.
[17] Zhu YQ,Tan YJ,Zhang JT,et al.A Framework of Hadoop based Geology Big Data Fusion and Mining Technologies[J].Acta Geodaetica et Cartographica Sinica.2015,44(S1):152-159
[18] Wei D,Zhu Y.Management of Unstructured Geological Data Based on Hadoop[C]//IEEE,Intl Conf on Ubiquitous Intelligence and Computing and 2015.IEEE,2015:432-435.
[19] 姚健鹏,郭艳军,潘懋,等.铜矿床领域本体的构建方法研究[J].中国矿业,2017,26(8):140-145.
[20] Luo X,Deng J,Wang W,et al.A quantized kernel learning algorithm using a minimum kernel risk-sensitive loss criterion and bilateral gradient technique[J].Entropy,2017,19(7):365.
[21] Luo X,Liu J,Zhang D,et al.An Entropy-Based Kernel Learning Scheme toward Efficient Data Prediction in Cloud-Assisted Network Environments[J].Entropy,2016,18(8):274.
[22] Zhu YQ,Tan YJ,Li RX,et al.Cyber-physical-social-thinking modeling and computing for geological information service system[J].International Journal of Distributed Sensor Networks,2016,12(11):193-196.
[23] 李婧,陈建平,王翔.地质大数据存储技术[J].地质通报,2015,34(8):1589-1594.
[24] Zhou Z,Cheng Z,Zhu Y,et al.Similarity assessment for scientific workflow clustering and recommendation,中国科学:信息科学(英文版),2016,59(11):1-4.
[25] Luo X,Zhang D,Yang LT,et al.A kernel machine-based secure data sensing and fusion scheme in wireless sensor networks for the cyber-physical systems[J].Future Generation Computer Systems,2016(61):85-96.
[26] 董慧,唐敏.语义检索在Web2.0环境下的应用探讨[J].中国图书馆学报,2011,37(2):115-119.
[27] 杨俊柯,杨贯中,杨建学.基于领域本体的学习资源管理系统框架研究[J].科学技术与工程,2005,5(11):708-711.
[28] 杨俊柯,杨贯中,杨建学.基于语义模型的信息检索机制研究[J].计算机工程,2006,32(12):212-214.
[29] 赵丹群.信息检索中叙词表与Ontology的比较研究[J].情报理论与实践,2006,29(6):738-741.
[30] 杨建林.基于本体的文本信息检索研究[J].情报理论与实践,2006,29(5):598-601.
[31] Zhao WB,Yang W,Zhang H,et al.High-throughput state-machine replication using software transactional memory.Journal of Supercomputing,2016,72(11):1-20.
[32] 严光生,薛群威,肖克炎,等.地质调查大数据研究的主要问题分析[J].地质通报,2015,34(7):1273-1279.
[33] 徐也,徐蔚然.基于语义特征扩展的知识库增量引文推荐算法[J].山东大学学报:理学版,2016,51(11):26-32.
[34] 赵寒,张树生,周竞涛,等.面向异构数据库集成的语义模型构建技术研究[J].计算机集成制造系统,2006,12(3):371-376.
[35] 张玉峰,李敏,晏创业.论知识检索与信息检索[J].中国图书馆学报,2003,29(5):23-26.
[36] 黄凤爱,蒋永平,文艳华.基于本体的专业资源库语义模型研究[J].现代情报,2009,29(5):52-55.
[37] Lake B M,Salakhutdinov R,Tenenbaum J B.Human-level concept learning through probabilistic program induction[J].Science,2015,350(6266):1332-1338.
[38] Zhao W,Luo X,Zhu Y,et al.Intention preservation in deterministic multithreading:a partial solution.Iet Software,2016,10(6):155-163.
[39] 王树梅.信息检索相关技术研究[D].南京:南京理工大学,2007.
[40] 常琳,许必熙.基于战场信息融合的辅助决策模型若干问题研究[J].军事运筹与系统工程,2017,31(2):31-34.
[41] 丁志均,杨青,张会兵,等.基于非结构化文本检索模型综述[J].计算机应用研究,2017,34(6):1601-1608.
[42] 凤丽洲.文本分类关键技术及应用研究[D].长春:吉林大学,2015.
[43] 胡德华,王蕊.信息检索研究的知识图谱探析[J].图书馆杂志,2015,34(1):20-28.
[44] 李伟.基于知识元细粒度信息检索研究[J].农业图书情报学刊,2017,29(2):12-15.
[45] 马飞翔,廖祥文,於志勇,等.基于知识图谱的文本观点检索方法[J].山东大学学报:理学版,2016,51(11):33-40.
[46] 邵领.基于知识图谱的搜索引擎技术研究与应用[D].成都:电子科技大学,2016.
[47] 邵晓宇.基于本体的大型数据资源智能检索研究[D].合肥:合肥工业大学,2008.
[48] 张戈一,朱月琴,吕鹏飞,等.耦合协同过滤推荐与关联分析的图书推荐方法研究[J].中国矿业,2017,26(S1):425-430.
[49] 张旗,周永章.大数据正在引发地球科学领域一场深刻的革命——《地质科学》2017年大数据专题代序[J].地质科学,2017,52(3):1-12.
Researchonsemanticretrievalmodeltowardsgeologicalbigdata
ZHU Yueqin1,2,TAN Yongjie1,2,WU Yongliang3,ZHANG Linbing4,LI Yang5,ZHAO Yanan5
(1.Development and Research Center,China Geological Survey,Beijing100037,China;2.Key Laboratory of Geological Information Technology,Ministry of Land and Resources,Beijing100037,China;3.School of Earth Sciences and Resources,China University of Geosciences(Beijing),Beijing100083,China;4.Beijing Jiuyuan Taihe Technology Co.,Ltd.,Beijing100078;5.National-Local Joint Engineering Laboratory of Geospatial Information Technology,Hunan University of Science and Technology,Xiangtan411201,China)
With the new generation of information technology’s development and its application in geology,such as the Internet of things,the Internet,big data and cloud computing.How to retrieve more complete and more accurate information from the massive geological data,and provide it to user in a appreciate way is a question need to be resolved.In this paper we first define a semantic model towards geological big data and provide the construction method of this model based on the knowledge graph technology.Then,we propose a semantic retrieval and clustering analysis method.Finally,some related experiments were carried out by the geological big data retrieval system implemented.Experimental results show that the method has high recall and precision efficiency than others.
geological big data;semantic model;knowledge graph;clustering analysis;semantic retrieval
P628+.4;TP311.131
A
1004-4051(2017)12-0143-07
2017-10-24责任编辑赵奎涛
国土资源部公益性行业科研专项资助(编号:201511079)
朱月琴(1975-),女,博士,高级工程师,主要从事地质大数据、地图综合与可视化研究工作,E-mail:yueqinzhu@163.com。
吴永亮(1987-),男,博士研究生,从事地球探测与信息技术、航天标准化技术研究,E-mail:andyloveti@163.com。