基于知识图谱的水利数据垂直搜索应用

2018-03-25 12:18葛召华张中坤
山东水利 2018年5期
关键词:网页文档数据中心

葛召华,张中坤,李 博

(山东省水利信息中心,山东 济南 250014)

为解决水利信息资源开发管理分散、基础数据存储零乱、标准化差、应用服务适用性单一、难以共享等问题,山东省建设了水利数据中心。通过水利数据中心建设,将主要水利业务数据通过复制、抽取以及清洗等方式集中在数据中心,积累形成了水利大数据的雏形。但如何有效使用这些数据,使其投入生产管理工作中,充分发挥价值,为推进水利从粗放管理向精细管理、从传统管理模式向现代管理模式转变提供支撑,成为水利行业对大数据技术最客观需求。

研究大数据环境下水利业务信息的一体化智能检索(垂直检索)关键技术,借助人工智能,以水利大数据为基础,构建水利知识图谱,用主题爬虫、信息抽取、倒排索引和中文分词等垂直搜索核心技术,建立水利数据垂直搜索基础模型,开发山东省水利数据搜索引擎,对水利结构化数据、网页分析提取数据、非结构化文献影像图像数据等进行分析、整理和数据挖掘,实现水利信息资源的精准检索,更精准、更深入地挖掘出高效的水利信息。

1 设计原则

在建设山东水利数据中心的垂直搜索时遵循以下几个基本原则:1)便捷实用。系统能够为各个水利业务提供数据基础支撑,根据用户需求快速有效地检索到关系的数据,为用户决策提供保障。2)交互性强。用户能够通过输入关键词与系统进行交互。系统能够给用户提供一些专业性的水利数据,协助用户使用了解水利业务数据。3)易于扩展、维护。系统接口设计开放合理,支持外部应用程序调用数据服务。可根据用户需求对基础水利业务信息的更新,对搜索引擎中的索引数据库进行管理和维护。

2 总体设计框架

山东水利数据中心通过网络爬虫、数据抽取、数据加工处理等技术对水利基础数据、水利业务数据、水利年鉴等非结构化数据、水利资讯等门户类数据进行数据资源整合。通过建立数据索引、运用中文分词、优化权重排序算法等手段建立垂直搜索引擎,实现对水利数据的全文检索、精准查询,运用水利知识图谱实现数据的关联展示及分析。数据中心不仅实现了对数据的检索和关联分析查询,还实现了水利概况、水资源、水文业务、水利移民、水利工程等业务的按主题分类查询。

3 构建水利知识图谱

作为一种新兴的知识发现方法,知识图谱能够全方位揭示知识的来源及其发展规律,可以客观的揭示水利相关特点、业务实体之间的联系、水利科技/工程等相关发展趋势。水利知识图谱利用人工智能技术、知识计算工具以及现有的业务数据进行实体识别、属性识别,并建立实体属性链接集成。构建了水库、河湖、水文、水网工程、水资源、水利移民、农村水利、水利概况、水土保持等水利工程和业务知识图谱。

4 数据检索设计与实现

4.1 数据分类查询

运用JAVA WEB技术开发实现业务数据表的分类查询功能,将水利业务分成水利概况、水资源、水文业务、农村水利、水土保持、防汛抗旱、水利移民、水网工程等八类,并实现水利业务的数据查询功能,通过面向具体的主题业务区域来方便用户快速了解相关数据。

4.2 数据检索

主要提供所有水利业务数据的检索功能,通过网页爬虫技术检索关键词的相关匹配对展现相关的数据信息。

1)构建索引。把抓取的水利信息建立类似书目的数据文件,以便实现高速检索。索引系统涉及的关键技术点有分词技术、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等。首先解析文档读入文档后,给文档进行编号,赋予唯一的文档ID,并对文档内容解析,为该文档内每个单词建立一个(单词ID,文档ID,单词频率)三元组,将处理好的数据写入磁盘临时文件。其次对临时文件在合并中间结果的过程中,系统为每个中间结果文件在内存中开辟一个数据缓冲区,用来存放文件的部分数据。最后当所有中间结果文件都依次被读入缓冲区,在合并完成后,就形成了最终的索引文件。

2)搜索和中文分词的应用。水利术语繁多复杂、专业性强,存在大量对检索和鉴别无意义的词汇。因此,为了提高检索的效率和质量,需要增加关键词密度,构建出水利领域停用词典,建立相应的水利词库。采用基于专业词典的逆向最大匹配和统计的中文分析算法,通过算法的改进可以较好地对水利信息专业词汇进行分次,提高了搜索的准确率,根据搜索密度、信息关注度等对检索信息进行有效的权重处理,自定了排序,优化了索引,提高了检索效率。

通过索引中的关键字等进行一定算法的权重设置为用户检索出匹配度更高,相关度更高,更加准确、无误的信息。

4.3 数据关联度查询

通过构建好的水利知识图谱,建立数据之间的关联关系,实现在检索到本身需要的信息外,又可以关联出与该业务数据相关的数据,便于用户了解到数据的来源以及相关联情况。

5 应用爬虫技术重构业务展示

应用网页爬虫技术,按照数据之间的关联从水利数据中心信息源中抓取数据,基于预先构造的水利业务模板,抓取系统涉及的关键点,包括有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引(此功能也可以单独提出)等。

选取抓取的网页或者系统展示页面种子URL;将这些URL放入待抓取URL队列;从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的IP,将URL对应的网页下载下来,通过模版分析得到主题关键词内容,建立索引存储到已下载网页库中。将这些URL放进已抓取URL队列,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

6 结语

目前,山东省水利信息化已经建设了防汛抗旱、农村水利、水利工程管理、水利数据中心、电子政务、水资源管理、水利移民、水利门户网站群等系统,接入了水文、水资源、农村水利、水利普查等相关数据,完成了水利概况、水资源、水文业务、农村水利、水土保持、防汛抗旱、水利移民、水网工程的数据索引,构建了19张水利业务知识图谱,完成29张水利业务基础表的查询检索展示,96张表的关联度查询。统一的数据,统一的搜索展现形式支撑起了垂直检索技术在山东水利的应用,为进一步发挥数据的作用,满足水利工作者快捷地了解水利相关知识信息提供了条件。

猜你喜欢
网页文档数据中心
酒泉云计算大数据中心
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于RI码计算的Word复制文档鉴别
网页制作在英语教学中的应用