马 静,许 丹,赵莉花,高 健,李 森,张栓堂
(河北省水利科学研究院,河北 石家庄 050061)
随着时代的不断发展和进步,科学技术研究、信息技术、计算机等迅速发展,各种网络上的信息呈指数形式增长。面对海量的、纷繁复杂的网络信息,各行各业人员对所需信息的寻找准确度大大降低,这是通用知识服务平台的最大弊端。为解决弊端,各个行业建立行业服务平台是必然趋势。
当今社会大数据[1-2]、云计算[3-4]、物联网[5-6]等现代信息技术正处于快速发展时期,世界也因此进入大数据时代[7],大数据技术在金融、医疗卫生、互联网、电信等领域的应用已取得较好的成果。大数据平台主要由数据存储、接入和平台管理等系统组成,具有数据量和资料规模非常巨大的优点,能在短时间内精准撷取、管理和整理数据[8]。
建设水利知识服务平台,不仅是目前网络信息社会对水利行业提出的客观要求,也是新时期水利工作发展的方向。国家水利“十三五”规划明确提出,水利行业信息化建设要基于国家信息化发展最新战略和现有工作基础,加大对新信息技术的充分利用和信息资源的开发力度,建立服务水利行业发展的信息化体系,全面提升对水利要素的感知、业务数据的知识化处理和综合决策的支持等能力,逐步推动智慧水利平台建设[9]。在水利知识服务平台建设过程中须严格按照标准化程序进行,实现水利行业数据的安全接入、存储、共享、分析应用和管理的目标,更好地服务水利行业[10]。河北省水利行业的信息与数据资源相对分散,没有进行有效的整合,因此,应紧密结合河北省水利行业实际情况及未来发展趋势,重点落实关于加强知识管理工作的指示精神,推进水利知识服务平台建设。
通过建立以水利知识为支撑的信息平台,让水利行业及相关人员更快捷、高效地获取最新的知识和信息,不仅使水利知识服务平台得到充分应用,更能在一定程度上缩短水利及相关行业的工作人员查询最新水利信息的时间。水利知识服务平台是水利知识与信息技术融合的产物,水利知识定期传输到服务平台,所需人员在平台上获取信息,形成一体化线上获取模式。
为贯彻落实河北省水利“十三五”规划指导思想[11-12],实施行业资源整合,建设水利知识服务平台是河北省水利信息化工程的重要组成部分。河北省水利知识服务平台总体建设目标为:建成一个以数字化知识资源为基础,以河北省水利机构需求为中心,以先进的信息技术为手段的一体化的个性化知识综合服务与管理平台。它既是资源加工、管理平台,又是功能完备、资源丰富、特色鲜明、共知共享的网络信息服务窗口。实现管理现代化和文献服务网络化,最终建成面向研究室领导决策、科研创新、信息咨询的,集知识管理、数据分析、项目过程管理、科研成果转化、交流互动、移动端服务于一体的全方位服务的大型综合性知识服务平台。
水利行业是一个复杂且相对独立的系统,与较多行业存在广泛的业务往来,所以水利知识服务平台建设是一个庞大的系统工程。真正解决水利行业统一的数据管理、存储、服务、应用与安全等问题是水利知识服务平台建设的需求[13],因此,应基于河北省水利行业发展现状,通过科学的规划与设计,逐步建立水利知识服务平台。建设思路[14]总结如下:
1)科学规划、统一设计。水利大数据具有结构复杂及多样的特点,因此大数据平台建设必须遵从信息化要求[15],在建设前对总体框架进行科学规划、统一设计,形成水利知识服务平台整体架构蓝图,为今后平台的扩充、运行及管理提供便利。
2)逐步建立。由于水利知识服务平台是一个庞大的系统工程,涉及的业务较广,数据多而杂,所以大数据平台的建设不能一次性快速完成,应该是在总体架构的基础上,采用分期、分阶段的方式,逐步建立,完善,最终形成水利知识服务平台。
3)重视基础建设。对于国家建设而言,经济基础决定上层建筑。同理,对于水利知识服务平台而言,一个好的基础也有利于平台的建立、稳定和完善。因此,在水利知识服务平台建设过程中,基础软硬件的选择与建设、平台基础数据的规范和治理、相关管理制度的建立、主要功能的设计等,要满足基础、现实和实用的需求。
水利知识服务平台的建设应遵循以下原则:
1)整体性原则[16]。建设水利知识服务平台重要目的是实现资源整合,因此任务中遵循的首要原则为整体性原则。
2)动态相关性原则[17]。水利知识服务平台处在不断地发展变化之中,主要由建设项目中的子模块之间,以及子模块组成要素之间的排列组合不断变化所引起,也决定了系统的相互关联性。因此,要遵循动态相关性原则,将平台中各动态要素实时关联,做到互通。
3)层次等级性原则[18]。水利知识服务平台中应用子模块都被包含在比它更大或更高一级的系统里,同时每个系统都包含着若干个比它小的或是低一级的子系统。系统与系统或要素与要素之间除了并列关系外,更表现出明显的层次等级性。因此应遵循层次等级性原则,将模块功能细化,使各子模块有条不紊地展示给用户。
4)开放性原则[19]。水利应用的系统集成需要具有开放和全面的接口,方便从各级水利机构选择合适的软件和工具进行集成,并可根据示范应用单位的应用需求和业务流程进行配置,增加或减少软件和工具。
5)易用友好性原则[20]。水利知识服务平台应提供直观易用、友好、人性化的用户操作界面,方便不同层次的工作人员使用。
6)稳定性和安全性原则[21]。水利知识服务平台是一个长期运行的系统,设计时须充分考虑数据的安全性和平台的稳定性,并提供备份和灾难恢复机制,使该平台在出现部分故障时仍然能够为用户提供必要的服务。
7)合规和标准性原则[22]。水利知识服务平台的设计、代码的书写、文档的编辑等,应严格执行国家相关、行业和审计标准。
水利知识服务平台将大数据技术与迭代创新模式引入建设过程中,及时为机构领导和科研人员提供水利行业资源和科研成果等全方位服务,真正实现各创新要素高效整合,以及基础研究、应用研究和工程开发等各类人才与资源的综合利用。
河北省水利知识服务平台包含水利系统各方面的知识,如河北省水利行业最新的新闻资讯、科技知识,以及科普知识、水利行业的专家智库及水利学会的相关信息等。
采用“自建 + 外采”的整合方式,通过大数据信息技术对水利数据资源进行统一规划、整合加工、深度挖掘分析等,逐步建立水利知识服务平台。自建资料包含水利行业的数据、资料等相关信息,外采资料指通过第三方数据库获取的各种类型的资料。将自建与外采的资料放到河北省水利知识服务平台上,使不同行业、领域的相关数据和信息资料得到有机的整合,有针对性地对行业或机构发展中的重点和难点问题进行知识关联,个性化定制,并提供知识分析和服务,形成有相关研究证据支撑的、可信度较高的可行性研究报告。水利知识服务平台系统技术架构如图 1 所示,从图中看出在平台上可以同时检索到自有资源与第三方数据,这些资源通过进一步分类、加工、聚类、管理等,形成使用者能直接获取的标准、期刊、论文、专利等信息,充分体现了“自建 + 外采”下的数据信息的融合。
图 1 水利知识服务平台系统技术架构图
河北省水利知识服务平台是在不断完善中逐步建立起来的,初步建立时服务范畴是为水利行业的科研人员提供文献的查询、简单信息的获取,随着技术的进步,服务平台逐渐开通新闻资讯、科技知识等模块。到目前为止,在 TPI 大数据和 KBase 知识库等管理系统核心技术的支持下,河北省水利知识服务平台已经是集专家咨询、科普知识、期刊投稿、学习平台等栏目在内的综合系统,可为水利及相关行业的用户提供更全面的知识服务。
3.2.1 TPI 大数据管理系统
TPI 大数据管理系统[23]基于非结构化的文档管理,以全文检索数据库为核心,采用 B/S 浏览器的检索方式和 3 层 C/S 架构,能同时管理文本、图像、多媒体等各类信息,具备中文智能信息处理能力,并提供全文检索的优质化服务,支持网页的动态发布等,是一个面向资源信息应用、管理和发布的系统。TPI 大数据管理系统功能强大,可以支持准确、高效的检索;具备多服务器同时处理能力;能支持多种编码形式,通用的操作系统均可适用。
TPI 大数据管理系统可实现以下功能:
1)大数据发布与内容管理。TPI 大数据管理系统能够将用户建立的大数据信息资源(包括期刊、论文、音频、图件等)定期自动或动态实时发布在网上,实现多导航和数据库的紧密连接,可以采用单库、跨库、分布式、高级、二次、同义词和反义词等检索方式,在用户、项目、Web 发布管理等完整配套管理下,实现水利大数据的全面安全控制。
2)分类标引。可对大数据中的文本、图像、视频等资源进行分类和标引,为平台提供更直观、全面的浏览和检索界面。
3)数据库转换。通过 OAI 和 METS 协议,经过数据交换和远程整合,可实现水利大数据资源的信息统一。
4)在线提交。可以通过 HTTP 和 FTP 等渠道,采用自行或后期统一提交的方式,上传格式不定、布局优化、样式灵活和用户名不重的文件。
3.2.2 KBase 知识库管理系统
KBase 知识库管理系统可以管理海量非结构化数据,拥有智能信息处理能力,是一个以中文信息处理为特色的国产专用网格数据库管理系统,同时还是直接支持网格应用的专用知识库系统,结构图如图 2 所示。KBase 知识库管理系统支持 Windows,Linux 和 Unix 操作系统平台,同时具有智能中文信息大规模并发处理及高效的全文检索等能力,拥有丰富的数据库管理工具,目前通过严格测试,在广泛的试用中证明具有稳定的运行能力。
3.3.1 水利知识服务平台服务门户
通过对不同专业领域用户的调查分析,为满足水利及其他相关行业用户的实际需求,水利知识服务平台服务门户系统在借鉴其他领域应用框架的基础上,逐步建立起为政府、企业、科研及个人等用户提供水利信息查询,在线咨询,预览和下载等服务。其发布系统的主要功能是将水利资源库中的数据信息通过发布模板呈现在 Web 终端上,操作流程如图 3 所示。
图 2 KBase 知识库管理系统体系结构图
图 3 水利知识服务平台服务门户发布系统流程图
水利知识服务平台服务门户系统包含水利资源检索、多维度导航、在线阅读、智能关联、个性化定制和系统管理 6 个主要功能。其中水利资源检索、在线阅读和个性化定制是基础常用功能;多维度导航针对所管理的数据,按照业务种类、成果形式、文献类型等多个维度进行导航分类检索,大大提高了用户检索和查找的效率;智能关联根据用户的检索记录生成快速智能提示词,同时为用户提供当前检索文献的相似或同类文献,提高文献和信息检索的广度;系统管理主要涉及用户信息的增加、删除和修改。
3.3.2 水利大数据知识资源池
通过水利大数据知识资源池,将河北省水利机构的内部和外部资源进行收集、加工标引和提交,实现水利信息资源的可持续更新。河北省水利机构的内部资源是核心数据,包含文档、图件成果、自建数据库、项目信息、业务知识、专家库、科研成果和其他文件;外部资源主要是 CNKI 知识资源库,以及互联网采集和机构自有资源。
3.3.3 统一检索平台
水利大数据统一检索平台的功能是对水利大数据知识资源池中的内部和外部资源,统一进行异构检索、排序和智能关联,满足水利行业所有用户对知识资源池中所有资源的检索、在线阅读和下载需求,并快速帮助用户查找需要的信息资源。根据检索方式的不同可分为以下检索:1)单库检索,针对某一个数据库进行检索;2)统一检索,针对统一检索平台及其对接的第三方资源进行一站式检索;3)全文检索,根据用户需要查找数据库中某个全文报告或成果中的相关章、节、段、句、词等信息,同时还可对其进行统计与分析。
水利文献信息系统可为水利行业的管理者、研究者、规划设计者,以及高校师生和广大社会用户,搭建一个专业性和行业化的文献查询、检索、在线阅读和下载的服务平台[24]。水利文献信息系统将文献按照学科及研究方向进行分类,分为水文学、泥沙动力学、水力学等 18 个专栏,每个专栏都有学科相对应的文献。水利文献信息系统的建设不仅提高了水利系统内文献、专著等信息资源的共享程度,在一定程度上将参建单位的特色资源通过引进和自建结合的方式进行整合,也为用户提供专业化的检索工具,提高了检索信息的准确率和查全率。
近几年来,水利科研项目申报是国家科技发展的重要方式,是我国水利行业发展战略目标、具体方针政策和任务的主要体现,且水利科研项目的申报审批能有效地促进水利行业的快速发展[25]。河北省水利科研项目管理平台可为水利行业科研人员提供一个专业了解项目申报文件法规、网上项目申报、项目审批进度查询和任务书管理的综合服务平台,是水利知识服务平台的具体应用。河北省水利科研项目管理平台建设完成后, 从 2017 年开始至今,有 44 家单位申报了 163 个项目,为水利行业项目的网络化管理提供了一个便捷的平台。
河北省水利知识培训平台是水利基础知识和专题业务培训系统,也是水利知识服务平台建设的典型实例,具体功能结构如图 4 所示。此培训平台是一个集网上注册和培训、考试、在线交流、课程选择、学员综合管理、阶段性和结业考试、数据统计分析、结业证书颁发等于一体的综合水利信息化大数据平台,为全面提升河北省水利厅机关(事业单位)干部的专业知识和业务水平提供便捷、高效的学习平台。水利知识培训平台上传的课程共有 4 门,分别为“工程地质与水文地质基础知识”“水工建筑物基础知识”“水力学基础知识”和“水文水资源基础知识”。在水利知识培训平台开放期间,截止到 2019 年 11 月共有 238 人注册、学习相关水利知识。
图 4 河北省水利知识培训平台功能结构图
目前,大数据技术在金融、教育、商业等多个领域已取得一定的成果,但由于水利行业与其他行业联系紧密,信息资源庞杂,因此,水利知识服务平台与其他领域数据平台的建设相比更为复杂。协调各领域、部门的利益,有效整合和集成共享多来源、多途径的水利数据信息资源,是构建河北省水利知识服务平台的基础。河北省水利知识服务平台的建设,不仅为河北省水利行业人员,更为其他省份水利行业的科研管理人员,以及广大社会用户,搭建一个文献查询、检索、在线阅读和下载的服务平台,与其他综合性查询网站相比,更加专业化和行业化,大大提高了水利行业数据的资源共享程度。河北省水利知识培训平台的建设与广泛应用有效促进了河北省与其他省份水利行业的协同创新发展。今后,在水利数据整合研究基础上,将更深入研究水利数据之间,以及水利数据与其他行业数据之间的复杂关系,促进学科与行业的融合发展。