柴苗岭,邹弈星,谭荣志,曾 怡,任运月
(1.中国科学院成都文献情报中心,成都 610041;2.中国科学院大学经济与管理学院,北京 100190;3.中国科学院山地灾害与地表过程重点实验室,成都 610041;4.四川省农村科技发展中心,成都 610042;5.香港城市大学商学院,香港 999077;6.四川大学公共管理学院,成都 610065)
随着大数据相关理论、技术和机制的逐步发展,各行各业越来越重视在管理决策中引入多源异构数据进行融合分析,进而提供大数据驱动下的决策咨询。从科技管理实践、科技管理与图书情报学科交叉角度来看,实现这一目标还需要在知识服务能力上下足功夫。其中产业服务是科技管理的重要职能之一,全产业要素下的数据挖掘及利用,有利于制定产业技术创新战略、规划。而科学数据和科技文献关联研究能够挖掘科学数据之间、科学数据和科技文献之间的深层次关系,有助于产业全域数据的整合和挖掘。
农业科技管理部门看到了这些问题,也建立了科学数据平台支撑管理。以四川省农业科学数据建设情况为例,作为农业大省和科技资源大省,四川省相关政府机构、科研机构支持建设了大量的数据和资源平台,为农业科技管理提供了良好的基础,如“四川省科技成果转化信息服务平台” “四川育种攻关数据共享平台” “农业病虫害多媒体数据库” 等。但仍然存在数据量不足、数据孤岛、数据挖掘不够的现象。具体表现在3 个方面:一是知识服务导向不明确;二是数据共享性较差;三是缺少科技文献。
面向上述问题,本文以现有科技管理中的产业服务特征为出发点,提出了基于农业产业服务的知识服务模型,就 “产业服务” 和“数据关联” 两个关键问题构建了模型和平台,并用四川省农业科学数据和科技文献为核心数据集进行了建设实践。本研究为农业产业知识服务中的科学数据和科技文献关联提供了案例,为进一步开展全产业链下的农业知识服务做了基础性研究。
知识服务最早由任俊为引入图书情报行业[1],张晓林进一步揭示了知识服务概念的本质,认为知识服务要有效支持知识应用和知识创新的服务[2]。随着研究的深入,李霞等[3]提出将知识服务的模式分为专职顾问服务模式、参考咨询服务模式和自助服务模式3 种。此外,柯平[4]将图书馆转型发展的行业环境划分为信息服务时代、前知识服务时代和后知识服务时代。行业环境的变化对数据价值挖掘和知识服务提出更高的要求。农业科学数据的价值在农业科技管理过程中不断凸显,涌现出各类农业知识服务模式。刘健宏等[5]将大数据背景下农业分学科知识服务模式归纳为“学科馆员+团队首席+研究团队” 模式、“微信+信息平台” 模式和“知识社区+专题信息” 3 类。王丹阳[6]从农业知识服务平台建设实践出发,将知识服务划分为政策导向、产品导向、技术导向、市场导向和流量导向。
2.2.1 科学数据研究现状
科学数据的研究最早可追溯到1960 年美国成立国家大气研究中心,开展地球科学数据的建模、收藏和保存工作[7]。国外的农业领域,美国建立了较为全面的农业科学数据资源系统和农业计算机网络系统,欧盟、德国等国家亦致力于科学数据开放共享[8]。研究内容上,侧重元数据体系结构的建立[9]、基于物联网开发数据平台[10]、利用商业智能集成农业数据[11]、开放信息系统模型框架和农业资源平台关键的硬件、软件技术[12]研究等。此外,数据管理层面的数据管理人员及合作[13]研究、数据互操作[14]、跨学科数据管理[13]及数据开放安全性和隐私问题[15]也受到国外学者关注。
国内的科学数据研究可追溯到2001 年国家科学数据共享工程启动气象科学数据试点,它先后带动了资源环境、农业、人口与健康、基础与前沿等领域科学数据建设与共享[16]。国内研究总体而言涵盖了资源整合[17]、数据存储[18]、数据监管[19]、数据汇交与管理[20]、数据开放与出版[21]、数据重用[22]等环节,核心是农业数据资源整合和使用。
2.2.2 科学数据与科技文献关联方法现状
《科学数据管理办法》将科学数据划分为科学研究活动、基础研究、应用研究和试验活动的数据[23]。研究采用该分类,对科学数据的定义、产出和保存机构、数据载体进行调研和分析,认为相关机构主要有科研院所和大学(包括中心、实验室、观测站等),图书情报机构、政府管理部门和企业,科学数据载体主要有数据集、数据库、期刊、专著、专利、报告、政策法规等。需要指出的是,从载体的角度来看,科技文献也是科学数据的一种。
数据关联方面,TONY 等[24]提出了数据密集型科学发现,构建了科学数据和科技文献关联的使用场景,认为科学数据关联能够提高科学的“信息速率”,促进科研人员的科学生产力。本文从关联技术角度进行分析,将关联方法划分为以下4 类。
(1) 元数据关联。是基于科学数据和科技文献数据的外部和内部特征描述,寻找两类数据的关联节点,形成物理关联。如黄筱瑾[25]从元数据描述元素出发,总结了科学数据和科技文献的作者关联、学科分类号关联、关键词关联模式。
(2) 语义关联。是从语义层面发现实体、找出关联关系,增强数据共性的方法。如鲜国建[26]从科学数据语义关联的方法和技术出发构建了农业科技多维语义关联模型和关联数据驱动的领域知识服务系统。
(3) 算法关联。是通过数学公式,判断数据间的相关关系及其距离的方法。如李帆[27]选取FP-Growth 算法进行属性间趋势关联性挖掘,从列车监测数据出发通过部件间的状态关联性发现其他部件可能存在的问题。
(4) 引用关联。引用关联即利用科技文献和科学数据的引用关系,构建引文网络[28]。是一种直接、基本的数据关联方式。如丁文姚等[29]结合国家标准《信息技术科学数据引用》的引用元素并应用统计学方法描述其科学数据引用特征,揭示了特征间的关联关系。
农业科学数据作为战略性、基础性的科技资源,其有效研究和利用将有助于农业产业视角下的全数据融合[30]。农业产业知识服务需求贯穿于全产业链服务,可以判断出服务主体对科学数据的需求将涵盖多源、多类型、非结构化的数据。本体作为基于语义的知识组织方法已经被广泛地研究与应用,本研究在产业管理特征上采用本体方法关联语义有一定的研究意义和复用价值。
数据关联关键环节之一是对数据源的遴选及数据分析,寻找关联点。
研究以四川农业科学数据为基础,构建核心数据集,遴选导向是科学数据和文献数据、数值数据和文本数据、中文数据和英文数据。研究数据选择了农业科研管理机构、图书情报机构、科学研究机构/科学数据共享平台的数据,遴选了16 类科技管理中常用数据和4 类科技文献数据,然后对这20 种数据的元数据进行分析,发现关联特征(表1、表2)。
从表1 和表2 可见,元数据内可以概括为描述客观存在的外部特征和表达内容的内部特征。由于数据类型多、结构不同,通用的外部和内部特征较少,数据之间的相似性不强,如果要进行数据关联,需要补充科学数据和科技文献的共性特征,如数据的领域分类、产业环节分布、地理位置描述、语种描述等。
表1 农业科学数据元数据结构表Table 1 Metadata schema of agricultural science data
表2 科技文献元数据结构表Table 2 Metadata schema of scientific and technological literature
3.2.1 知识服务特征
(1) 数据使用受国家政策指导。管理部门在数据的使用上,侧重统计数据、成果转化、人才数据的使用,具有产业化管理特征。这一特征由管理部门的性质决定,具体表现是使用宏观、中观数据的带有统计意义的数据,重视成果转化及人才,并且对科学研究内容、细节等不做追求。相关数据类型有政策法规数据、科技项目数据、获奖成果数据、专家数据。在近年的数据使用上,除了支撑产业管理,也体现了科技扶贫工作特色,具体表现是对科技专家、三区人才、科技特派员的数据采集。
(2) 数据加工关注产业链环节。在农业产业管理中,为了方便管理部门的管理和支持,从管理角度设计了产业链流程。以四川农村科技发展中心为例,设计了适应科技管理的5 个产业链环节,覆盖了繁育、种养殖、加工、物流及副产物利用(表3)。该设计与机构管理职能紧密相关,目标指向性明确。但综合考虑到农业科技管理的任务重点及产业分类管理需求,在该产业链划分基础上,本研究对科技管理的产业链环节进行了重构。设计了良种繁育、种养殖、初加工、精深加工、副产物综合利用和储运物流6 个环节,将加工环节划分为初加工和精深加工,调整了物流运输的环节排序,并给出定义(表3、表4)。
表3 农业产业链环节设置一览表Table 3 The list of agricultural industrial chain
表4 产业链环节级其定义Table 4 The definition of industrial chain
(3) 产业化的分类特征。科技管理数据的另外一个特色是按照产业特色分类,基于产业需求并不要求分类精细化(图1)。以四川省农村科技发展中心制作的“星火计划项目元数据” 为例,在数据的规范化处理上按照四川省的重点发展产业进行划分,这与科技文献常用《中国图书分类法》《中国科学院图书分类法》的分类方法精细化有明显区别,其分类级别上类似于农业分类下的二级或三级类目,较宏观。
图1 星火计划项目元数据截图Fig.1 The screenshot of spark programs metadata
(4) 科学数据与科技文献使用特征。管理中常用的数据以项目数据、成果数据、专家人才等数据为主,以科学观测、实验等为代表的科学数据使用较少,生产数据有其价值但缺乏规模性使用场景,期刊论文和专利为代表的科技文献的知识挖掘不多,政策法规的支撑不足。图书情报学的知识组织和知识挖掘方法在农业科技管理还有进一步应用空间。
3.2.2 产业知识服务需求
根据农业科技管理的特征来看,管理部门的知识服务需求侧重产业宏观和中观管理,如决策、预测、制定和分析指标、制定政策、目标和战略规划等。和科学研究的知识服务需求特征不同,更偏向于宏观、反应整体的数据使用。
本研究的知识服务主体是从事农业科技管理的部门、从事农业产业研究的科研机构和大学、企业,目标用户是科技管理决策人员,从事产业研究、产业转化的科研人员和企业管理人员。
数据生命周期是指科学数据从产生到消亡的全过程。从数据管理角度,通常将生命周期划分数据采集、数据存储、数据处理、数据传输、数据交换、数据销毁6 个阶段。在具体的应用环境中,根据数据使用情况增减环节。如2018 年国务院办公厅印发的《科学数据管理办法》中涉及的科学数据管理生命周期是数据采集和交汇、数据保存、数据共享利用、数据保密安全4 个方面。本研究按照科学数据管理中参与产业知识服务的数据,按照信息管理的生命周期流程和农业产业管理特征,初步构建农业产业管理科学数据生命周期(图2)。
图2 农业产业管理科学数据生命周期模型Fig.2 Scientific data life cycle model of agricultural industry management
该生命周期有3 个关键环节,一是跨部门的数据交换,通常有部门之间的协商交换和开放数据获取两种方式;二是根据知识服务和数据的特征构建产业特征的本体,实现非结构化数据的语义关联;三是基于数据平台的共享交流,和第一个环节相比,有知识产权的制约,此外数据完整性也有一定损失或影响。综上,研究将依据农业科技管理特征和需求,构建产业本体,进而实现数据之间的关联。
3.4.1 本体构建原则
本体模型是产业知识服务模型中的关键环节之一。作为产业知识服务的技术支持,本体可以帮助建立科学数据之间、科学数据与科技文献数据之间的关联。本研究中的农业产业本体(以下简称本体),是介于领域本体和科学本体之间的简单应用本体。按照MC Guinness 对简单本体的定义,将包括3 个内容:一是建立有限词汇表;二是概念和术语之间有关系解释;三是类之间有严格分层的子类关系。
3.4.2 本体构建流程
本研究采用七步法构建本体。在确定专业领域和数据类型后,考查复用本体,构建了概念、属性、关系和实例。由于是基于领域的本体研究,研究中邀请了专家介入,辅助控制质量。构建流程参见图3。
图3 农业产业本体构建流程图Fig.3 Flow chart of agricultural industry ontology construction
3.4.3 本体模型
(1) 本体语言及结构。农业产业本体包括概念、属性、和实例。本体主要分为对概念层与实例层的构建。概念层构建包含对类、类的层级结构、类间关系与属性的定义,形成概念级别的语义网络。实例层主要是在概念层的基础上对具体实例进行描述,将实例填充到概念语义网络中,实现具体知识的组织与应用。
(2) 本体概念构建。首先分析了科技产业管理要素和R&D 活动评价指标,创建概念结构;其次调研了领域相关的本体、叙词表和分类法,吸收其中的产业特性;然后根据农业核心数据分析概念,搭建类目层级结构;最后在专家建议和数据实测基础上完善概念。研究参考了农业多语种叙词表(AGROVOC)、科技知识组织体系(STKOS)、《中华人民共和国农业技术推广法》、国民经济分类法、中国图书分类法、中国科学院图书分类法,最后形成13 个一级类目、65 个二级子类、若干三级子类的农业产业本体概念层级框架,层级深度最深为三级,概念内容覆盖了产业环节分类、农业领域分类、产业投入和产出等领域(图4)。
图4 概念层级效果示意图Fig.4 Concept hierarchy of the ontology
(3) 关系设计。关系设计部分主要厘清并构建了概念之间的关系,包括基本关系和自定义关系。基本关系复用了RDFS、DC 等描述框架的一些常用关系,对于无法被覆盖的其他特殊关系,采用自定义关系进行描述。
(4) 本体属性。属性分为对象属性和数据属性。对象属性主要用于描述两个概念之间的关系。在完成关系设计并交予领域专家审核后,这些关系在本体构建中,以对象属性的形式被构建。比如“产业成果” -“有关于” ->“产业环节”。数据属性描述了该概念的非关联性属性,以属性值的方式表达,不与其他概念产生联系。比如产业主体的机构名称、文献的标题。
3.4.4 数据测试与修正
本体设计的核心工作之一是根据科学数据和科学文献的外部和内部共性特征建立5 个概念:产业环节、产业分类、产业技术、产业地理和政策法规。这5 个概念能否带入科学数据和科技文献将影响数据关联准确性。
测试部分以专家讨论和数据实践为主,分4 步完成。首先,在初稿基础上邀请农业科学、农业管理和图书情报领域专家进行本体讨论,并根据专家意见修改完善;其次邀请农业科学和图书情报领域的研究人员进行数据验证;第三在平台中进行数据关联验证;最后修正本体。测试人员从描述准确性、区域特征和可操作性对26 190 条数据进行了语义提取、分析和修正,获得有效数据23 100 条,语义提取率达到88.20%。测试认为本体实测效果较好,总体可以满足科学数据和科技文献数据的关联需求,兼顾了科学数据的宏观和微观描述,符合四川省农业产业特色,分类操作过程简单、易用、易标引,概念准确、无歧义。
测试发现主要有3 个问题:一是语义粒度粗细差异。以产业环节为例,农业政策法规、农业项目、农业机构数据的分类较为宏观,一条数据可能覆盖多个三级类目,或者二级类目。修正后,将宏观和中观相关数据进行二次测试,分类以一级或二级类为主,能够实现粗的语义对齐。二是概念覆盖不全。通过专家研讨和测试两个环节补充了内容,如经专家建议补充了四川省农产品、林木、药材等特色产业分类。三是分类视角问题。测试人员以农业经济管理专业的硕、博士研究生、图书馆学硕士研究生为主,优点是测试流程规范、语义识别专业度较高,缺点是跨领域工作增加了语义提取难度,后期通过第三方审核和交叉审核,能够及时发现和矫正。
本部分主要是使用四川农业产业管理相关的科学数据和科技文献,在该软件中进行实践,检验本体结构的合理性和可行性。构建操作分为3 步。
(1) 搭建类目层级。首先将概念进行分类与组织,明晰概念及基础关系,归纳形成明确的类目,搭建类目层级结构。类目层级主要通过rdfs:subClassOf 属性来实现,若类A 与类B 有“A-subClassOf->B” 的类间关系,则说明A 类与B 类有层级关系,且A 是B 的子类。类目创建界面如图5 所示。
图5 Vocbench3 类目创建示意图Fig.5 Class construction in Vocbench3
(2) 添加属性。根据本体设计部分的关系设计,结合实例数据的元数据描述,通过归纳、转化、整合复用得出本体所需的属性。之后,划分对象属性与数据属性,对属性的定义域与值域进行进一步明晰,得到清晰完整的属性清单,并在Vocbench3 中进行构建。根据整理好的属性清单,创建对象属性及数据属性,并在属性设置窗口中进一步定义属性的值域与定义域。属性创建界面如图6 示。
图6 Vocbench3 属性创建示意图Fig.6 Property construction in Vocbench3
(3) 实例层构建。Vocbench3 中创建实例需要先在Class 视窗中选中需要创建实例的类目,再在Instance 视窗中,点击创建按钮构建实例,在instance编辑窗口中添加实例相应的属性,完成实例构建。实例创建界面如图7 所示。创建完成的实例可以通过可视化方式展示,如图8 所示。
图7 Vocbench3 实例创建示意图Fig.7 Instance construction in Vocbench3
图8 产业主体实例可视化图Fig.8 Visualization of an industrial subject instance
4.2.1 农业产业知识服务平台
知识服务平台将提供多类型科学数据检索服务,检索结果可以按照产业要素关联和聚类,进而提高用户获取隐性知识的速率,扩展产业知识,启发新需求。平台基于Java 语言开发,数据库采用Mysql5.5,服务器Tomcat8.5。整个系统采用前后端分离开发,系统部署于云环境,采用Zstack Iaas 平台创建和管理系统业务云主机采用扁平网络搭建安全的网络结构。从数据关联情况来看,可以通过产业领域、产业环节、资源类型、语种和地点进行分面聚类。平台选取产业要素中的产业投入、产业成果、产业技术进行关联实践,具体涉及科技项目、政策法规、外文论文、专利和技术需求5 类资源。图9 是“突破性马铃薯新品种达薯1号的扩繁与示范” 项目对应的政策、论文、专利和技术需求案例。
图9 “突破性马铃薯新品种达薯1 号的扩繁与示范” 项目数据关联示意图Fig.9 Data association of project"propagation and demonstration of a breakthrough potato variety Dashu No.1"
4.2.2 农业专家子平台
专家数据库的建设有利于农业精准服务。从现有情况来看四川省对于农业专家信息的遴选、成果展示等作为建设目标的平台不多,服务力度不够。因此,本研究结合四川省农业发展特点以及发展方向,在主平台下建立四川省农业领域专家信息与服务平台。目的是搜集和展示相关领域专家信息,并采集农业专家公开发表的论文信息、农业领域政府机构和专业研究机构的新闻信息。目前平台内国内专家的数量为859条,国外专家的数量为325 条。主平台和子平台数据通过产业本体中的“产业人才” 进行关联。
研究根据科学数据特征和知识服务需求,将本体概念和产业要素结合起来,提出农业产业知识服务模型。并就产业知识服务模型中的两个关键要素:产业本体和数据平台建设进行研究。研究建立了科学数据和科技文献关联的本体模型并在Vocbench3 中实现,构建了农业知识服务平台和农业专家子平台,在系统中实现了24 284 条数据的产业知识共现,参与数据包括16 类农业科学数据和4 类科技文献。
研究认为来自农业管理机构的数据和来自情报机构的科技文献,在信息描述粒度和层次上有所不同,呈碎片化分布在产业链各环节。通过构建农业产业管理本体,能把多源异构数据关联融合于产业管理逻辑下,帮助用户知识发现。但是融合后数据价值还有待挖掘。
研究基本实现农业科技知识发现的服务目标,探索了农业科学数据在科技管理的应用,提出了数据关联方法,然而由于数据总量较少,还需要进一步充实和展示关联,实现实例数据的批量转化,以及后端的知识图谱开发与应用。本体模型覆盖了13 个概念,概念相对庞杂,将进一步修正,如把产业地理调整为属性值。此外,将在现有基础上挖掘数据链的价值,开展全产业链视角下的技术预见理论和方法研究。