仲 妍,钟艳玲,郭文思
(军事科学院防化研究院,北京 100028)
应用大数据、人工智能技术进行科研数据分析,例如,专业发展方向预测、技术关联关系分析等,都需要科研数据积累到一定程度,数据呈现出大数据4 V 特性。只有数据形成规模之后,才能够应用数据挖掘技术发现隐含在大数据量之下的数据关联,分析出数据的隐含价值,并进行专业方向与决策分析。而数据的来源(即数据生产者)主要是科研人员、实验仪器设备、科研管理系统、科研实验系统等科研相关人员、设备和信息系统。科研人员和设备的数据也必须进行电子化、格式化后,方可进入信息系统,才能被进一步分析利用。
目前,由于科研与教学信息系统独立建设,导致数据难以共享。要解决这个难题,需要解决以下问题:(1)系统数据如何保证共享;(2)如何应用信息技术实现数据共享。解决第一个问题就是要解决数据共享正规化建设,包括数据监管体制构建和数据共享机制研究;解决第二个问题就是要应用数据及信息技术建设数据共享平台。
在各数据应用领域、各个数据汇聚行业中,都涉及数据共享与数据保护等问题[1-7]。因此,一方面需要分析数据监管体制,通过监管干预的方式梳理管理流程中数据拥有者、使用者和管理者之间的层级关系;另一方面需要分析数据共享机制,实现数据权益分层定义,实现数据权力保护。
信息系统的建设目标诸如开展相关科学研究、获取科技情报信息、开展战场环境和装备模拟仿真研究等,信息系统建设层出不穷,也增加了信息系统和数据建设的异构性,同时对统一的信息系统监管提出了新需求。需要通过对科研数据的产生、汇聚、运用等数据全流程环节的分析,构建数据监管体制。
信息系统的建设、管理、使用单位称为信息系统建设归属部门。数据生产之后需要具有独立职能的科研数据中心建设和维护单位(称为数据信息化建设部门),来负责数据的标准体系建设和配套基础设施建设。数据应用除了供本信息系统所有者使用外,应该在数据共享的基础上应用数据分析技术发现数据更大的价值。这就需要建立统一的具有数据管理权限的单位(称为数据规制机构),来统筹数据资源建设相关的科研经费、科研项目,同时制定数据共享管理规定、要求和机制等规章制度。
通过以上分析可以总结,信息系统作为科研数据的承载者,从建设、运行、管理的流程上来看,需要确立一系列信息系统管理单位的管理职能,建立统一的数据监管体制,自下而上包括信息系统生产者 (数据生产者)、信息系统建设归属部门、数据信息化建设部门和数据规制机构等。监管体制建设层级如图1 所示。
图1 监管体制
数据生产者想要保护自己的数据,数据运用者则有对已有数据应用的现实需求,两者存在矛盾。只有同时保证数据生产者和运用者的不同利益价值体现,才能使生产者更愿意支持数据共享、共用,也更能为数据使用者提供更好的决策支持。除了数据的产生和运用外,数据由信息系统统一汇聚至数据信息化建设部门和数据规制机构,因此这两个部门的管理人员也要纳入信息主体。为实现网络互联环境下的数据共享,需要完善数据共享机制,保护各信息主体的合法权益[8-12]。
将数据共享的利益主体与信息主体统一起来,分为数据生产者、数据运用者、系统管理者和数据管理者(如图1 所示)。通过借鉴文献[12]中关于利益主体的权利和义务研究思路,建立数据共享机制,为形成数据共享规章制度提供支撑,同时为应用信息技术实现数据共享提供功能补充。各利益主体的权利和义务见表1。
表1 各利益主体的权利和义务
在数据监管体制管理之下,以共享机制为理论指导和顶层设计,应用信息技术实践数据共享平台,辅以技术手段实现信息系统间数据的互联互通。
主数据是实现数据共享的核心数据资源,是沟通信息系统的媒介。通过主数据的建设可以实现基础数据的统一建设、统一维护,实现数据复用,减低信息系统建设成本。按照数据监管体制中的职能部门分工,由数据信息化建设部门统一组织实施主数据建设,由数据管理者筹划建设和推行管理及应用机制,由数据生产者和数据管理搭载信息系统开展应用。
2.1.1 标准规范建立
首先,要梳理科研数据现状,在厘清主数据遵循的相关国标、国军标和行业标准的基础上,建立科研主数据的相关标准规范。建设步骤如下:
(1)清理目前现有科研信息系统、实验数据平台、实验仪器设备等中的科研数据界定,建立现有数据体系;
(2)按照数据管理流程,梳理数据各环节建设需要遵循的标准,明确信息系统标准框架中标准缺项,根据可参照的国家标准、国家军队标准、行业标准等编制相应的明细表,制定数据资源及信息系统建设标准体系框架;
(3)分析现有信息系统间数据交互情况,包括系统间集成关联、各系统数据体系及流向、数据接口等,通过关联判断、抽取分析,明确信息系统的主数据应用需求,列出科研主数据清单及与各信息系统之间的应用关联关系;
(4)制定主数据规范,开展主数据建模;制定信息系统间数据交互规范和服务协议,包括常用接口支持、统一数据适配。
2.1.2 主数据建模
主数据模型主要包括:(1)基于标准体系架构的主数据范围及领域划分模型;(2)主数据编码模型;(3)适合教学和科研需要的主数据组装数据模型;(4)架构抽象数据服务模型及接口模型;(5)数据服务协议模型。
2.1.3 主数据采集
科研数据孤立存在于各类信息系统,没有统一的采报手段,致使长期以来不能有效利用各类信息系统产生的数据资源。为解决上述问题,依据建立的主数据模型,在不影响原系统正常运行前提下,采用ETL 采集、离线采集等技术将现有系统中建立基础较好的共用数据抽取出来,并按照主数据模型进行标准化映射,最后由信息系统建设归属部门、数据规制机构作为使用方和监管方共同审核并确认形成主数据库。
在严格遵循主数据标准规范体系[13-15]的基础上,重点开展主数据管理[16-18],实现主数据服务,构建主数据管理平台框架,如图2 所示,针对各类信息、功能和主题服务资源,进行主题、信息和功能微服务模型统一的开发、封装、组装和部署,实现服务模型的统一集成管理、共享和使用,按照服务契约流程沟通服务形态、编程模式、通信模式、服务模式和运行模型,并实现所有服务模型一键化配置管理和下发模式。
图2 平台框架图
2.2.1 主数据管理
主数据管理包括数据仓储、元数据管理、模型管理、主题管理、版本管理和数据接口等功能。数据仓储记录主数据的历史版本转变过程,具备主数据迁移功能;元数据管理提供了数据资源体系及关系数据的结构定义和维护,通过对模型及模型结构定义,灵活扩展数据资源管理范畴,以统一数据结构定义方式为数据清理提供依据;模型管理通过元数据定制化组装主数据模型;主题管理提供主数据的主题管理,可通过模型建立不同主数据主题类别;版本管理提供主数据从产生到消亡全过程的版本管理功能;数据接口提供统一操作接口,允许主数据产生系统通过这些接口对主数据进行增加、删除、修改、查询操作,并提供合理的主数据同步机制[19-20]。
2.2.2 主数据服务
主数据服务包括服务意见收集、服务注册发布、服务信息推送、服务基本管理、服务消息路由和服务监控等功能。服务意见收集根据用户服务使用体验,对服务进行评价和排序;服务注册发布可以把各科研信息系统提供的服务接口在平台中进行注册,审核确认后进行服务发布;注册发布的服务包括系统已有服务和依据服务规范生成的服务;服务消息推送根据各信息系统相关需求,定制推送相关服务描述信息;服务基本管理提供服务编目、申请、审批、搜索等基本功能;服务消息路由使用智能化查询、搜索方法,通过监听服务接口请求消息,实现服务请求的消息路由;服务监控通过监控服务运行状态、访问情况等,用以统计分析主数据的使用频次等,并设计主数据更新策略。
科研数据的应用涉及科研各层次、全领域,按照领域可划分为专业科研应用和综合科研应用,总体应用架构如图3 所示。
图3 科研数据总体应用架构
在科研领域,科研建设、管理、训练和保障各要素相互交织、相互关联。通过科研能力画像、科研设备画像、科研对象分析、科研活动分析等方式进行规律分析和模型提取,找出隐藏在科研数据之下的规律,支撑学术交流、科研计划、科研监管、科研成果和科研评价等专业应用开展,提升科研发展、保障、人员、资源、趋势和应用等综合应用水平。
科研数据应用必须与科研数据建设同步展开,共同推进。以科研数据应用为抓手,通过应用促进科研数据建设发展,围绕数据采集、整理、分析、发掘、展现等环节,扩大科研数据服务范围,提高科研数据服务质量。
(1)学术交流。为实现学术论坛、学术会议、学术讲座、学术咨询和学术调研等活动的计划编制、通知公告、资料归档及查阅提供数据支撑。
(2)科研计划。为实现项目指南、综合论证、立项批复、科研大纲和周期计划等文书的编制汇总、审批下发等提供数据支撑。
(3)科研监管。为实现人员监管、设备监管、经费监管、过程监管、绩效监管和协作监管等全要素综合监管提供数据支撑。
(4)科研成果。为实现成果归档、成果应用、成果鉴定和成果报奖等全流程成果管理提供数据支撑。
(5)科研评价。为实现立项评价、过程评价、质量评价、能力评价和学科评价等全方位考核评价提供数据支撑。
(1)科研发展。构建科研发展数据集,支撑开展科研态势融合展示、科研数据建设规划和科研发展顶层规划,为科研发展提供信息支撑与辅助决策支持。
(2)科研保障。面向科研保障的各类复杂决策问题,构建科研保障数据集,支撑开展科研保障监控分析、科研保障配置分析、科研保障绩效评估和科研保障合规审查,提高科研保障精细化水平。①科研保障监控分析:提供主题关联的重要科研保障可视化展现;②科研保障配置分析:监控主要科研保障变化情况,预测科研保障变化趋势;③科研保障绩效评估:建立科研需求分析、能力分析、方案优化等模型,构建科研保障评估模型库,基于各级各类数据资源,推动实现基于数据的科研保障绩效评估;④科研保障合规审查:基于规划计划、运行实施、过程反馈和执行结果等各类数据,依据各类标准和评价指标,进行合规审查。
(3)科研人员。基于科研人员基础数据,整合多渠道获取的人员科研活动、保障情况、考核业绩等数据,构建科研人员数据集,支撑开展学术力量构成分析、科研人员综合评价分析和科研人员保障规律分析。
(4)科研资源。综合科研方向变化、资源投入规模、资源损耗规律、资源急需程度、资源管理流程等因素,构建科研资源数据集,支撑开展科研资源布局优化、科研资源储备优化和科研资源全寿命管理。
(5)科研趋势。基于各类科研信息服务平台,结合科技发展动态,综合发达国家科研发展情况等,构建科研趋势数据集,支撑开展科研主题统计分析、热点学术问题分析和学科发展走势分析,通过大数据技术手段,分析学科的关注程度、发展趋势、影响程度等。
(6)科研应用。按照科研数据顶层设计和科研领域数据建设应用总体规划,在运用科研数据资源和应用成果基础上,基于领域特色需求和专业科研活动,开展多源汇聚和关联分析,形成与科研体系衔接配套的数据资源体系,支撑科研体系协同应用、科研领域创新应用等。
本文研究了科研数据共享相关的制度机制、标准规范、数据模型、管理平台、应用架构等,通过综合运用数据资源无创采集、标准映射与集中管控,以及多源数据融合归一化维护管理、数据管理平台定制化组装等,有助于解决跨系统跨部门科研数据的统一采集、联动更新问题,实现数据源头一致、数据一致、更新一致,便于数据资源集成,有效管理数据资源、控制数据质量,提升应用效能。后续将在此基础上开展平台原型建设。