杨宇亮 周育忠 陶秀杰 韦嵘晖 张自锋
摘要:科研项目相似性检测实质上是与历史库的智能对比,以审核重复科研项目内容,所以建立科研项目历史对比库是科研项目相似检测的基础。历史库数据来源广泛,包含了公司百分之九十以上的科研项目资料,有科技部、科研管理系统等处提供的,也有科研项目团队提供的资料,采集过来的数据加工的程度不一样,且存在一定冗余内容,给相似性检测结果带来一定的干扰。通过建立一套信息管理规范制度,对历史对比库的数据采集、数据审核、数据规范、数据存储、数据输出、数据安全等进行一定的规范,保证历史对比库数据的完整性、针对性和可靠性,从而有效的支撑相似性检测需求,保证检测结果的全面性、准确性,同时又能够最大限度地保护公司的知识资产,规避信息安全风险。
关键词:历史库;数据规范;信息管理规范;信息安全
中图分类号:TF311 文献标识码:A
文章编号:1009-3044(2020)14-0052-02
在建设科研项目相似性检测系统的同时,公司建立了一套信息管理规范制度,保障历史对比库的完整性和可靠性,最大程度地保证公司科研项目相似性检测系统结果的准确性以及系统数据的安全性。信息管理规范制度包含六个部分,分别是数据采集、数据审核、数据规范、数据存储、数据输出、数据安全。
1数据采集
数据来源由两部分组成,包括历史文档以及现行文档。其中历史文档主要是科研管理系统中的文档和科技处等部门的文档;现行文档主要是科研团队提交的文档。采集的数据主要为指南、可研报告、成果、技术报告以及论文等几大类。数据采集流程如图1。
1.1科研管理系统中的文档
如表1所示,对科研管理系统中以及科技部等部门已经立项和验收的科技项目资料进行梳理,搜集整合的数据包括科技项目需求建议表、项目申报指南、科技项目可行性研究报告、科技项目任务书及历史清单、项目技术报告等,分别来源于各项目库、报告库、获奖库、成果库。科研管理系统中的数据通过接口抽调或人工批量上传进入数据加工中心等待处理,处理完的数据主要分为四类,包括项目库、报告库、获奖库、成果库。总数量约900万。
1.2科研团队文档
各科研团队的科研全过程文档,在相似检测系统中提供汇总页面,并支持一键上传功能,由专家评审团队进行审核,进入到加工中心等待统一处理。
2数据审核
为保证数据的完整性和可靠性,对采集的数据建立审核机制,通过审核的历史文檔以及现行文档进人数据规范待处理区域。审核成员组成包括各业务部门、科研项目评审专家团队负责人、数据录入团队、相似检索系统所属科研管理部门。数据审核组织架构如图2所示。
3数据规范
针对进入数据规范待处理区域的数据,根据相似性检测的需求,设置统一的数据加工规范,对数据进行结构化处理。根据不同的文献类型,分为项目库,实施库、项目成果库、登记成果等4种类型,查重对比文本选取2012年以后的数据。
项目库应规范字段为项目ID、项目中文名称、项目编码、科技编码、项目属性、是否重点项目、项目类型、项目类别、项目来源、预期成果成熟度水平、资金来源、项目负责人、建设单位、申报人、年、摘要、主要研究内容、必要性分析、项目预期成果、Projectstaus、项目区分、项目开始时间、项目结束时间等,其中对摘要、主要研究内容、必要性分析、项目预期成果等内容进行重点的全文比对。
实施库应规范字段实施库ID、项目库ID、项目名称、项目编码、科技项目编码、项目负责人、项目类别、项目建设单位、项目起始日期、项目结束日期、项目性质、项目属性、项目承担单位、项目摘要、项目主要研究内容、预期目标及创新点。
获奖成果应规范字段ID、成果名称、英文成果名称、奖励种类、成果名称是否可公布、第一完成单位、成果登记号、成果水平、奖励年度、联系人、联系电话、成果分类、学科分类、关键词、立项背景、关键技术与创新点、综合比较、主要完成人员、公司分类(综合)、奖励等级、研究起始时间、研究终止时间、成果简介、研究内容、保密要点、应用情况、待解决问题、授奖级别。
登记成果应规范字段成果ID、登记单位、登记号、成果名称、主要完成单位、主要完成人员、关键词、成果水平、成果所处阶段、转让范围、研究内容、研究形式、关键技术与创新点、应用情况、成果分类代码、研究结束时间、研究起始时间、登记日期。
4数据存储
根据梳理的分类体系创建相应的数据库进行数据存储,对不同类型的数据存储字段进行定义。
5数据输出
科研项目团队输入论文基本信息,包括论文标题、作者、文献属性、文献专业领域,并提交文献全文。系统输出查重报告,查重报告包含以下内容,项目名称、技术领域、检测范围、提报单位、查重时间、摘要、相似比例、详细报告以及是否通过申报。
6数据安全
查重团队核心工作为收集梳理历史资料及制定现行文档规范,确保查重数据中心资料的齐全,从而保障查重的准确性;为了保证项目的保密性,数据以字段形式碎片化存储在服务器中,不提供附件存储。相似查重系统只提供最终的查重对比报告,不提供原文的查看、下载等,确保数据安全。
所有资料存储在科研项目相似性检测项目专用服务器,所有操作需通过堡垒机进行,严格控制访问权限,并有据可查;
7总结
信息管理制度规范的建设,有效地保证了数据的一致性和完整性,在保证信息安全的前提下,确保了科研项目相似性检测结果的准确性,极大地促进了公司科研管理水平。