科技项目查重系统在企业中的实践应用

2019-09-10 07:22周育忠陶秀杰张自锋韦嵘晖杨宇亮
河南科技 2019年28期
关键词:碎片化

周育忠 陶秀杰 张自锋 韦嵘晖 杨宇亮

摘 要:本文阐述了通过建设科技项目查重系统,有效整合科研项目成果数据,减少企业科研项目重复建设,提高企业科研经费利用效率,进一步提升企业科研管理水平。科技项目查重系统通过提供统一的历史科研数据检索及项目文档自查重,系统化地辅助科研人员筛查研究方向和课题。同时,通过提供批量科研文档查重,输出查重结果,辅助科研项目评审专家进行科研项目评审工作,有效提高企业科研项目评审效率等。此外,本文也阐述了后续系统搭建过程中元数据规范、相似性检测算法和模型等在企业后续的应用方向。

关键词:科技项目查重;相似性检测;历史库;碎片化;学术关联

中图分类号:TP391.1 文献标识码:A 文章编号:1003-5168(2019)28-0032-04

Practice and Application of Science and Technology Project

Checking System in Enterprises

ZHOU Yuzhong TAO Xiujie ZHANG Zifeng WEI Ronghui YANG Yuliang

(China Southern Power Grid,Guangzhou Guangdong 510623)

Abstract: This paper expounded the way to build a scientific and technological project to check the weight system, effectively integrate the research project data, reduce the redundant construction of enterprise scientific research projects, improve the utilization efficiency of scientific research funds, and further improve the scientific research management level of enterprises. The scientific and technological project check system systematically assists scientific research personnel to screen research directions and topics by providing unified historical scientific data retrieval and project document self-checking. At the same time, by providing batch research documents to check the weight, output check results, assist scientific research project review experts to carry out scientific research project evaluation work, and effectively improve the efficiency of enterprise scientific research projects. At the same time, the article also expounded the subsequent application direction of the metadata specification, similarity detection algorithm and model in the system construction process.

Keywords: science and technology project check;similarity test;history library;fragmentation;academic association

1 研究背景

习近平总书记曾提出“创新是引领发展的第一动力”[1]。为建设创新型企业,某央企非常重视科技创新投入。“十三五”期间,公司科研投入力争占营业收入比重的1.55%以上,研发投入預计高达400亿元。在公司科研项目经费投入逐年增加的背景下,为应对海量的历史科研项目数据及不断增长的科研立项项目,避免科研重复立项,提高公司科研项目经费利用效率,提升科技管理工作水平,推进科技项目查重系统的建设势在必行。

关于查重对比,国内外已经有了诸多研究,查重技术较为成熟。例如,国外研究主要有基于向量空间模型的对比分析、基于语义的文本相似对比、基于统计学的相似对比、基于人工智能和大数据的对比分析等。国内也有大量关于中文分词技术、关键词提取技术、基于已有语料库等的相似计算分析、基于语义的查重技术。同时,国内也有一些科技项目管理系统实现了查重功能,如国家自然科学基金项目立项情况查询、申请文本查重,中国科技信息研究所的科技报告相似性检测系统,以及中国知网的论文查重系统等[2]。

2 科技项目查重系统的搭建

科技项目查重系统架构如图1所示。系统通过数据梳理与历史库搭建,提取电力行业主题词库并形成特征库,在特征库的基础上通过查重算法和模型,对导入系统的项目文档进行查重并输出查重结果[3]。

2.1 数据梳理与历史库搭建

历史库搭建模型如图2所示。系统搭建前期,对已经立项和验收的科技项目资料进行梳理,搜集项目需求表、申报指南、计划任务书、可行性报告、成果资料及历史项目清单等资料,形成以项目计划库、项目储备库、南网成果库等三大资源备查库的历史库作为数据支撑。

2.2 主题词库和特征库构建

通过现有的项目库、专利库、各类科技文件及科技部发布的科技项目指南等权威语料库,利用基于规则、统计和信息熵等多种方法学习电力行业主题词,并通过机器学习等方法建立词语之间的语义关系,形成电力行业主题词库,基于主题词库提取特征并建立电力特征库。

2.3 项目查重

基于电力行业的主题词库和碎片化处理后的历史科研项目资料库,利用自然语言处理和机器学习相结合的技术,对立项资料进行分词、解析和特征提取,挖掘文本中的深层语义关系,获取更高层次的语义信息,实现对立项资料和历史科研资料库中的数据进行相似度对比分析和指标分析[4]。

3 实践应用

3.1 项目检索与文档检索

项目检索:碎片化的历史库整合了公司项目计划库、项目储备库、成果库,支持篇名、关键词、全文、作者、单位等检索方式查询浏览,极大地提高了科研人员在科研立项前期筛选研究方向和课题的效率,有效改善了企业内部科研数据割裂的现状。

文档检索:提供科技项目过程文档的检索,包含可研报告、计划任务书、技术报告、成果申报申请书四种类型,为科研人员撰写科研报告提供翔实的参考数据。

3.2 项目文档相似性检测分析报告

相似性检测:系统提供单个以及批量的可研报告、计划任务书、成果申报书、技术报告项目文档的相似性检测。

查重报告:查重报告中显示复制比例、文本复制来源;提供单项目查重比对结果分析报告、项目查重结论报告,为科研人员自查重提供了很好的帮助;提供的导出批量项目查重结果的功能,在科研项目评审中,有效减少评审专家的工作量。批量查重报告如表1所示,报告对相似语句进行标记,并提供相应可能存在重复的文档信息。

3.3 科研项目管理和入库

系统提供项目检索查新、状态展示、项目合并、专家审核。问题项目库合并后提供合并来源显示,支持取消合并等。一站式的项目管理提高了科研管理的工作效率。系统同时支持项目转入项目储备库,完成了科研项目检索-立项-项目重复性专家评审-项目文档入库的闭环。

3.4 项目学术关联

项目学术关联信息如图3所示。在建设历史库的过程中,对项目计划库、项目储备库、项目成果库进行了碎片化与元数据规范标引,形成了科技项目学术管理发现网络功能,提供项目申请人、项目申请单位、项目主题的关联信息,揭示项目、人、机构的关联信息,对项目审批、科研文档查看等具有极大的意义。

4 项目未来应用方向

4.1 持续完善科技项目元数据规范

科研项目元数据的规范和持续完善过程对项目查重比对结果的准确性和效率提升具有至关重要的作用,未来系统将完善科技项目元数据的规范建设。在项目历史数据库碎片化和数据处理过程中,基于电力行业主题词表和全切分切词技术,在各个环节持续优化和完善科技项目元数据的识别、建库、应用、对比查重等内容,纳入更多的科研项目文档,提高系统项目查全率。

4.2 持续优化相似性检测算法

持续性的深入学习和对比行业内已经广泛应用的各类相似性检测算法,包括各高校、研究所公开发表的但并未投入产业应用的其他相似性检测算法,并对这些算法进行实操,通过多维的样本测试,对算法进行综合性评估。对系统现有的数据组织结构、数据类型和应用场景进行分析,在已有研究基础上调整优化算法,进一步提升项目查准率。

4.3 基于事实数据关联申报人/团队科研相关数据

在科研项目数据积累的基础上,实现与项目申报人/团队相关的学术关联发现功能,包括但不限于以下学术数据:科技成果、项目、论文、专利、标准等;实现科研数据的关联检索;拓宽包括科技项目信息、相关文献、主要负责人和项目申报团队等学术数据的关联展示;基于相似性算法,关联项目文档相关学术数据。

4.4 扩展应用

基于科研查重的相似性模型和算法,优化公司情报平台搜索引擎算法,在检索结果排序中加入相似性因子,合并相似度较高的文档。通过嵌入公司知识库上传模块,基于相似性算法和模型,设置一定的阈值,控制重复率或相似度较高文献的上传录入,减少公司知识库冗余信息。

5 结语

通过科技项目查重系统,有效解决了科研项目申报立项中科研文档孤立存放、科研项目评审工作量日益增长、科研项目重复投入的问题。一方面,科技项目查重系统提供了科研项目文档的检索功能,丰富了科研人员选题立项可参考的数据源,同时方便科研人员项目自查重,便于调整科研方向和选题内容;另一方面,通过科技项目查重系统自动检测与专家人工审校的方式,有效提高了科研查重的效率与准确性。

在科技项目查重系统建设过程中建立的文档元数据规范,可以应用于公司其他知识、文档类平台,有效地将公司的知识相互关联,减少学术信息孤岛问题。同时,查重项目研发的查重算法,同样适用于检索引擎排序、文档库或知识库的冗余信息排查。

参考文献:

[1]倪雪莹.习近平:创新是引领发展的第一动力[EB/OL].(2018-09-18)[2019-08-20].http://www.bjnews.com.cn/news/2018/09/18/505891.html.

[2]李善青,邢曉昭,杜圣梅.科技项目查重方法研究综述[J].科技管理研究,2018(6):204-208.

[3]张新民,张爱霞,郑彦宁.科技项目查重系统构建研究[J].情报学报,2016(9):23-28.

[4]陈江华.面向科技项目申报文本相似性检测算法的研究与应用[D].南昌:华东交通大学,2015.

猜你喜欢
碎片化
数学学习的碎片化与整体化
碎片化与整体性:综合行政执法改革路径创新研究
知识碎片化背景下增强高职思政课堂实效的对策
论智慧城市发展之“痛”
创新制度范式:构建我国统一的全民医疗保险制度的理论思考
平行的个体与垂直的世界
多屏时代图像的碎片化阅读
微时代信息碎片化背景下大学生社会主义核心价值观的塑造
想象力都去哪了
“微时代”背景下碎片化学习在航海专业学生英语