基于行业词库预训练的科技项目查重研究

2020-10-09 11:13焦文魏海燕石英鲁萱萱
科学与信息化 2020年27期

焦文 魏海燕 石英 鲁萱萱

摘 要 在企业和机构内部,科技项目查重能够避免科技资源浪费、恶性科研竞争等重复立项带来的问题。本文提出基于行业词库预训练的科研项目查重方法研究,以申报材料中的关键指标为研究对象,对其段落、句子、词等不同级别构建相似度比较模型,采用Elasticsearch数据库实现海量数据的快速索引。有效提高立项审批过程中工作效率,节约科研成本。

关键词 科技项目查重;相似度计算;文档结构化;自然语言处理技术

1研究背景

国务院发布的“加快实施创新驱动发展战略”,全国各级政府、企业、机构积极号召。科技项目的投入的总体趋势在逐年扩大,科技项目的研究领域在逐年优化,于是各单位的需求数量及最终形成的科技项目的数量逐年在增加。一直以来,科技管理人员采用的是人工提取關键词或重点研究内容比照已研或在研科技项目的历史资料进行科技项目查重的模式。这种查重模式对于科技管理人员的专业技术水平要求较高,且存在查询效率低以及查重遗漏的问题。

针对科技项目查重,部分企业和科研人员也进行了相应的研究,但总体效果不明显的主要原因在于:

(1)项目信息公开、共享和整合程度较低[1]。项目相似性判别方法单一[1]。近年来的相似度判别局限于针对立项材料进行比较,忽视了立项申报中关键指标之间的联系。

(2)针对特定领域的项目查重难以满足需求。

(3)通过文献调研发现,国内许多学者对长文本查重有一定的研究。姜雪[2]利用长文本的局部敏感特性使用simhash算法来计算相似度,李成龙[3]和杨东菊[3]等人采用先分词再转换为向量空间模型(VSM:Vector Space Model)的方法进行计算,当前通用的相似度判别模型为:simhash[2]、TF-IDF[4]等,乔伟涛[5]、初雅莉[6]等在语义编码上进行了相应的研究。在实际应用中,能够很好地对部分科技文档进行筛选和查重,但是在针对逐年细化的研究领域表现效果不佳。

针对上述所提及的逐年细化领域分类的科技文档查重存在欠拟合等问题,本文以企业的实际数据作为研究样本,提出一种基于行业词库预训练的科技项目查重方法。首先对立项材料进行长文本的解析和抽取,抽取立项材料中关键指标作为原始数据,利用双向LSTM和JIEBA分词等方法对长文本做预处理存入Elasticsearch数据库,在特征提取阶段采用关键词提取、摘要分析为辅,利用基于ALBERT的余弦距离算法模型、TD-IDF算法模型、simhash算法模型、编辑距离相似度模型四种无监督学习算法同时对相似片段进行计算,针对短文本、长文本进行加权计算得出相似度。考虑到在实际立项过程中,立项文档的研究背景不应作为判断科技项目重复的主要原因,而是聚焦在研究内容、研究方法、成果物的描述上,我们采用人工标注为辅的有监督的方法对上述的计算结果进行校准,最后得出相似度结果。

2系统流程

查重平台的流程如图1所示。主要分为文档解析和抽取、行业词库构建、文本特征提取、相似度判别、人工标注分类几个步骤。

查重技术流程图如图1所示,梳理历史科技立项文档资料,对文档模板进行解析,构建行业领域知识库,专业词汇和高质量文档查重指标项作为知识抽取的数据支撑。对文档做结构化处理,提取有价值的查重指标关键段落,对其进行分词、去停用词、特殊符号处理等预处理操作,对有价值的章节进行基于行业词库的关键词提取、实体提取、摘要提取、句法分析等语义关系抽取,通过大规模的预训练的深度学习模型和基于ALBERT的余弦相似度模型、TD-IDF、simhash、编辑距离,输出对比文档的各项分析结果,同时引入相似度质量评估,人工对相似要素的分析结果进行标注,对每一指标项的相似度分析结果进行正确和错误的标注。最后综合结构化的相似度得分,估算出文档的综合相似度,为科技立项文档相似对比提供参考依据。

2.1 数据整合和结构化

在科技项目立项过程中,项目申报人会填报其基本信息、立项申请文档、立项论证文档、立项任务文档以及最后项目验收文档这四类文档。基本信息包括:项目名称、立项年度、承担人及所属单位。本文整合了15年以来的某企业立项文档作为原始数据,对不同的模板进行了结构化梳理,总结关键指标信息:项目名称、研究目标、研究内容、技术指标、创新点及成果。通过机器学习和人工标注的方式将大量科技项目资料文档进行解析、抽取存入Elasticsearch数据库作为知识抽取的依据。

2.2 行业词库构建

陶善菊[7]在文献中提出:行业词库就是经过规范化处理的主题词及其之间的关系所构成的词典。行业词库通常包括两个部分:词库和关系库,词库用于存储主题词,关系库则用于存储主题词间的各种关系。主题词可以是行业的专业词汇、技术名词、产品名词、机构名称、人名等,关系可以包含同义词、缩略语、英文简称、行业分类等。行业词库中描述的主题词之间的语义关系可以起到知识关联计算和相似度计算的作用。行业词库构建步骤具体如下:

(1)确定行业边界。对立项文档进行分类,梳理结构体系,确定行业边界和领域划分。

(2)构建新词发现。通过机器学习的词向量模型和聚类算法发现行业领域的专业词汇。

(3)组织专家筛选。组织行业专家对已发现行业词汇、各维度对应的同义词和排除词,进行校正。

2.3 查重模型构建

相似度判别模型一般用于文本查重、文本快速索引构建,用来计算文本之间的语义相似程度。相似度判别模型主要是通过机器学习将文本向量化,计算两个向量之间相似度从而得出文本相似程度。本文提出的相似度判别模型主要基于行业词库预训练的四类无监督模型和分类模型共同计算并输出结果。

(1)TF-IDF模型

TF-IDF(词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权统计方法。理论依据为以字、词在文档出现的频率来决定其重要性,但同时随着它在语料库中出现的频率成反比下降。