(辽宁省重大技术装备战略基地建设工程中心,辽宁 沈阳 110000)
科技查新是通过手工检索和计算机检索等手段,针对科研立项和科研成果的实用性和新颖性,进行文献查证,因此,采取周全灵活的检索策略,获得合理的检索资源,具有重要的现实意义。国外文献检索策略研究主要应用数据语义,利用语义Web语言描述在线文档,利用语义Web文档和知识概念,在计算机领域内实现检索测试,对文献的同义词扩展、外延扩展、语义蕴涵进行检索,聚类检索结果,缩减用户关心的检索范围,得到专门针对科技查新的文献。国内检索策略研究利用文献计量的方法,排序文献的相对影响度,按照文献与用户搜索关键字的相关程度,按照线性方式返回引擎搜索结果,采用协同过滤的方式,计算检索文献的相似度,利用分层概念树的方式,根据待审文献的摘要内容,从而表示出作者模型和文献内容,对该作者已经发表的文献进行推荐,进而构建文献检索的语言模型[1]。
通过去重和筛选两项操作,对文献进行整理,构建文献检索库。首先将中国知网和万方数据库作为主要文献来源,设置宽泛的检索词,下载知网和万方数据库中,所有相关学术文献及其题录信息[2]。其次进行去重操作,控制下载文献仅包括pdf和caj两种文件格式,利用去重软件对文献进行查重,去重处理资源总库的下载文献。去重处理完毕后,筛选冗余文献信息。最后还要对检索数据库进行填充,补检相应的专业性数据库,补充具有权威性的馆藏文献,当科技查新涉及生产工艺与性能参数时,利用Google搜索引擎,对产品的网上信息进行补查,确保文献数据的充实性[3]。
首先利用技术特征对知识网络体系中不同关系,进行明确描述,构建文献信息语义网络,其中技术特征的知识描述关系,从中选取属性-宿主关系、上下位关系、以及相关关系这3种语义关系。首先利用属性-宿主关系,构建文献的网络拓扑结构,通过某一个相同的属性值)属性信息包括作者、关键词、年份等),从而使网络结构无限拓展下去,具体如下图所示:
如上图所示,各个检索词之间的层级关系,按照由大到小的分类级别,对主题词所属分类进行排列,从而构成语义标签的上下位关系。利用权值大小进行排序,公式为:
其中,w为检索词的权重值,q为检索词的一个语素,d为一个搜索结果文档,R(q,d)为语素与文档的相关系数,β为每次计算过程中,检索词跳到初始权值不为0的源顶点概率[4]。确定文献检索的关键词,对查新点进行复核,对检索用词的全称、缩写及简称进行深入分析,对英文选词进行扩展,补充英文文献的关键词。将检索关键词作为链接节点,构成属性关联语义网络,语义标签标注过程中,通过匹配摘要、题目、关键词等属性特征,实现标注[5]。至此完成基于技术特征,文献知识图谱的构建。
在文献检索库中采用布尔逻辑构造关键词索引倒排文档,提取索引词的位置信息,确定位置信息在原文中的逻辑位置,并在逻辑位置索引词中找出各字的顺序逻辑关系,对各字的位置信息进行记录,将其作为查新文献的分词索引信息,得到查新文献的基本情况[6]。注意检索工具和检索时限的回溯性,扩展检索字段并适当补检新的文献库,慎重推敲反映查新点的检索词,使不同检出文献之间具有可比性,确保查新工作的全面性和准确性[7]。
进行对比实验,即此次设计策略为实验A组,传统文献检索策略为实验B组,比较两组实验的平均查准率。实验文献资源为7000条,在果树栽培的各细分领域,选取果树栽培、施肥、修剪、水分等10个提问词,对10个提问词进行初步探索,获得提示词的相关文献共600条[8]。检索任务在CNKI实际检索平台上进行,当完成第一个检索动作时,根据其技术特征,设置实验初始值,设置单框检索场独立为74.5%,场依存为68.9%,多框检索场独立为18.3%,场依存为1.5%。实验中,改变两组实验检出的相关文档数,比较不同数量下的查准率。第一组对比结果如下图所示:
表1 单检索框的对比结果
由上表可知,当文档检出数量增加时,检索策略的查准率有所下降,但实验A组查准率始终要高于实验B组,A组平均查准率为89.1%,B组平均查准率为83.1%,相比实验,A组查准率提高了6.0%。在第一组实验的基础上,进行第二组实验,其对比结果如下表所示:
由表2可知,使用多个检索框时,文档查准率有所提高,实验A组平均查准率为92.3%,实验B组平均查准率为88.2%,A组平均查准率提高了4.1%。综上所述,此次设计策略提高了文档检索的查准率,为用户提供更加符合要求的科技查新文献。
表2 多检索框的对比结果
此次设计策略充分发挥了技术特征的优势,提高了文献检索的查准率。但此次研究仍存在一定不足,数据抽取效率较差,在今后的研究中,会应用正则表达式的抽取方法,对所有形式的文献引用关系进行匹配,提高抽取效率。