摘要:文章对领域主题词表构建技术及专业词库生成方法进行了调研,在现有查新报告中人工专家学术关键词整理基础上,提出了构建嵌入科技创新流程的科技查新领域主题词辅助系统,借助该系统,实现查新关键词语义匹配及自动扩展、相关文献潜在主题挖掘以及检索词智能抽取功能,以期更好地开展科技查新服务,提高查新效率与智能化水平。
关键词:科技查新;查新助手;辅助系统;领域主题词;词表构建技术
中图分类号:G252.62;G258.6 文献标志码:A文献标志码
0 引言
随着ChatGPT的兴起以及大语言模型在图书馆的智能化应用,科技查新工作面临着前所未有的挑战。在过去,科技查新工作完全依赖于查新员的经验以及专家的专业知识,查新员在各个数据库系统中检索文献,经过专家辅助做出对比分析结论。近年来,查新辅助系统的陆续出现开启了查新报告撰写与查新流程自动化管理的未来,查新工作逐渐信息化、智能化,效率不断提升。
查新辅助系统是一种基于人工智能技术的创新工具,可以是翻译助手、关键词助手、去重助手,理论上讲,未来的查新助手可以做到能够通过分析大量的文献和数据,快速准确地判断某项科技成果是否具有新颖性和创新性。然而,尽管查新辅助系统的出现给科技查新工作带来了巨大的机遇,也带来了一些挑战,对于高度依赖经验与专业知识的检索词抽取与检索策略构建部分,没有一定数量的专家词库与叙词表技术,无法真正实现查新检索词的自动化构建,也就无法平衡检索结果的查全率与查准率,影响项目的新颖性鉴定。针对上述问题,本文以东北大学科技查新辅助系统为实例,嵌入科技创新流程,开发了基于领域主题词表的查新辅助系统,从而提高查新效率,使查新工作向专业化、智能化方向发展。
1 研究现状
科技查新经历了从传统手工查新阶段到计算机辅助查新、网络化查新、智能化查新、个性化查新,到现如今协同化查新阶段,各种辅助查新系统应运而生。
2000年以后,科技查新项目管理系统开始集成MS Word,如甘肃省科学技术情报研究所科技查新合同自动生成模块[1]、东北大学科技查新格式自动化辅助系统等;2005年以后,各查新站开始搭建基于Web的查新工作环境,将查新员在工作当中经常使用的查新工具集成到系统中,如北京大学图书馆查新信息管理系统[2]、清华大学科技查新系统[3];2015年以后,随着人工智能技术的发展,科技查新辅助系统开始引入智能检索、自然语言处理、知识图谱等技术,实现对海量信息的智能分析和挖掘,如基于J2EE和JADE的科技查新可视化分析系统[4]、基于Lucene的科研查新系统[5]、基于Solr的科技成果查新系统[6],通过构建领域库辅助检索系统对以往查新项目进行智能检索,匹配检索近义词;近年来,查新用户覆盖范围越来越广,查新业务量逐年递增,科技查新辅助系统开始提供个性化的查新服务,以提高查新员的工作效率,如哈尔滨工业大学中文查新智能去重系统[7]、清华大学检索数据去重、近义词检索库等查新助手,以及解决异构数据库数据集成和“一站式”访问问题的科技查新辅助检索资源发现系统[8-9];2020年以后,随着大语言模型在图书馆咨询服务中的应用,科技查新进入人机协作阶段,如基于主题模型的查新辅助分析系统[10]、问答系统、委托书分析系统、文献比对系统等科技查新辅助系统群[11]。
2 科技查新中的领域主题词表研究现状
2.1 词表
狭义的词表(受控词表,如叙词表等)一般称为主题词表;广义的词表(包括分类法、叙词表、语义网络和本体等类型)是包含了上下位关系与相关关系的叙词表。
2.2 领域主题词表
主题词有多种表现形式,最常见的有叙词与关键词,前者为受控语言,后者为自然语言。因为数据库知识组织多采用自然语言与受控语言结合的方式,因此在科技查新工作中,多采用“关键词法+叙词法”来提高某一主题领域文献的查全率。但由于关键词法为自然语言,自然语言在检索式中的表达没有统一的规范,须要查新员在对查新课题了解的基础上,尽量扩展同义词、近义词与相关词以及全称、简称、缩写与代码,以避免漏检与误检,同时消除与课题不相关的歧义词与噪声词。因此,为了提高查新效率,各大查新机构纷纷开展了领域主题词表的研究,并设计出基于主题模型的查新辅助分析系统,辅助查新员进行文献检索与对比分析。
2.3 领域主题词表发展趋势
领域主题词表的互操作研究(包括跨语言、多类型、多领域等异构词表间的互操作)一直是国内外的研究热点。
国内主题词表经历了领域化、与自然语言结合、本体化、可视化、异构主题词表关联整合与多语言映射与互操作等阶段。在主题词表领域化阶段,中国科学技术信息研究所利用开放语料库,构建档案领域词表自动化辅助系统[12],贾冰[13]构建了石墨烯领域的专用语料库,李艳超等[14]构建了医学学科领域的检索词库。近年来,主题词表在领域化基础上,逐渐向本体化发展,王汀等[15]利用领域主题词表与网络百科知识库相融合的方式,构建了大规模中国电子政务领域本体;张磊[16]以《农业科学叙词表》和农业领域文献为基础进行了农业领域本体半自动构建。在领域词表可视化方面;王丹[17]基于领域信息源、文本关键词以及主题词表提取农业机械领域本体核心概念并进行可视化展示;谢泽宇等[18]利用国际淡水争端分面分类词表结合图数据库实现对分面本体知识的存储以及可视化。在异构主题词表多语言映射互操作方面,石泽顺等[19]利用SKOS模型对LISTA图情学科叙词属性进行映射,实现了图情学科知识概念的中英文浏览、查询和检索;刘华梅等[20]以教育类数据为例,以《中分表》为核心,实现分类法、主题法之间互操作与智能信息检索。
国外领域主题词表包括术语表、叙词表、主题词表、分类表等,因叙词表本身代表某领域知识体系和结构,所以也被广泛用于国内外科技查新中,以明确检索关键词、精确检索结果。国外主要学科领域已形成相对权威的叙词表,1800多部自然科学领域的知识组织体系全领域覆盖,包括叙词表447部、术语表和专业词典1200多部、分类表78部[21],并且已经在本体与知识图谱构建、词典术语映射等方面有较为深入的研究。如工程领域的IEEE Thesaurus、Pubmed系统中的MeSH医学主题词表、美国化学文摘社的CA General Subject Headings、EBSCO的自然及社会学科Academic Search Premier Subject Terms、Business Thesaurus、Library Information Science & Technology Thesaurus等。
3 领域主题词表构建技术及应用实例
3.1 传统领域主题词表构建技术
传统主题词表(又称叙词表)最早作为检索工具在图书馆兴起,其制定多半依赖领域专家,如果查新员选取检索词与文献标引主题词不一致,就会造成漏检。于是计算机与图书情报相关领域研究人员开始研究领域词表的自动构建技术。国外研究学者早在20世纪70年代就已经开始研究主题词表的自动构建技术[22];随着互联网的兴起,20世纪90年代开始,领域主题词表的研究成为热点,如生物蠕虫领域的主题词表的自动构建[23]。2000年以后,随着Web2.0技术的发展,基于自然语言处理(NLP)的叙词表自动构建方法与基于Web挖掘的叙词表构建方法走进图情领域,NLP技术解决了图情领域分词、词性标注等自动化处理问题,虽然有良好的文献保障,但在语义关联构建方面较欠缺。
国内领域主题词表构建技术起步较晚,但随着人工智能技术的发展,以概念空间方法、共现分析方法、贝叶斯网络方法为代表的词表自动构建技术在科技查新服务中得到应用,尤其是在术语自动抽取与识别方面,如王培霞等[24]利用科技查新过程中检出的实时相关语料作为领域知识来源,通过关键词抽取、领域特征扩展相结合的递进式迭代方法智能抽取科技查新某领域检索词。随着大数据技术在图书馆的成熟应用,基于主题模型(LDA)的查新辅助分析系统出现[10,25],是领域主题词表在科技查新工作中应用得最为普遍的模式。但无论是以词频共现分析法为代表的统计分词方法,还是融合了查新员与用户检索策略的文本挖掘分析方法,都无法全面、动态地展示词间关系,对于查新员而言,无法通过传统领域主题词表直观掌握领域主题上下位概念。
3.2 新兴领域主题词表构建技术
随着语义网、本体、关联数据、可视化等知识组织技术的发展,领域主题词表克服了深层语义关系匮乏、词间关系不够完善的问题。在叙词表的语义化描述方面,SKOS作为一种传统知识组织系统向关联化数据发展的描述机制,解决了分布式领域主题词表的互操作检索问题,如王晓光等[26]采用SKOS模型进行叙词表的语义描述,构建了敦煌壁画叙词表并进行关联数据发布。在叙词表的领域本体自动构建技术方面,叙词表逐步以关联数据的形式发展为网络叙词表,实现基于专题或领域的语义检索,如王汀等[15]提出了一种领域主题词表与网络百科知识库相融合的两阶段领域本体自动化构建方案。在词表的互操作与可视化技术方面,王晓光等[26]运用深度学习工具将词条进行向量形式转化,构建了医学词表间的语义映射;乔波[27]采用BERT预训练的农业实体关系联合抽取模型BERT-BILSTM-LSTM建立了农业知识图谱可视化应用系统;陈欢欢[28]利用Jambalaya插件将图书情报领域本体进行可视化展示。
3.3 领域主题词表应用场景
随着领域主题词表逐渐网络化、语义化与可视化,其在图书馆各项业务中均有应用,包括书目数据关联发布、特色文献信息资源组织与检索、术语服务、数字人文项目、数字资源信息共享建设、公共文化服务等。余凡[29]以测绘学叙词表和文献为例构建了测绘学领域本体,对馆藏资源深度聚合进行了实证研究;周军根等[30]在《海洋主题词表》基础上构建了海洋领域本体,促进信息共享;丁晟春等[31]利用OWL构建了基于航天叙词表的领域本体;金晶等[32]利用Protg本体开发工具构建了基于主题词表的政务领域本体;陈京莲等[33]利用叙词表构建了领域本体,并应用于宋代庐陵文化名人研究数据库;王晓雪等[34]采用规则方法、K-means、KNN等构建了公共文化领域词表,形成术语词典。
综上所述,领域主题词表无论是以传统自然语言处理为代表的构建技术还是以本体技术为代表的新兴构建技术,都可以解决图书馆实际uVT0hH0bhU4isONb3Nep/DApBMolL5jQv25inMG+fss=业务中关于文献资源深度揭示、语义检索等实际问题。近年来领域主题词表在向网络化、语义化与可视化方向发展的过程中,也不断有新技术加入,未来可能结合大语言模型ChatGPT,构建端到端的对话系统。
4 基于领域主题词表的科技查新辅助系统设计
4.1 嵌入创新流程的查新辅助系统
系统主要依靠以往查新报告构建的动态语料库实现查新领域近义词查询功能和结果的可视化展示:(1)在课题委托初期,针对查新点修改与完善部分,构建基于词表的重点学科领域本体语义检索功能,进行基于控制科学与工程、冶金、材料、矿业工程等学科领域词表的本体构建实验,不断修正创新点;(2)在检索策略制定过程中,实现查新报告检索词智能抽取功能,用户可以将委托单中的文本转换成查新检索词,降低沟通成本,提高检索效率;(3)在报告撰写期间,实现查新密切相关文献潜在主题挖掘功能,为撰写查新结论提供参考。
4.2 基于领域主题词表的科技查新辅助系统功能架构
系统可以实现3个功能,分别为查新领域关联词系统、相关文献潜在主题挖掘系统与检索词智能抽取系统(见图1)。在查新领域关联词系统方面,以重点学科领域主题范围科技查新报告、查新数据库为主要数据源获取术语,抽取相关主题领域查新概念,融入本体思想与可视化显示技术,采用自动分词工具进行分词,借助人工进行半自动词性还原,构建查新领域主题词语料库,开展面向用户的科技查新近义词库构建实验研究,实现查新近义词检索功能。在查新主题辅助分析系统方面,利用LDA、共词等模型对查新员导出的文献进行主题挖掘,识别潜在主题,生成词向量空间,对比委托课题的研究内容,辅助撰写对比分析结论。在检索词智能抽取系统方面,利用TextRank算法抽取查新委托单中的术语、产品等概念,包括项目名称、科学技术要点与查新点,采用词云的形式展现。
4.3 系统设计及实现
系统采用Python语言与JavaScript语言,在数据存储方面采用MySQL数据库。关键词提取功能主要使用Python语言,利用正则表达式,将关键词提取出来并保存到SQLite数据库中,将输入、词汇抽取、构建语料库以及目标查新词的展示功能整合起来,平台提供输入界面,用户输入有效的科技查新技术性词汇,系统在完成语料库构建的基础上,最终将输出目标查新词的相关信息以可视化的形式返回给用户,即根据需求通过图界面展示出来,同时根据用户需求提供学术关键词与网络主题词两种或多种显示方式。检索词抽取采用TextRank算法,潜在主题挖掘采用LDA模型,查询系统采用B\S架构、前后端分离的系统设计,前端使用Vue框架以及Element Plus组件实现,后端接口采用Nodejs以及Express实现。
5 结语
随着高校学科服务逐渐转向智慧化与智能化,科技查新作为工科高校图书馆学科服务的核心业务,应与时俱进、加速发展。嵌入科技创新流程的查新辅助系统在传统的人工构建检索策略、筛选文献、撰写分析结论的基础上,构建控制科学与工程、冶金、材料、矿业工程等学科领域主题词表,采用人机结合的方式,融入查新点构建、领域关键词检索、潜在主题挖掘的科技创新流程。该系统的设计与实现,可提高科技查新服务效率,使图书馆学科服务在智慧服务背景下有可持续的发展。
参考文献
[1]王权,张缨,杨生举,等.科技查新项目管理系统中嵌入Word的若干问题研究[J].甘肃科技,2006(11):73-74.
[2]卢振波,梁南燕,张春红.论查新信息的规范管理:北京大学图书馆案例分析[J].现代情报,2005(3):125-126.
[3]李凤侠,战玉华,赵军平,等.清华大学科技查新系统的开发与实践[J].大学图书馆学报,2014(2):33-38.
[4]沈镛.基于J2EE和JADE的科技查新可视化分析系统架构研究[J].情报探索,2016(12):91-95.
[5]焦洋,王纯,韩静茹.基于Lucene的科研查新系统构建[J].计算机技术与发展,2018(5):193-196,200.
[6]温慧明,宫晓辉.基于Solr的科技成果查新系统的构建研究[J].计算机技术与发展,2014(6):67-70.
[7]李雪婷,李莘,王晓丹.基于JAVA的图书馆中文查新智能去重系统的研究与实现[J].图书馆学研究,2013(17):56-58.
[8]陆文燕.基于中间件的科技查新辅助检索系统的设计与实现[D].苏州:苏州大学,2011.
[9]王菁,王晓丹,田永梅,等.资源发现系统在科技查新工作中的应用实践[J].高校图书馆工作,2015(3):62-66.
[10]马林山,郭磊.基于主题模型(LDA)的查新辅助分析系统设计研究[J].现代情报,2018(2):111-115.
[11]范午攸.科技查新语义角色标注及其在报告自动生成系统中的应用[J].图书馆学研究,2020(9):60-64,79.
[12]张昱,于薇.档案领域词表自动化辅助构建及知识组织应用探析[J].数字图书馆论坛,2018(6):67-72.
[13]贾冰.专用语料库在科技查新工作中的应用[J].河南图书馆学刊,2018(3):109-111.
[14]李艳超,王艳,金新建.面向医学学科领域的检索词库构建[J].医学信息学杂志,2017(5):80-84.
[15]王汀,冀付军.基于主题词表与百科知识相融合的领域本体自动构建研究[J].情报学报,2017(7):723-733.
[16]张磊.基于叙词表和文献数据库的农业领域本体构建方法研究[D].北京:中国农业科学院,2011.
[17]王丹.面向知识服务的农业机械领域本体构建研究[D].镇江:江苏大学,2020.
[18]谢泽宇,施国良,杨汉钰,等.国际淡水争端领域分面本体构建与应用[J].情报杂志,2018(11):192-196.
[19]石泽顺,肖明.基于网络叙词表的图情学科SKOS构建与可视化研究[J].情报学报,2018(3):274-284.
[20]刘华梅,侯汉清.基于受控词表互操作的集成词库构建研究[J].中国图书馆学报,2010(3):67-72.
[21]宋文,张士男.支持语义发现的集成知识组织体系研究[J].图书情报导刊,2022(7):20-28.
[22]曾文,王惠临.跨语言主题词表自动构建技术研究[J].图书情报工作,2011(4):106-109.
[23]CHEN H,NG T D,MARTINEZ J,et al. JA concept space approach to addressing the vocabulary problem in scientific information retrieval: an experiment on the worm community system[J].Journal of the American Society for Information Science,1997(48):17-31.
[24]王培霞,余海,陈力,等.科技查新中检索词智能抽取系统的设计与实现[J].现代图书情报技术,2016(11):82-93.
[25]李美凝,张芹,张秀美.基于LDA主题模型的高校科技查新服务新方法探索[J].图书馆杂志,2020(10):45-52,62.
[26]王晓光,侯西龙,程航航,等.敦煌壁画叙词表构建与关联数据发布[J].中国图书馆学报,2020(4):69-84.
[27]乔波.基于农业叙词表的知识图谱构建技术研究[D].长沙:湖南农业大学,2019.
[28]陈欢欢.图书情报学领域本体的构建研究[J].图书馆学研究,2011(21):11-16,26.
[29]余凡.领域本体构建方法及实证研究:以测绘学领域为例[D].武汉:武汉大学,2018.
[30]周军根,刘柏嵩.基于叙词表的海洋领域本体构建研究[J].宁波大学学报(理工版),2012(1):108-112.
[31]丁晟春,傅柱.基于航天叙词表的领域本体半自动化构建研究[J].情报理论与实践,2011(11):113-116.
[32]金晶,宋敏霞,徐晨琛,等.基于主题词表的政务领域本体构建[J].图书情报工作,2010(8):16-20.
[33]陈京莲,罗红.基于叙词表领域本体构建在地方文献数据库中的应用:以“宋代庐陵文化名人研究数据库”为例[J].图书馆理论与实践,2013(6):42-45.
[34]王晓雪,化柏林.基于多源数据融合的公共文化领域词表构建研究[J].图书馆杂志,2022(10):25-34,96.
Novelty retrieval auxiliary system embedded in scientific and technological innovation
process: development and practice of thesaurus in sci-tech novelty retrieval
field in Northeastern University Library
Abstract: This paper investigates the technology of constructing domain thesaurus and the method of generating specialized thesaurus. Based on the arrangement of academic keywords by artificial experts in existing novelty retrieval reports, it is proposed to construct an auxiliary system of subject words in sci-tech novelty retrieval domain embedded in sci-tech innovation process. With the help of this system, the functions of semantic matching and automatic expansion of novelty retrieval keywords, mining potential topics of related documents and intelligent extraction of search words can be realized, so as to better carry out sci-tech novelty retrieval services and improve novelty retrieval efficiency and intelligent level.
Key words: sci-tech novelty retrieval; novelty search assistant; auxiliary system; domain subject words; thesaurus construction technology