科技情报工作中的文献资源风险问题研究*

2023-12-23 03:51张运良
情报杂志 2023年12期
关键词:科技情报情报工作文献数据库

张运良

(1.中国科学技术信息研究所 北京 100038;2.富媒体数字出版内容组织与知识服务重点实验室 北京 100038)

0 引 言

近年来贸易摩擦、贸易战、“脱钩”等事件频繁发生,科技“卡脖子”问题日益凸显。“科技创新,情报先行”,“卡脖子”问题的解决和科技高质量发展均离不开科技情报工作的支撑,而科技情报工作本身尤其是文献资源风险也逐步显露,如美国政府四大报告等已经基本无法订购,部分国内基础研究机构不能正常使用PubMed等在线文献数据库,IEEE禁止我国华为公司相关专家参与论文审稿和编辑等。我国科技情报工作开展受到越来越多的现实制约和潜在挑战,“耳目、参谋、尖兵”的关键功能受到影响,对我国的科技发展和科技安全产生了严重制约。

以情报工作的开展方式和核心要素为基本视角进行分析,可以发现和识别我国科技情报工作面临的潜在风险。回顾过去,文献学源头和技术引进对情报学和情报工作影响极为深远,并形成了“文献传统”和“计算传统”[1]。“事实数据+工具方法+专家智慧”的情报工程方法被提出,进而发展为“大数据+工具/方法+专家智慧”的模式[2],并在战略创新工作中应用[3]。收集信息-揭示信息-综合研判-形成方案四个环节的DIIS(Data-Information-Intelligence-Solution)理论方法体系被提出并逐步拓展到科技发展战略研究、科技智库、科技评估等多个情报工作场景[4]。科技情报工作的核心是情报工作者,他们深刻了解情报需求,了解国别、领域、行业等真实情况,在情报工作实践中发挥了不可替代的作用,尤其是征兆分析、假设分析、情景分析等方法的研究和运用,缓解了不完全信息环境的影响,但是传统定量分析方法和定性分析方法还依然有较强的生命力[5],情报工作的开展也离不开数据资源和工具方法的支撑,而且随着情报工作需求多样化、对响应时间要求及时化和对证据链条要求完整化,情报工作对科技文献资源基础数据[6]和与之配套的高效分析工具的依赖也越来越强,科技情报工作持续高效稳定推进所面临的风险也在增加。

1 科技情报工作面临资源及相关潜在风险分析

1.1 科技文献资源数据保障不足

科技文献资源是科技情报分析的基础,主要包括期刊论文、会议论文、学位论文和专利,科技报告、科技项目、科技成果、科学数据、政策法规和科技资讯等也越来越重要。

实际工作中,国内大量情报分析研究采用了国外厂商控制的数据库,其具体影响程度可以通过对公开发表的情报分析论文近似量化分析来评估。评估的基础数据来自万方数据知识服务平台(www.wanfangdata.com.cn)。在评估中,存在三个难点:首先,严格的科技情报工作领域不易界定,为此考察泛科技情报领域的情况,将中图分类号限定在“G2信息与知识传播”和“G3科学、科学研究”;其次,期刊论文、会议论文和学位论文中分析类的论文并没有统一特征,用题名中出现“分析”二字作为筛选依据;最后,某篇论文采用某个科技文献资源数据库作为分析源,可能没有明确的标识,以在论文题名/关键词/摘要中出现该科技文献数据库相对应的词汇作为筛选依据。综上,对于代表某个科技文献资源数据库的具体检索词,在万方数据知识服务平台提供的专业检索功能模块下,不限定论文年代,仅限定文献类型为期刊论文、会议论文和学位论文,构造的检索式形如“中图分类号:(G2 or G3) and 题名:(分析) and (题名或关键词:(具体检索词) or 摘要:(具体检索词))”,对每次检索记录其返回结果数量。

近似评估,主要体现在以下三个方面:(1)分析数据源不完善的问题。每个文献数据库服务商都有自己的收录范围,受限于合作协议、知识产权等问题,没有一家服务商能够收集到全部的文献,万方数据知识服务平台同样如此。(2)检索式构造不完善问题。检索式比较简单,与实际情况存在一定偏差,如存在某些论文题名中没有出现“分析”但是实际上是反映了情报分析工作,也存在题名中包含“分析”但是实际上论文中并没有做情报分析工作,还存在题名/关键词/摘要中出现体现该文献数据库的具体检索词,但是并未作为分析源而是作为分析对象等情况。(3)检索结果不完善问题。检索结果受到信息资源加工程度和检索算法制约,存在而漏检或误检的情况。基于此,依据上述检索式的返回结果在绝对数量与实际情况存在偏差,甚至可能是较大偏差,但是如果只对比各返回结果的相对差异,则上述的数据源、检索式、检索结果等影响均会降低,可以近似地揭示真实的对比情况。

以文献数据库作为具体检索词进行检索,检索时间为2023年2月6日,结果如表1所示:

表1 以科技文献数据库作为具体检索词返回的检索结果数量表

分析发现,目前基于国内CNKI、万方、维普等科技文献数据库的情报分析工作较多,可见我国在文献数据库建设上已经取得了一定的成效,为科技情报分析提供了较好的基础,对于分析和了解我国的领域状况有较高的价值,但是这些分析多是以中文文献为主,在国别间对比分析、国际竞争分析和决策支撑方面则存在明显的短板。这类对比分析采用的多是科睿唯安、爱斯维尔等国际文献数据库厂商提供的服务,而国家科技图书文献中心NSTL、中国高等教育文献保障系统CALIS等在情报分析方面使用还较少。在基于专利文献的情报分析方面,采用德温特专利数据库的工作较多,基于智慧芽的也有一些,而采用国内Soopat、知识产权局下属中国专利信息中心专利之星CPRS和知识产权出版社的专利信息检索平台CNIPR的还较少。

在科技文献资源数据方面潜在风险体现在三方面。一是这些国际厂商的数据库多以服务订阅形式提供,随着国际竞争加剧,停供随时可能发生,服务时断时续或有意调整其中的部分内容,就会对我们情报分析的及时性和准确性产生不可控制的影响。二是我国相应机构的资源的加工程度和这些国际领先的文献数据库服务商还有一定的差距,替代性不强。以信息公开程度和可获取程度较高的专利为例,尽管世界主要国家、地区和组织的专利信息都是公开可获得的,但由于德温特专利数据库在专利权人代码、德温特分类、德温特手工代码、化合物名称等的深入加工以及按照统一标准对文摘的重新撰写等优势,使德温特专利数据库在基于专利资源的情报分析工作中占据极其重要的地位,对其进行赶超替代需要付出更多的努力。三是我国自建的国际文献数据库在情报工作中使用率偏低,未形成良好生态。NSTL等机构通过订购和数字化纸本期刊,建设回溯数据库,对各类数字资源,网络资源,OA资源完整采集和本地保存[7],在数据库替代保障方面已经有了一些基础,但由于资源完备程度、检索方式多样性、检索结果准确性、导出分析功能、分析工具支持等方面存在不足,在目前情报工作中使用率不高,这又进一步限制了反馈优化。

1.2 情报分析工具仍有一定短板

情报分析工具是提升情报分析效率和分析水平的利器。在已有的经整理的信息分析工具列表[8]基础上,补充综合性较强的情报分析工具DDA/TDA 、ItgInsight、COOC等作为分析对象。参考1.1节制定专业检索式的原理,形成检索式形式如下:“中图分类号:(G2 or G3) and 题名:(分析) and (题名或关键词:(工具名) or 摘要:(工具名))” ,2023年2月6日,检索结果如表2所示:

表2 以情报分析工具作为具体检索词返回的检索结果数量表

分析发现存在免费工具使用率高于收费工具,国外分析工具高于国内分析工具的趋势。科技情报分析工具本身风险相对不高,主要在于多数国外工具基本上都有对标的国内工具,因此其可替代性较强,除了个别和文献数据资源绑定比较紧密的工具,一般在情报分析中差异不大。国内分析工具在对国内文献数据库厂商的支持上,也比较有优势,不但可以分析处理Wos、DII等国外文献数据库,还支持CNKI等国内文献数据库,而国外的分析工具除CiteSpace等个别外,基本不支持国内文献数据库。

更大的风险其实来自于底层的计算机技术和资源,这些科技情报分析工具是应用工具,研发投入有限,因此开发中用到自然语言处理、复杂网络分析、可视化等开源组件和语言模型较多,这就会受到开源生态受制于人影响,存在部分或全部进入实体清单,出现服务停止、Openwall的“隐形断供”和OpenChain的“准入”等诸多风险[9],则情报分析工具也可能会因此无法正常工作或升级更新。

1.3 我国文献发表传播尚存隐患

我国是学位论文、专利等科技文献生产的大国,但在科技文献的审查保护、保守我国的最新重要科技进展方面还存在隐患。

目前我国机构和学者为了扩大国际学术交流,提升国际影响力,还有大量发表在国际期刊、会议上的论文和更多的投稿但未发表论文,这些论文通常只有研究团队或署名单位的简单审核,在科技保密方面存在短板。2023年2月9日通过Elsevier Engineering Village网站在“Subject/Title/Abstract”字段以“stealth tech*”检索隐形技术,网站官方提供的国家/地区统计结果如图1所示,通过对比发现我国在该研究主题公开发表论文最多,甚至超过了2-10名的总和,这些论文是否都做了严格的审查,是否能够保证相关技术秘密没有泄露无从知晓,需要更专业的分析判断,但该现象值得关注和警醒,后续我国在保证正常学术交流和文献发表传播的同时,应进一步做好自有文献资源的审查保护。

图1 在Elsevier Engineering Village网站检索隐形技术返回结果国家/地区统计截图

2 应对科技情报工作文献资源相关风险的策略

应对科技情报工作文献资源及相关风险,需要通盘考虑,各主体合理分工,共同应对,整体如图2所示,具体包括6个方面。

图2 科技情报工作中文献资源及相关风险应对策略

2.1 不断提高风险意识和全流程应对准备

必须意识到我国科技经过多年发展,已经在多个领域实现了对发达国家的追赶和超越,而我们在市场、全工业体系基础、高水平劳动者等方面具有优势,我国科技的发展在相当长的一段时间里,必然受到目前科技相对领先国家的打压,打压可能是全方位的,不但科技本身会被“卡脖子”,作为“耳目、尖兵、参谋”的科技情报工作风险也在提高,科技情报工作应兼顾国家的发展与安全,重视营造适合我国国情的科技情报生态[10]。科技情报工作者应该提高风险意识和危机意识,防患于未然,以便在问题发生时仍能有效发挥对科技创新的支撑作用。

对于以情报工作风险的应对可以从事前、事中、事后的时间线来综合考虑。事前要科学评估风险发生的潜在可能并做好准备,对相关的资源、工具等进行预测,并进行可替代性分析,制定有针对性的预案;事中当科技情报风险转变为问题发生时,依据预案和过去的成功经验案例有序应对,尽可能减少对科技创新主战场的影响;事后对处理应对的经验教训做总结,以备后续类似情况发生的时候能够作为参考。

2.2 持续优化科技文献数据资源有效保障

科技文献数据资源是科技情报分析的重要基础,要做好数据资源保障工作,可从以下三个方面着手。

一是加强文献源头的数字化和标准化,完善科技文献资源共建共享生态。目前除了中华医学会杂志社等极少数外,我国科技文献数据库服务商通常本身不是出版机构,自有文献资源较少,在纸本扫描、OCR、数据加工和清洗工作中存在重复工作。应引导相关企业在标准化前提下有序竞争,避免一窝蜂和简单重复建设,利用不同数字出版工具和系统生产的文献内容可以依据统一标准进行接入、管理和利用。利用“国家数字复合出版系统工程”等工具系统成果,有效加强文献内容的数字化生产、加工和利用,尽量在文献资源生产环节进行数据的保存和共享,保证资源的准确性。应推动一次文献、二次文献、三次文献等的产权明晰化,使用过程中可以考虑利用区块链等技术保证产权方、加工方、分析方和最终用户的利益。

二是做好国际文献资源的采集、备份、评估和规范。应进一步支持和加强国家科技图书文献中心等单位国际期刊等外文资源的回溯保存相关工作。同时要做好国际资源的评估和甄选工作,面向我国科技发展中长期需求,建立自己的评估体系和指标,对文献资源从库、刊、篇不同层级进行科学合理的评估,以便科技情报工作在分析中可以更好的选择资源,产出更为科学合理有支撑的科技情报成果。同时要做好相关国际标准卡位、参与和引导,要积极主导信息与文献等相关标准规范,以利于我国收集、理解、加工和利用国际文献资源数据。

三是推动掌控更多的高水平文献资源。要继续倡导学者将高水平论文发表在我国的期刊上,更要通过利用FAST等大科学仪器装置,吸引世界各国科学家利用我国的仪器设备和科学数据助力实现我国的科技研发目标,并将相关成果留存和固化在我国。习近平总书记指出要在科学试验用仪器设备关键核心技术上全力攻坚,党也把加强高端科研仪器设备研发制造写入了《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,随着我国高端科研仪器设备的推广和应用,未来可以逐步推动实现文献数据库的东升西降,实现良性循环。

2.3 切实加强自有文献资源的审查和保护

科技文献不但是单位和个人的重要成果体现,更是国家的重要财富,是经济发展和竞争力提高的基础,科技秘密泄漏将会造成国家安全和经济发展方面的损失。美国等发达国家特别重视学位论文、专利等资源的审查和保护相关工作。美国通过《学术研究保护法》《出口管理条例》等法律法规对科学开放的领域、国家、级别等作出了非常详细的规定[11],如中国核能之父卢鹤绂在美国明尼苏达大学的博士学位论文因为被美国原子能部门所重视,判定该论文涉密,延迟数年后才以摘要形式予以公布[12]。

国家、机构和个人应协同努力,加强我国体现最新科技成果的自有文献审查保护工作。

从国家层面要加强立法。早期我国涉密学位论文保密相关工作存在保管和使用安全防范设施薄弱等问题[13],但随着国务院学位委员会、教育部、国家保密局等单位对该问题日益重视,印发《涉密研究生与涉密学位论文管理办法》等文件,保密工作得以改善。此外,《中华人民共和国国家安全法》强调建立国家安全审查和监管的制度和机制,加强知识产权的运用、保护和科技保密能力建设。我国还制定颁布《国防专利条例》,并在《中华人民共和国专利法》中规定了“申请专利的发明创造涉及国家安全或者重大利益需要保密”等情况的处置原则等。下一步应进一步加强相关法律法规的解读和细则制定,便于相关实体更好的落实执行。

高等院校、科研院所、高科技企业等科研机构是我国文献等科技成果生产的主要力量。科研机构对其成果最为了解,在机构层面做好科技成果的保密审查,维护国家科技安全。各单位应建立健全保密管理机制,明确保密责任和保密流程,加强成果的全生命周期科学管理,以实现科技文献的安全保密和科技成果的保护,还应该逐步前置保密审查工作到项目立项等早期阶段。

应进一步加强科研及相关管理和服务人员的科技安全意识和保密意识教育,提高保密能力,配合国家和科研机构切实履行保密义务,更有效地保护我国科技成果,避免科技秘密泄漏。

2.4 有效推动科技情报分析工具自主可控

国内的科技情报分析工具的开发团队规模一般不大,更新维护的稳定性一般不高,终端用户中不付费的学生和公益研究机构较多,实际运行中面临较多困难。但通过与部分开发团队访谈调研发现,这些工具的实际使用情况好于分析,一方面部分学术论文没有被数据库收录,另一方面更多的单位和个人用工具解决实际问题,并不发表学术论文。而且随着我国科技不断发展,科技情报分析的需求也会增加,因此这些工具虽然不是大众软件,但是也还有一定发展空间。从WPS Office,福昕PDF工具等国产办公软件的发展历程来看,只要把握需求,做实功能,达到国际领先水平和国产替代是完全可以实现的。

对自主的科技情报分析工具要进行扶持。可以通过合适的投资、补贴手段推动工具以合理速度良性发展。补贴方式应从工具使用入手,如决策时要求包含国产工具的分析结果或对比分析结果,推动工具的使用,并且随着用户的增加和需求的反馈,让工具的效果和效率得以逐步提升,出现做大做强的产品。此外对科技情报分析工具底层依赖自然语言处理、可视化等基础技术的攻坚扶持也能够保障和提高工具的自主可控程度。

此外,还可以利用科技情报相关社团组织、科技期刊、科技情报联盟网络等方式帮助国产科技情报分析工具推广宣传。

2.5 充分发展利用依托科技高端交流平台

国家科技论文和科技信息高端交流平台建设旨在强化我国科技文献生产、分析工具研发和信息平台运行的自主可控能力,深化科技信息交流服务的供给侧改革,提升科技信息交流服务的整体质量[14]。相关专家在高端交流平台的开放获取、知识管理、平台建设和服务等方面都做了大量的研究、设计,平台设计中包含多类情报情报分析和服务所需要的资源、工具、系统等,可以说对于应对科技文献资源及相关风险提供了很好的平台。在具体问题解决上,可以结合高端交流平台的建设,提供高效、安全、可信赖的科技文献资源保障和情报分析工具,利用全国科技情报联合体等组织进一步加强情报服务工作中的分工和协调,更好地保障国家安全和发展。

2.6 把握情报工作范式转变产业升级机遇

我国情报工作发展早期注重实用,但是服务方式比较简单,随着用户获取信息便利性增加和获取方式的多样化,以文献为基础的情报工作的作用日益弱化。当前全球科技创新进入前所未有的密集活跃期,世界强国之间的竞争不断加剧,为我国情报工作开展和应用研究提供了难得的“机会窗口”。新一轮科技革命与产业变革加速演进,数智时代,大数据、云计算、人工智能、区块链和5G技术对情报工作需求规划、检索采集、融合组织、分析凝练、呈现传递均会产生深刻影响[15],为以人为核心的情报工作提供更多更快的自动化的辅助,使得情报工作信息处理与分析的能力和速度同步增加。开源情报等新模式强调对公开信息的利用,注重使用信息化手段和大数据技术加快从公开信息中综合形成以前只有通过秘密信息来源的依赖情报。这有可能对情报工作带来颠覆性创新,进一步促进回归情报工作决策支持和风险预警的实用性,为政府和企业提供更精准、更及时的服务,以有效地应对信息化时代日益复杂和多变的安全挑战。情报工作应该把握趋势,积极应对转型,提高情报工作效能,适应新环境下的情报工作新要求。

3 结 语

科技情报工作是支撑我国科技发展与安全的重要基础,但是其本身所受到文献资源及相关风险的威胁也日益突出。为了有效解决这个问题,我们需要积极应对,攻防结合。一方面要提高风险意识,做好应急预案,利用高端交流平台建设,切实建设自主可控的科技情报分析资源和工具,在问题发生时,能够有效应对降低影响;另一方面,从国家、机构和个人等层面全面协同加强自有资源审查保护,更要把握情报工作升级机遇,弯道超车,从根本上全面化解我国科技情报工作中长期存在文献资源及相关风险。

猜你喜欢
科技情报情报工作文献数据库
《感染、炎症、修复》杂志检索数据库
湖南省高等学校图书馆情报工作委员会第十届常委会第二次会议在长沙召开
湖南省高等学校图书情报工作委员会换届大会在长沙召开
基于数据工程的国防科技情报生态体系构建
《感染、炎症、修复》杂志检索数据库
曾希圣与人民军队情报工作
铜陵市科技情报工作存在的问题与发展对策
加强科技情报档案管理工作的建议
论我国学术文献数据库的质量调控
中文文献数据库中撤销论文的分布规律研究