科技信息分析从单一维度到多维复合的演进*

2019-02-24 07:04滕广青叶心郭思月王思茗

数字图书馆论坛 2019年12期

滕广青叶心郭思月王思茗

（1.东北师范大学信息科学与技术学院，长春 130117；2.长春市图书馆，长春 130021）

科学技术信息一直是情报学关注的重要内容。在人类科技进步的发展史上，科技情报分析与服务扮演着至关重要的角色。改革开放以来，我国政府高度重视科学技术的创新与发展，近年来的《政府工作报告》多次提到科技创新在国民经济建设中的重要地位。中共中央、国务院印发的《国家创新驱动发展战略纲要》明确提出了我国科技创新的战略要求、战略部署、战略任务、战略保障等。科技创新不但是一线科研工作者的时代使命，也为科技信息分析与服务工作提出了新的要求。以往的科技信息分析多以引文、关键词、专利技术中某单一数据类型为对象展开研究，研究视角与方法也多为单一维度的信息分析。虽然取得了丰富的成果，但限于数据的片面性，以及分析视角与方法的单一性，研究工作难免存在局限。作为科技创新的保障，科技信息分析与服务的能力亟需提升。大数据时代科技情报工作，需要以多维度的视角从数据和方法上实现创新。

本文采用数据科学的思维，对科技信息分析中研究数据与研究方法的变迁进行梳理与分析。重点剖析科技信息分析中，从单一维度向多维复合的转变模式与特征。在梳理与总结科技信息分析演进脉络的同时，揭示其背后的动力机制，从数据科学范式的视角，为科技信息分析领域的相关研究提供借鉴，探索科技信息分析研究领域新的学科增长点。

1 单一维度的科技信息分析

1.1 基于引文关系的科技信息分析

20世纪中期，Garfield[1]和Price[2]分别在Science杂志上撰文，从科学论文引用关系的视角探索科学知识发展脉络与模式，是基于引文关系研究科学知识信息的典型代表。科学引文能够反映人类科学知识的传承与创新，在呈现知识发展脉络方面具有优势，此外还被用于科研评价等领域。学术界基于引文关系的科技信息分析主要包括3个方面：①科学知识的时间演化性，研究目的在于发现科学前沿知识随时间演化的规律[3]；②科学知识传承的连通性，聚焦于发现知识传播与知识传承中的知识关联关系[4]；③学科领域的知识群聚性，探索不同或相同学科（或主题）领域的知识引用中存在的群聚性特征[5]。

由于科学引文天然存在时间序列关系，因此基于引文关系的科技信息分析工作都在本质上含有不同程度的时间序列分析。此外，Price[2]在1965年的研究中已经将网络思维引入科学引文分析，尽管这一时期的网络分析方法还相对单一，其思维模式却被后人纷纷学习效仿。此类研究工作的关键问题在于数据维度的单一性。尽管时间序列分析、网络分析等方法随着不断优化完善至今仍然受到研究者的青睐，但是单一维度的引文数据，无论是在试图总览领域知识全貌还是具体细节领域的特征识别上，都尚不足以给出全面的结论。

1.2 基于文献核心词的科技信息分析

传统基于文献核心词的科技信息研究主要通过高频词识别领域核心知识或研究热点。随着数据挖掘与网络科学等理论与技术的发展与引入，学术界基于文献核心词的科技信息研究涌现出丰富的成果。从研究数据的视角看，基于核心词的科技信息分析主要分为文献关键词、社会化标签、文档内容语料等类型数据。此类研究多以领域知识聚类或发展趋势研判为主，主要包括基于论文关键词或标签等采用共词网络和聚类分析识别与验证领域知识的主题广泛性和领域核心凝聚性[6]，采用时间序列分析识别领域主题的演变趋势与影响[7]，以及通过中心性与核心-边缘分析等方法追踪核心概念发展成为学科支柱的演变[8]。

上述基于文献核心词的科技信息分析中，涉及的分析方法主要包括复杂网络分析、向量空间分布、时间序列分析等。研究数据包括关键词、标签、文本中抽取的特征词等多种类型。虽然涉及多种数据类型，但是性质上仍属于同一维度的数据，而且每个具体的研究工作多限于一种数据类型。基于不同类型的数据的研究结果也未能实现交叉验证。

1.3 基于研究者和机构的科技信息分析

在科学技术的研发与创新过程中，科研人员和研发团队以及研究机构起到至关重要的作用。因此，对于研究人员和团队机构的相关研究是科技信息分析一环。目前，学术界在基于研究者和机构的科技信息研究中已经取得了较丰硕的成果。学术界的这部分研究主要分为静态研究和动态研究两个层面。其中静态研究主要包括合作网络结构特征及合作模式特征[9]、核心学者与合作强度识别[10]、隐性合作关系探测[11]等。动态研究主要集中在合作关系演化与领域核心作者演变方面[12]，其中包括科研合作关系的稳定性测量以及科研人员之间的知识流动等。

在研究方法上，基于研究者和机构的科技信息分析，相比基于文献核心词的科技信息分析更适合于社会网络分析中关于行动者的设定。研究数据来源多为科学文献的作者署名信息，这使得其中的网络分析通常以1-模网络为基础，研究工作的数据维度与分析维度相对单一。仅有少数的研究工作涉及文献署名与科研绩效指数两种不同的数据维度。

1.4 基于专利技术的科技信息分析

专利技术连接基础研究与实际应用，也是衡量科学技术发展水平的重要指标。基于专利技术的科技信息研究更倾向于科技创新的落地应用，由此也带来了技术保护与技术竞争等问题。因此，专利技术分析是科技信息分析中最常见的分析视角。早期基于专利技术的科技信息研究主要集中在新技术开发与传播等方面[13]；近年来，随着科学技术商业环境中竞争态势的加剧，专利技术价值与保护[14]、专利审查与诉讼[15]等与技术竞争和知识产权相关的研究工作逐渐增加。

这部分研究工作的相关数据大多来自专利文献中的发明人、申请人、IPC分类号、专利授权机构等形式特征，但是由于专利的可转让性等原因，同一项专利可能会出现申请人、持有人等并非一致的现象。因此，许多研究工作将复杂网络分析与数据挖掘技术结合使用，其中一些研究涉及2种数据维度。此外，不同的专利授权机构往往对专利文献的标准格式要求存在差异，自然语言处理技术被较多地应用于基于专利技术的科技信息分析。

网络统战视野下民主党派微信公众号影响力研究——基于优质推文的内容……………………………………………… 吴凡张天舒（6·84）

2 多维复合的科技信息分析

随着科学技术的发展以及研究工作的深入，研究者逐渐意识到仅凭单一维度的数据和单一维度的研究视角很难对科学活动背后潜在的模式与规律给予更全面的洞察。尽管网络科学（复杂网络、社会网络）理论与方法的引入在一定程度上丰富了研究工作的分析视角，但是数据维度的单一性仍然在一定程度上限制了在具体研究工作中展开多维复合分析的空间。大数据思维的兴起，为解决这一局限提供了新的思路。人们在关注数据体量、处理速度、价值密度的同时，也对4V（Volume、Velocity、Variety、Value）中的多样性（Variety）给予了高度重视。数据的多样性能够为研究工作注入多维度的信息，还能在多个维度之间实现交叉复现。学术界逐渐产生从多个视角对科技信息展开研究的相关成果。这些研究工作超越以往单一维度的科技信息分析，考虑多维度之间的相互关联与扰动。

2.1 简单的多维科技信息分析

多维复合的科技信息分析首先是研究数据的多维性。早期简单的多维科技信息分析主要包括基于多数据源同一维度的科技信息分析，以及基于同一数据源的科技信息多维分析。

学术界众多的科学文献数据库各有侧重，单纯以某一数据库作为数据源或多或少都会存在一定的疏漏。因此，学术界在科技信息研究的过程中已经开始重视多源数据对研究工作的有效支持，力图通过多个数据源整合后的信息资源对研究问题建立更全面的认识。较早的基于多数据源的科技信息分析常采用整合多个文献数据库（如Web of Science、Scopus）的方法，虽然涉及多库整合，但主要还是以科学论文为基础，数据具有明显的同质性。随着研究工作的开展，此类研究的数据源已经不再局限于科学论文数据，其中比较典型的多数据源整合包括科学论文与专利文献的整合[16]，科学论文与商业报告的整合[17]，以及科学论文与政府公报和行业新闻的整合[18]等多种形式。此类研究多以更全面地识别领域知识或技术前沿为目的。尽管不同数据源中的数据维度可能存在差异，但是通过特征词（如关键词）的提取与匹配，通常可以满足单一维度分析的任务需求。研究中通常需要面对文献归类与去重问题，涉及到不同语种数据源还要面对跨语言处理问题。由于不同数据源题录格式的差异会给文献归类与去重工作造成一定的困扰，而且跨语言处理目前仍然需要一定程度的人工介入。因此，其中跨语言文献间的内部关联识别成为研究工作的难点。

基于同一数据源的科技信息多维分析不需要多库或跨库检索。相对于多数据源同一维度的科技信息分析而言，基于同一数据源的科技信息多维分析关注的重点在于不同维度数据之间的关联与扰动。由于在数据获取方面具有一定的便捷性，此类研究目前积累了较多的研究成果，包括基于“作者-关键词”“合作关系-作者水平”“作者-机构-国家”“作者-时间-关键词”“机构-主题-地区”“作者-论文-关键词-期刊-基金”“学科-地区”“学科-时间-出版机构”“基金-学科-国家-合作-引文”“发明人-申请人-IPC分类号-授权机构”“博主-博文-评论-推荐-访问量”等诸多不同维度数据的科技信息分析[19-22]。这类研究中，分析工作往往涉及多个维度，包括2-模网络、3-模网络等网络分析的方法被大量应用。尽管其中不同维度之间关联关系的识别尚处于较浅的层面，但是跨维度的关联与扰动分析已经初见端倪。

2.2 复杂的多维数据科技信息分析

事实上，情报学界对前述基于简单多维数据的科技信息分析并不陌生，只是近年来随着数据科学的兴起，越来越多的研究人员开始更加重视多维复合分析在科技信息研究中的重要性。随着研究工作的深入，在多维信息的混杂性逐渐凸显的同时，不同维度间隐含的数据价值也逐渐浮现。与此同时，多维数据间跨维度的关联与扰动逐渐成为科技信息多维分析中关注的焦点。研究人员尝试通过跨维度的知识发现，挖掘和捕捉曾经被忽略或掩盖的模式与规律。一些基于不同数据源中不同维度数据的更复杂的研究工作相继开展。

基于复杂多维数据的科技信息研究的一个典型代表是Martín-Martín等[23]在2018年发表的一项关于科技信息覆盖率的研究成果。该项研究的数据来自Google Scholar、Web of Science、Scopus三大著名的科学文献数据库。研究中的数据维度涉及学科方向（252个）、文献类型（期刊论文、图书、会议论文等）、语言种类（英语、西班牙语、德语等），以及引用记录（2 448 055条）等多个方面。无独有偶，国内学术界也出现将机构库、专家库、论文库等不同数据源进行关联整合的研究成果，数据维度涉及作者、研究主题、机构等[24]。尽管这些研究都同时涉及多个数据源以及多个数据维度，但是数据源在类别上都属于科学文献数据库。不同科学文献数据库的格式标准不同的情况下，其题录信息毕竟还是自带一定程度的规范性。更为复杂的是基于学术型数据源与非学术型数据源关联整合的研究。现有的研究成果中，已经出现基于传统学术资源数据与现代社交媒体数据关联整合的相关研究，数据维度涉及期刊、所有者、出版商、推文、引文等[25]。国内2019年最新的研究成果中，更是通过学术论文（中国知网期刊论文、学位论文、会议论文）、专利搜索引擎（大为innojoy）、国家图书馆（馆藏目录）、自然科学基金（LetPub）、行业报告（中文互联网数据资讯中心）、政策（中国政府公开信息整合服务平台）、舆情（微信指数）多类数据源的关联整合，从相互关联与影响的多维信息中对新兴技术进行识别[26]。此类研究中，由于数据的性质特征和形式特征都存在较大的差异，因此跨维度关联识别的难度更大，自然语言处理以及关联分析方法也被广泛使用。显然，学术资源与非学术资源的关联整合在数据维度上跨越了更远的认知距离，进而能够将更丰富的关联信息实现整合，并从中挖掘出以往研究中容易被忽略的模式特征，能够更好地解决单一数据源的不确定性。同时，随着研究中数据维度的不断扩展，不同维度间数据关联关系识别的重要性也越发凸显，研究工作对分析技术与方法在处理多维关系上的要求也越来越高。

3 多维复合分析的数据与方法

通过上述对科技信息分析相关研究工作的梳理与分析不难发现，科技信息的多维复合研究在本质上包含研究数据的多维度和研究视角与方法的多维度两个方面。而且网络科学理论与方法凭借其在揭示结构关系方面得天独厚的优势，被较为广泛地应用于多维度的科技信息分析。通过对研究数据与方法的梳理归纳，结合相关学科领域的最新研究成果，研究工作从数据与方法的视角对科技信息多维复合分析中的相关维度进行总结，如图1所示。

图1 科技信息多维复合分析的数据与方法

图1中的中间部分为科技信息多维复合分析的相关研究任务，左侧为研究数据，右侧为研究方法。从研究数据的角度看，既包含科学论文、专利文献、基金项目等经典的科技信息载体，也包括近年来在科技信息分析中崭露头角的社交媒体、政策文件、行业报告、新闻报道等数据源。此外，近年来开放的科学数据在科技信息分析中的作用也有所体现，甚至还包括图中没有列示的用户认知行为等相关数据源。这些多源的研究数据能够为科技信息分析提供更加全面的基础信息，也蕴含着更加丰富的多维关联关系。基于上述异质异构的数据源，研究人员可以采用传统方法提取其中的形式特征，包括论文关键词、作者、引文、机构、国别、期刊、学科方向、IPC分类号、专利申请人等；也可以借助自然语言处理等技术，通过特征词抽取、主题划分、相似性比较等识别其中潜在的语义信息，建立更丰富的细粒度语义关联。

在研究方法方面，除了传统的科学计量学与统计分析方法外，以结构关系分析见长的网络分析方法占有重要的地位。从现有的研究成果看，除了一些成熟的单模网络分析方法外，2-模网络、3-模网络分析屡被应用，甚至有研究将多个2-模网络合并成一个复合的多模网络用以识别科技信息间跨维度的关联。类似的研究中，对于多维信息分析更具优势的超图、元网络、多层网络等分析方法也相继被应用于科技信息的多维复合分析中。由于网络科学在结构关系揭示方面得天独厚的优势，在学术界最新的研究成果中，研究者提出网络分析的思想与方法是科技信息分析的基础逻辑框架[27]。此外，知识图谱（Knowledge Graph）的理论与方法也对科技信息多维分析提供了支持，凭借其实体与关系的多样化及其在多维关系揭示方面的优势也被引入科技信息分析领域。需要说明的是，这里所说的知识图谱是指Google提出的知识图谱，不同于图书情报学领域更早出现的科学知识图谱（Mapping Knowledge Domain）。科学知识图谱由Morris、陈超美、Garfield等学者于2003年美国国家科学院组织的研讨会上共同提出，并于2004年在Proceedings of the National Academy of Sciences of the United States of America发表专题论文。Google的知识图谱于2012年提出，一经提出就迅速引起学术界的关注。Google提出的知识图谱可以涵盖种类繁多的实体、关系及属性，实体之间由其关系连接，并且实体与关系都可以具有各自的属性，其背后往往由图数据库作为后台。如一个简单的“作者-文献”关系在知识图谱中可以表示为作者实体与论文实体之间由创作关系连接，作者实体可以具有是否为通信作者的属性，论文实体可以有所属学科方向的属性，实体之间的创作关系有时间属性等。以往的科技信息分析中仅能获得简单的作者与文献之间的关系。但是在知识图谱的视域下，则可以在“作者-文献”关系的基础上，通过一系列的通信作者属性推测作者在科研团队中的重要性，通过创作关系的时间属性识别作者科研生涯的高产出阶段，通过一系列论文的学科方向属性分析科研人员更擅长的研究方向，甚至可以通过更多维度信息的结合推断研究人员在不同研究方向团队中的重要程度等。某种程度上讲，知识图谱与网络科学在研究思想上存在异曲同工之处，但是在包容信息内容的维度上，一个知识图谱要远远超过一个特定的知识网络。而且，从知识图谱的后台图数据库中抽取的多维复杂关系可以被应用于多类型和多任务的图挖掘分析[28]，因此也将成为未来科技信息多维复合分析的重要支撑技术。

另外，随着机器学习技术（包括深度神经网络）与自然语言处理技术的成熟，多维异构数据中的语义信息被抽取并加以分析。类似基金项目与科学论文等数据之间传统方法下依靠形式特征（论文中的基金标注）建立的简单关联，在隐狄利克雷分布（Latent Dirichlet Allocation，LDA）模型等语义分析方法的辅助下得以扩展，并且能够获得更深层面的洞见。同时，LDA等自然语言处理方法自身也在不断地向多维信息分析的方向迈进，作者主题（Author-Topic，AT）、作者兴趣主题（Author-Interest-Topic，AIT）、作者会议主题（Author-Conference-Topic，ACT）、引文作者主题（Citation-Author-Topic，CAT）、作者时间主题（Author-Time-Topic，ATT）等纳入作者、兴趣、会议、引文、时间等维度信息的语义分析方法纷纷在科技信息分析领域涌现[29]，无疑能够为多维异构数据源中的语义信息抽取与分析提供更大的助力。此外，复杂系统分析方法也对科技信息多维分析提供了支持，多代理系统（MAS）可以对系统的自组织模式进行仿真建模，从复杂科学的视角探索科学发展与创新中的动力机制。显然，在研究数据方面，越来越不同维度的数据被纳入科技信息分析的视野范畴；在研究方法方面，网络分析、自然语言处理、知识图谱等对科技信息多维复合分析提供了技术与方法层面的有力支撑。

4 结语

由上述分析可以看到，科技信息分析领域，研究工作已经从早期单一维度的信息分析开始逐渐向多维复合分析的方向转变。情报学界对科技信息多维分析的尝试与探索也经历了从简单多维分析到复杂多维分析的过程。从数据的多维性到研究视角与方法的多维性，都在不同程度上得到显著的发展与提升。这期间，大数据思维、网络科学、自然语言处理等相关学科的发展在跨维度关联识别与细粒度关联揭示等方面起到了积极的推动与促进作用。在我国科技创新的战略框架下，对科技信息资源实现深层次挖掘，从多维复合分析的视角洞察与揭示不同维度信息之间潜在的模式与规律，逐渐成为学术界的共识。

科技信息的多维复合分析有助于获得不同维度之间的潜在关联，发现科技发展以及科技创新中内在模式与规律，从而提供全景式的知识服务。对于创新科技信息研究，提升科技信息服务水平，促进国家科技发展都具有积极意义。科技信息多维分析是一个渐进的演进过程。这期间，数字化科技信息资源的可获得性，以及网络分析等有效分析方法的支撑都起到了关键的作用。事实上，科技信息多维分析不仅包括数据的多维性与方法的多维性，还包括研究目标的多维性等方面。本文重点从数据与方法的视角对科技信息多维分析的演进状况进行梳理与归纳，既对当前学术界的科技信息分析相关研究进行了总结，也力图为今后科技信息分析领域的相关探索提供借鉴，开拓科技信息研究领域新的学科增长点。