基于时间拓展网络的知识发现与发展路径识别
——以信息管理领域为例

2021-10-11 10:15:08王宗水刘海燕
情报学报 2021年9期
关键词:信息管理信息系统领域

王宗水,刘海燕,刘 苇,赵 红,张 健

(1.北京信息科技大学经济管理学院,北京 100192;2.中国科学院大学数学科学学院,北京 100190;3.中国科学院数学与系统科学研究院,北京 100190;4.中国科学院大学经济与管理学院,北京 100190)

1 引 言

知识发现是获取数据中新颖、具有潜在价值,且能被理解的知识的过程[1],不仅是企业解决信息超载问题、获得竞争优势的重要方式[2],也是知识成果转化的前提[3]。知识来源的多样性导致了知识发现在内容与方法上的差异性,由于知识之间的关联性,通过网络分析方法来研究知识表达与知识挖掘得到了广泛关注[4],尤其是知识网络的动态演化模型在知识分类与识别中具有更好的适用性[5]。

知识发现的过程包括数据的获取、预处理、数据挖掘、数据后处理等步骤[6]。学术论文作为最新的研究主题,常被用于研究趋势与发展路径的分析[7-8]。数据挖掘方法和聚类分析方法已成为知识发现的重要方式[9-11]。基于此,Sato等[12]将数据挖掘与聚类分析、关联规则分析结合起来,对多目标拓扑优化中的知识予以挖掘,并通过实例证明了方法的有效性。

尽管知识网络的概念尚未形成统一认识,但是通常可理解为知识节点的集合,知识节点可以是图书、论文、专利、情报或文字[7]。节点间的关系既可以是文献的引用关系,也可以是同一数据来源中不同知识的共现关系。例如,Xiao等[13]通过引文关系构建知识网络来研究知识的扩散过程,此时网络连接为文献的引用关系;唐洪婷等[5]在研究大众协同创新社区中的知识发现过程中,则以知识点的共现作为知识超图中的超边。另外,在研究知识体系的发展与概念演化过程中,关键词的共现已经成为主要的网络构建基础[14],是研究知识关联的重要方式[15]。然而,在知识发现的过程中引文分析具有滞后性,关键词分析能够有效避免此问题,但在关键词中同义词的存在在一定程度上降低了知识发现的准确性[7]。

时间拓展网络是一种离散时间下的动态网络流建模方法,通过将静态网络的节点与弧在离散时间框架下分别进行复制和更新,从而形成新的网络[16],通常被应用于物流系统优化[17]、传输最短路径识别[18]、基于网络距离的收费结构设计[19],其在网络路径识别与优化中具有良好的适用性。所以用时间拓展网络来研究以节点距离为基础的知识发展路径具有理论上的可行性。

鉴于此,结合已有研究,本文提出一种基于时间拓展网络的知识发展路径识别方法,将所得数据划分为等时间间距的不同阶段,采用文本挖掘方法对每个阶段的关键词进行依次提取;同时,为了提高数据的准确性与可靠性,对关键词进行编辑与筛选,将不同阶段的相同关键词标的为关系连接点,通过定义关键词网络关联准则,形成基于时间流的知识连接网络,并结合节点接近中心性的值来探索知识发展的主要路径,从而呈现知识的动态演化过程。

2 基于时间拓展网络的知识发展路径识别方法

2.1 知识网络的构建

知识网络的构建需要先确定数据来源,而在知识发现过程中,文献是主要数据源之一[13,20],因此,本文以文献为数据单元,通过文本挖掘方法来提取关键词,并通过图1所示的流程构建知识网络。首先,确定文献的检索条件,通过相应数据库初步检索得到相应文献,通过人工筛选确定所需下载的条目,下载文献并以特定格式进行存储。然后,采用文本挖掘方法进行关键词提取,根据数据范围进行词频统计。最后,在关键词共现矩阵的基础上形成初步的知识网络,通过同义词汇及其共现关系的合并处理形成最终的知识网络。

图1 知识网络构建流程

2.2 知识发展路径识别方法

网络结构的变化能够直观地反映知识体系的发展过程[21],在科学计量学研究中引文网络是知识发展路径研究的主要方法[13]。但引文分析在知识发现中具有滞后性,所以学者们引入了关键词与引文分析相结合的方法[7],因过程相对复杂且仍主要依据引文网络对关键词聚类分析,所以仍存在一定的滞后性。因此,知识动态性的准确刻画是知识发展路径演化必须考虑的因素,而时间拓展网络既能够充分体现同阶段知识要素的关联关系,又能够反映知识网络随时间的演化过程。

鉴于此,本文依据关键词构建知识网络,同时依据知识网络随时间变化的动态性,将知识网络划分为不同阶段,并通过不同阶段网络结构的变化来识别知识发展路径,具体步骤如下:

(1)根据时间将所获取的文献划分为等间距阶段,分别构建不同阶段的知识网络,并形成不同阶段的知识单元Ui={Ui1,Ui2,Ui3,…,Uik},其中,Uik表示第i个阶段的第k个关键词。

(2)识别相邻阶段中知识单元Ui与Ui+1中相同关键词,当两个阶段存在相同关键词时,则以相同关键词建立网络连接,其基本过程如图2所示。

(3)根据节点连接情况,对节点间的距离xij予以赋值,当相邻两个阶段的关键词相同时,如U14与U21、U15与U22,两个阶段网络节点间的距离记作0;当同阶段不同节点直接连接时,如U12→U13,两者之间的距离记作1;间接连接时,其距离为最短到达路径距离,如U23→U24,记作2;两个节点通过连接不可能到达时,如U13与U14,记作∞。此时不考虑由后一阶段节点作为中间节点实现连接的过程。

(4)构建节点-弧关联矩阵,根据图2中的部分节点形成的节点-弧关联矩阵,如表1所示。由于在计算网络距离过程中不考虑弧的方向性和节点的自连接,所以其距离矩阵为对称矩阵,同阶段节点的自身距离记作空值,用“—”表示。

图2 时间网络连接示意图

表1 节点-弧关联矩阵

(5)构建知识发展路径的目标函数,即

在此基础上,计算出最短路径f。

(6)知识发展路径表明了知识要素在不同阶段的发展过程,而组成路径的节点在不同阶段的重要性更能体现知识的层次结构和重要内容的分布,所以可以按照接近中心性的高低将知识要素划分为不同的层次[22]。某一关键词接近中心性的值较高时,表明其在知识网络中的位置越重要,也是知识发展路径的重要组成。因此,本文根据不同阶段知识元素在所属阶段知识网络中的接近中心性(CC(vi))的值确定其重要性,其计算方法为

其中,N表示网络中节点的总数;dij为节点vi到vj的最短距离[4]。

然后,按接近中心性排名将节点以(maxmin)/4,等分为十分重要、比较重要、一般重要以及不重要4个层次,分别记作A、B、C、D,并分别统计每条路径中4种类型节点的占比,从而确定不同的路径在知识发展中的重要性,筛选出重要路径。

(7)根据节点的连接关系对重要的知识发展路径予以网络展开,并对不同路径中的相同元素予以挖掘,记作知识发展路径的连接点,从而形成不同路径连接的纽带,呈现整个知识发展脉络。

3 数据采集与统计分析

3.1 数据来源与发文量变化趋势

数据的可靠性是知识发现的基本前提[23],由于文献数据的完整性和准确性,已经成为知识发现的重要数据来源,并得到了较广泛的应用[24],如生物医学[25]、传统医学[26]等领域。因此,本文选取信息管理领域的24个重要期刊在1979—2018年发表的论文为样本(期刊信息如表2所示),检索日期为2019年1月28日。在数据的采集过程中,经过初步筛选去除信息不完整、非文章类条目,最终选取43624篇文献作为研究样本,其发文量整体变化趋势如图3所示。

表2 期刊及相关领域

图3 发文量变化趋势

为了比较不同阶段知识网络结构及发展路径,本文以每10年划分为一个阶段,即阶段一(1979—1988年)、阶段二(1989—1998年)、阶段三(1999—2008年)、阶段四(2009—2018年),4个阶段文献的数量依次为4251、7966、13311和18096。整体上而言,信息管理领域的发文量呈上升趋势,且各阶段的变化趋势基本一致,1979—1988年增长速度较慢,经过1989—1998年、1999—2008年两个阶段的快速增长,2009年以后趋于相对稳定,所以从发文量的变化趋势上来看,该阶段划分方式是合理的。

3.2 国家/地区发文量

国家/地区发文量的多少能够反映出其在某领域知识创造能力及国际影响力的大小[27-28],所以在国家/地区科研能力评价过程中,论文数量成为重要的指标之一[29]。本文采用CiteSpace软件对不同阶段的国家/地区发文量进行统计,其中4个阶段发文量排在前10位的国家/地区如表3所示。

从表3中可以看出,在信息管理领域,美国的发文量远远高于其他国家/地区,但每个阶段所占发文量总数的比重在逐渐降低,例如,阶段一美国发文量占前10位国家/地区发文量总数的80.90%,而阶段四则下降至44.80%。大多数国家/地区的发文量整体呈上升趋势,且发文量前10位的国家/地区基本稳定。近20年来,我国的发文量显著增长,已成为信息管理领域重要的知识创造国,国际影响力显著提升。

表3 发文量排名前10位的国家/地区统计

3.3 关键词统计

关键词是文章核心内容的高度概括,在科学计量学的研究中,关键词常被应用于分析科学研究的发展趋势[30]以及概念的演化[14]。词频的高低可反映某一领域在学术研究中的被关注程度[31],关键词的共现系数及网络关联可用于分析研究内容的内在关联[14]。关键词通常指的是作者标注的关键词,而在CiteSpace软件中,关键词可以为标题、摘要、关键词、出版商补充的关键词共同提取出的关键词[32]。由于标题、摘要存在差异性且文字较多,关键词提取的准确性会降低。因此,本文仅提取作者关键词与出版商关键词作为研究对象进行知识演化路径分析。通过CiteSpace软件提取主要关键词,初步提取时,以引用量或出现频次前10%的条目作为分析对象。由于阶段一的文章数量明显低于其余3个阶段,所以对阶段一的词频阈值做降低处理,将其设定为2,最终得到61个关键词,其他3个阶段分别提取词频前100位的关键词作为研究对象。4个阶段排名前10位的关键词及频次如表4所示。

通过表4可以看出,4个阶段前10位的关键词在频次上显著增加,例如,在阶段一最高频次为12,阶段四则为1975,也反映出研究规模的显著增加。在内容上,关键词存在明显的差异性,但又存在一些重要内容贯穿4个阶段,例如,信息系统(information system)在4个阶段都具有较高的频次,这表明其在信息管理研究中的重要性。

表4 高频关键词统计

4 结果分析

4.1 短路径计算结果

根据公式(1)分别计算时间拓展网络中的最短路径,其中,最短路径f的值为0,且存在9条路径的最小值为0,即表明在4个阶段均存在的关键词有9个,分别为management(管理)、information system(信息系统)、innovation(创新)、design(设计)、implementation(实施)、decision support system(决策支持系统)、simulation(仿真)、决策(decision making)、数据库(database)。

然后根据公式(2)计算各阶段最短路径节点的接近中心性的值,其接近中心性的值如表5所示,[]内的数值为该阶段节点接近中心性的取值范围。其中,管理、信息系统、创新、设计与实施在4个阶段的接近中心性的值均大于0,表明其在知识网络中的位置比较重要,而决策支持系统的接近中心性逐渐降低,也反映出在知识网络中的重要性逐渐降低。通过分别统计每条路径中A、B、C、D的个数确定每条路径在知识发展过程中的相对重要性。

表5 关键词各阶段中心性

由表5可知,管理3A、1C,信息系统2A、2C,创新2A、1B、1C,设计2A、1B、1C,实施2A、1B、1D,仿真1C、3D,决策支持系统2C、2D,决策1A、1B、2D,数据库1A、1C、2D。可以看出,仿真、决策支持系统各阶段的相对重要性均较低,决策与数据库在某个阶段的重要性较高,而其他5个节点各阶段整体的相对重要性则较高,因此其为重要的知识发展路径。

图5 信息系统为主线的知识发展路径

图6 创新为主线的知识发展路径

4.2 知识网络展开

为了进一步分析信息管理领域知识网络的发展路径,本文对管理、信息系统、创新、设计与实施5条主线,依次以共现关系为链接,构建与主路径节点距离小于等于2的关系网络,如图4~图8所示。

图4 管理为主线的知识发展路径

图8 实施为主线的知识发展路径

1)管理为主线的发展路径

在关键词提取过程中,包含管理的关键词主要有管理、信息系统管理、项目管理以及知识管理4个,为了体现研究内容的具体化,并未对其进行合并处理,而是以范围最广的管理为主线梳理相关研究的发展过程。阶段一,与管理直接相连的关键词有方法、标准、系统开发、生活模式4个,在此基础上形成了相应的知识分支,如项目管理与软件开发、系统设计与方法等。阶段二,与管理直接连接的关键词只有设计,其成为连接管理与系统、人因工程、建模的纽带。阶段三,与管理直接相连的关键词有技术、问题和框架,但技术是主要的研究内容,并且扩展到组织、信息系统、电脑、模型等多个领域。阶段四,管理的研究内容进一步得到拓展,如知识管理、管理实施、管理的成功模式、管理绩效等。整体上而言,管理相关的研究内容分散,且不同阶段主要内容差异较大,但与信息系统、信息技术相关的理论、方法与应用仍是重要的研究内容。

2)信息系统为主线的发展路径

通过词频及接近中心性计算发现,信息系统是信息管理研究中重要的核心内容。在阶段一,信息系统与管理信息系统的管理及设计具有最直接的关系,在管理信息系统设计的基础上,延伸到信息分析、认知模式与用户参与。然而,在阶段二,与信息系统直接关联的关键词只有方法,表明此阶段信息系统的相关研究更多的关注于系统开发的模型与方法。进入阶段三,尽管与信息系统直接相连的关键词为成功与技术,但研究内容更多的与信息系统技术相关,而这些技术涉及管理、通讯、组织等多个方面。经过阶段三的发展,在阶段四,与信息系统直接连接的关键词只有技术,表明信息系统技术成为最主要的研究内容,其涉及的领域有所拓展,如战略层面的信息系统技术及其应用[33]。从整体上而言,信息系统的研究经历了从管理新系统的管理与设计到对应的方法与模型,再到聚焦于信息系统技术及其应用3个阶段。

3)创新为主线的发展路径

创新是管理学研究的重要内容,在信息管理领域同样如此,其在信息管理研究的不同阶段均具有重要的作用。阶段一,信息管理领域的创新研究主要体现在软件的开发上,尤其是以项目管理、生活方式相结合的创新模式。阶段二与阶段一相比,创新的相关研究发生了明显的变化,此时更多地关注创新扩散以及对创新的态度,并延伸到创新的采用及实施。阶段三,创新扩散仍是重要的研究内容之一,但此时更多地关注企业的创新能力、获得的竞争优势以及知识管理,同时,创新的实施也是重要的研究视角。阶段四,随着人们对创新重要性认识的提升,其涉及的领域进一步扩大,研究方法也更为多样,如采用案例研究分析企业的信息技术的竞争优势[11]。由于创新涉及的领域较为广泛,所以在信息管理领域其整体发展呈现多样性。

4)设计为主线的发展路径

设计在信息管理中的体现主要包括信息系统的开发、信息需求的实现、信息的提取、信息技术的创新与完善等方面。随着信息技术的发展,需要设计来实现的内容增多,但与其直接连接或较短距离的关键词数量却逐渐减少,表明在信息管理的知识领域,设计相关的研究更为聚焦,形成了以信息系统、信息技术实现与完善相关功能的方式。

5)实施为主线的发展路径

实施是信息系统及相关技术功能实现的重要环节。阶段一,实施成为连接用户满意与系统研发的纽带,即通过系统研发的实施来满足用户的需求是此阶段重要的研究内容。阶段二,实施将技术与扩散连接起来[34],研究范围得到扩展。在阶段三和阶段四,随着知识与创新在管理中作用的提升,实施的研究视角与知识、创新相连接,形成了新的研究领域。

图7 设计为主线的知识发展路径

信息系统、管理、创新、设计与实施构成了信息管理知识发展的主线,彼此之间又通过技术、模型与方法、扩散、知识等内容相互关联,从而形成了信息管理研究的知识网络。

4.3 与关键词聚类的比较

在领域知识发现的过程中,聚类方法得到了较多的应用[35-36],为了比较基于时间拓展网络的知识发现方法与聚类方法的差异,本节采用了CiteSpace软件中的LLR(log-likelihood ratio,对数似然比)对关键词进行聚类分析,同样以引用量或出现频次为前10%的条目作为分析对象,以10年为一个时间段,聚类结果以时间轴展示,节点显示的阈值为频次大于等于100,其结果如图9所示。

图9 关键词聚类结果

模块度(modularity)和平均轮廓系数(mean silhouette score)是反映网络全局结构特性的重要指标[32],关键词网络聚类的模块度值为0.8383,轮廓系数值为0.2932,表明网络被合理地拆分为松耦合集群,且同质性较高,聚类结果较理想。其中包括分析、信任、禁忌搜索、实验、优化、决策支持系统、MIS计划、案例研究、项目管理、信息系统、创新、仿真共12个主要分类,与表4中的主线内容具有较高的一致性,研究内容随时间轴的变化在一定程度上反映出信息管理领域知识的发展过程。

但是聚类分析的结果并不能准确地显示出知识形成的主要路径,尤其是同一内容在不同阶段的重要性不能直观地展示出来,需要深入挖掘、细化节点间的关联,才能更好地识别知识形成与发展的主要路径,所以在知识发现过程中,聚类得到的结果仍需进一步深入挖掘,尤其是结合节点的网络特性才能更好地展示知识发展路径。当然,在知识发现的过程中,聚类分析方法操作更为简单,亦可展示主要的知识内容。

5 结论

知识发现是管理科学研究的重要内容,文本挖掘、聚类分析在知识发现过程中得到了较广泛的应用。本文在已有研究的基础上,提出了一种基于时间拓展网络的知识发展路径识别方法,通过对相关文献关键词的提取、时间拓展网络的构建、最短路径的识别、接近中心性计算及网络中节点相对重要性的划分等步骤,确定知识发展的主要路径。

本文以信息管理领域的24个期刊在1979—2018年发表的文献为样本,并以10年为一个间距划分为4个阶段,进行知识挖掘研究。数据的初步统计分析发现,信息管理领域研究规模逐步增加,近十年来趋于稳定,发文量的变化趋势表明,改革开放40年来我国在信息管理领域知识创造中的作用显著增强,国际影响力显著提升。在知识发现过程中,管理、信息系统、创新、设计与实施形成了信息管理领域知识发展的主要路径,彼此之间又通过技术、模型与方法、扩散、知识等内容相关联,从而形成了信息管理研究的知识网络。通过与聚类方法比较,本文提出的方法能够更好地展示知识发展的主线,以及不同主线的重要性,但知识发现过程比聚类方法相对复杂。

本文的研究也存在一定的局限性。第一,基于时间拓展网络的主要是关键词网络,并未对文献内的知识元素进行深入挖掘;第二,本文构建的时间拓展网络以最短知识发展路径为基础,能够准确地筛选出知识发展的主线,但仅选取节点接近中心性作为路径重要性的评价依据,评价维度相对单一,可能会忽略其他的重要路径,因此在后续研究中会进一步补充其他评价性指标,完善知识发展路径的确定过程;第三,本文选取的样本仅为信息管理领域,其阶段特征比较明显,所以基于时间拓展网络的方法能够筛选出主要的知识发展路径,在其他领域的有效性仍需进一步验证。

猜你喜欢
信息管理信息系统领域
企业信息系统安全防护
哈尔滨轴承(2022年1期)2022-05-23 13:13:18
造价信息管理在海外投标中的应用探讨
评《现代物流信息管理与技术》(书评)
领域·对峙
青年生活(2019年23期)2019-09-10 12:55:43
基于区块链的通航维护信息系统研究
电子制作(2018年11期)2018-08-04 03:25:54
信息系统审计中计算机审计的应用
消费导刊(2017年20期)2018-01-03 06:26:40
在高速公路信息管理中如何做好QC小组活动
基于SG-I6000的信息系统运检自动化诊断实践
新常态下推动多层次多领域依法治理初探
肯定与质疑:“慕课”在基础教育领域的应用