陆浩 孙星恺 刘文礼 赵学亮 王飞跃
1.中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京100190 2.国防科技大学军事计算实验与平行系统技术研究中心湖南长沙410073
互联网和信息技术的迅猛发展,带来情报数据几何倍数式的增长,使得情报的发展在经历了一战前的人员情报(Human Intelligence,HI),二战期间的信号情报(Signal Intelligence,SI)和冷战前后的图像情报(Image Intelligence,II)后,来到当今的开源情报(Open Source Intelligence,OSI)时代[1].在网络时代的大数据洪流冲击下,开源情报呈现出动态性、海量性和多源异构等特性,如何利用离散分布的开源情报进行知识获取、传播、创造、利用,并在知识的产生方式上实现变革[2−3],逐渐成为当今世界各国政府部门、安全部门、科研机构与商业组织重点关注的课题.当前,科研机构和学术组织常常利用公开的期刊数据、图书馆库、文摘数据库等数据资源来分析各自所关注的领域.互联网公开数据源不断增加,为开源情报在科技情报分析领域进行大数据解析提供了充足的数据土壤.而利用开源数据,系统地对国内情报学研究状况进行解析,能够快速掌握领域态势的定量依据,以数据说话,为科研人员和机构制定并调整研究动向,以及与领域关键人员机构建立合作提供有效的支撑.
近年来,国内情报学者利用公开数据对本学科的热点探索研究做了许多重要的工作.南开大学王芳教授等利用《情报学报》1999年∼2008年的数据进行了计量分析[4],然而数据相对单一.武汉大学邱均平教授[5]利用内容分析法原理是对文献内容所含信息量及其变化进行分析,从而达到对文献内容进行可再现的、有效的推断.南京理工大学王曰芬博士[6]对文献计量法与内容分析法的综合研究进行了探讨,从定性和定量相结合的角度分析情报学科发展变化趋势.随后有学者使用社会网络分析法在作者合作、关键词共现、共引等方面进行了研究.近几年,由于科学知识图谱能够很好地显示科学知识的发展进程与结构关系,知识图谱与数据可视化在情报学研究中的应用逐渐增多[7−8].面对开源情报的大数据时代,化柏林教授[9]等提出如何把繁杂的大数据进行合理的分析,认为“大数据更需要清洗”.在网络海量信息环境下,情报研究的方法体系面临新的挑战[10].同时,情报学领域研究的方法众多,需要特定的方法体系在开源情报的环境下快速集成,从多维角度综合反映领域研究状况的宏观、微观原貌.2012年,王飞跃提出了知识产生方式和科技决策支持的重大变革—–面向大数据和开源信息的科技态势解析与决策服务[3],提供了集快速获取文献数据并支持半自动化的从多维角度进行文献解析的框架,其中,该框架包含了ASKE(Application Specific Knowledge Engine)[11]与科研协作[12]等采集、解析方法与框架.该框架已成功地系统[11]应用于在智能交通领域的学科动态分析中[13],为该领域科研人员提供良好的交互服务.
本文基于ASKE方法框架,提出了“面向情报领域的知识解析引擎”,对情报领域的研究人员,研究机构及研究热点进行解析,如图1所示.本文在第3节分析了数据源及基本解析结果,第4节对情报学科领域近5年的研究状况进行了实验,分析了国内情报学研究的热点及潜在的研究热点.
图1 情报学研究信息聚集镜
基于ASKE方法框架融合了智能数据采集、领域本体、数据解析、数据存储库及数据可视化5大主体部分(如图2所示),可以对特定领域的开源情报进行系统有效的采集与统一化的处理,并融合多种情报分析方法对采集数据进行多维度的解析,形成相关领域包括关键人物与机构产出、研究热点与趋势、合作网络、引文统计等多类解析结果.本文基于ASKE方法框架进行数据采集方法、数据解析及可视化方面的改良与完善,提出了“面向情报领域的知识解析引擎”框架,分为5个主要的模块:数据获取模块,数据储存库,领域本体,数据分析模块,数据可视化模块.
数据获取模块的基本思路是创造一系列的网络爬虫,它们可以从异构数据源中收集数据,建立语义数据存储库,并使用一个知识配置文件(Knowledge Configure File,KCF)来指定主题,关键字,搜索序列和时间表查询处理.通过聚焦爬虫、深度网采集、动态网采集、数据过滤等技术有效地获取领域书籍、期刊、文献、会议、专利等全方位的开源情报.
数据库由两层(底层与上层)数据库组成.底层数据库存储那些由数据采集程序获取的原始数据,上层数据库存储那些由系统通过领域本体与数据处理抽取的更具体的领域相关数据信息.高层数据库主要包括:①领域期刊相关信息;②领域基础知识(文章关键词、核心作者、机构等);③通过网络分析等形成的作者、机构合作网络关系、研究热点等;④通过引文数据分析获得的相关引用数据.
领域本体(Domain-specific Ontology)就是对学科概念的一种描述,可以表示某一特定领域范围内的特定知识.由于知识具有显著的领域特性,所以领域本体能够更为合理而有效地进行知识的表示.这里的“领域”是根据本体构建者的需求来确立的,它可以是一个学科领域,可以是某几个领域的一种结合,也可以是一个领域中的一个小范围.为了构建领域本体,需要识别出本学科领域与研究主题相关的概念,我们从领域相关文献或出版物等多种不同的领域知识中抽取那些出现频率比较高的学科关键词,然后再通过人工过滤的方式构建出一定量的领域本体知识.
数据分析模块对获取的开源情报进行深度解析及挖掘,构建相关领域人物、组织、机构的复杂网络,分析挖掘其核心群体、关键人物,依照时空多维度分析科技传播态势,构建全方位的情报分析指标体系.常用的文献情报分析方法包括文献计量法、社会网络分析方法与内容分析法.通过用户需要获取内容,我们使用特定的分析方法来分析相关领域数据,比如通过关键词分析获取领域研究热点,通过热点的分布获知领域研究趋势,通过作者分析获取领域关键人物等.
数据可视化模块对分析结果的可视化采用图表与知识图谱相结合的方式,根据不同的结果展示需要选择相应的算法生成具体的矩阵、关系等文件,再通过调用可视化工具生成相应的知识图谱,进而更好地揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考.目前用于知识图谱分析的主流工具包括CiteSpace、VOSviewer与Pajek,它们各具特色.本文根据生成图效果选用相应工具分别构建情报学关键词与作者、机构等图谱.
图2 面向情报领域的知识解析引擎框架
本文选取的文献信息数据是使用ASKE框架的数据获取方法,在有效定义相关网络数据源后进行自动采集的相关文献基础数据信息.情报学文献采用2012年北大中文核心期刊定义的19种中文期刊近5年的情报学相关的文章.其中《情报学报》文章从万方数据库中采集,其余18种期刊的文章从CNKI中采集获得,数据采集结果如表1所示.
数据包含2008年至2012年5年间19本期刊文献14914篇,通过ASKE采集程序采集,经过数据清洗,过滤掉非研究类文章获得12458篇文章.由于本文主要关注情报学,在这些文章中再通过中国图书分类号,筛选出分类号为G35(情报学)的相关文章共计2013篇.然后进一步采集这2013篇文章的引文数据13958条.
对作者合作网络的实证分析可对当前情报学等领域的合作模式进行直观了解.本文使用作者共现方法对文章作者合作关系进行统计分析,生成相应共现矩阵并进行合作关系可视化展示.首先对论文的作者与机构信息进行规范化处理,根据相关信息中作者的机构标号进行作者与机构的对应.通过上述方法在2013篇论文中抽取有效作者2704个.其中,有61.8%的文章有两个及以上的作者.然后计算作者的共现矩阵,共抽取有效合作关系3159对,形成近5年国内情报文章的作者合作网络图谱,如图3所示.图中共包含2704个节点,节点的大小由作者发文量及合作关系数共同决定.两个节点的距离越近,说明他们的合作关系越紧密.同颜色的节点表明这些作者合作关系较多,为一个聚群,有可能来自同一个机构.
由图3可以看出,当前国内在情报领域较为活跃的研究者,其中最大的连通合作群体包含620个作者,其中较为明显的研究群体代表节点作者有邱均平、郑彦宁、王知津、苏新宁、裘江南、朱庆华、冷伏海、方安、林鸿飞等,且邱郑群体与王知津、苏新宁、裘江南与朱庆华等之间的合作关系较为密切,这些作者在合作网络图中处于核心位置.从整体上看,国内本领域的作者合作已经形成了一定的规模,最大合作群体包含的作者占到了总作者数的将近1/4.
表1 国内情报学科近5年核心期刊文献数据
图3 国内情报学科作者合作网络图
我们对每个作者的发文量、APS指数以及合作网络参数(度、中介性)进行了统计与计算,根据发文量列出前十位研究者,如表2所示.
从发文量来看,前十位研究者的发文量都在15篇以上,其中前三位研究者的发文量在30篇以上.同时,对他们的第一作者发文量进行统计,邱均平、王知津的第一作者发文量占其总发文量的90%以上,体现出其在情报领域的研究中处于相对比较活跃的状态.从作者所在机构看,武汉大学与南开大学各有3位,体现出两家机构在情报学领域拥有的核心人物相较其他机构要多.从APS指数与发文量的比较来看,苏新宁、马费成、杨思洛与邱均平的文章合作作者相对较少或独立发文量较多,其对文章的贡献相对较大.合作参数我们主要统计了两个参数:度与中介性.从度来看,前三位作者以及冷伏海、马费成度相对较高,相较其他作者有较高的合作关系数.从中介性来看,郑彦宁的中介度最高,远远超出其他作者,说明其在合作网络中的作用和影响力最大,起着最为核心的地位.其次是邱均平与冷伏海.
此外,通过对每位作者历年的文章数统计可以发现,前十位作者中韩正彪的22篇文章与周鹏的16文章分别有21篇与15篇是在2011年与2012年发表,且两人均为2010届南开大学在读博士,属于近两年在情报学领域较为活跃的年轻研究人员.其他作者5年内的年发文量相对比较平均,尤其前三位作者2011年与2012年每年的文章数都在10篇以上,体现出他们在情报学领域依旧保持着较高的研究热情与产出水平.
对2103篇文章引文数据进行采集,共获取13958条相关数据,然后对其进行处理后,从中抽取相关引用文献、书籍、作者与期刊,得到高引文章和作者的前十名,如表3.
表2 国内情报学科关键作者
表3 近两年国内情报学科引用文章数量排名
引用次数前十名文章中,有6篇外文文献,4篇中文文献.从文章所研究内容来看,h指数及其衍生指数相关文献就有5篇,作者共引研究有2篇,而其他3篇中文章分别是对共词分析、期刊评价体系与人际情报网络的综述性文章.引用次数最高的是“An index to quantify an individual0s scientific research output”,其引用次数高达58次.
对引文文献的作者进行统计排名,引用文献中作者引用次数排名前五见表4:
表4 国内情报学科文章引用人物前五名
从表4可以看出,引文次数最多的作者是来自武汉大学的邱均平,高达182次;其次是南开大学的王知津,也有107次的被引次数.前五名引用最高的作者有两名来自武汉大学,体现出其在国内情报学领域的强大实力.
论文关键词作为文章内容的浓缩与提炼,对其分布频次和特征进行统计分析可以把握研究领域的总体特征、发展脉络与领域研究热点.在对关键词出现频次进行统计之外,我们使用关键词共现分析法进行分析,其思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的关键词在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明关系越密切、距离越近[14].
我们共抽取有效关键词4236个,为了便于通过可视化工具显示,过滤掉只出现一次的关键词后共得到974个关键词.然后对于每一对关键词,我们计算它们在一篇文章中同时出现的次数.基于共现矩阵,我们利用VOSviewer构建一个关键词图谱见图4.
图4这个词谱图中974个关键词的定位是由它们任意两个词之间的距离来确定,词间距反映了词之间的关联程度.词的颜色用来指示词的聚群或聚类.从图4可以看出,近5年国内情报领域的研究中“情报学”、“竞争情报”、“引文分析”、“信息检索”、“社会网络分析”、“文献计量”等几个点相对研究较多.其中“引文分析”、“文献计量”、“社会网络分析”、“复杂网络”等关系较为紧密,体现出当今情报领域的研究较为重视情报分析的相关工作.重点围绕文献计量、引文分析与社会网络分析.采用这些情报分析方法在除了传统的图书情报之外,与竞争情报的关联度也说明有部分研究人员在竞争情报的分析工作中采用这些方法进行分析.
图4 国内情报学科关键字图谱
由于每篇文章标注的关键词即使对于同一个点也会略有不同,为了更准确地看出相关研究热点及其相关文章数等属性,我们再对文章关键词进行归一统计.例如,把“文献计量”、“文献计量学”、“文献计量分析”等表述同一研究点的关键词合为一个研究热点“文献计量”.然后把“文献计量”、“计量分析”等与计量有关的点合成一个研究点“计量”.根据研究热点的文章数进行排名取前十名见表5:
从表5可以看出,前十个研究热点中有4个研究点相关文章数都在100篇以上,其中计量相关研究的文章数最多,达到218篇,这其中很大一部分是关于文献计量相关理论、方法与应用.此外,“情报学理论与情报研究”与“竞争情报”研究篇数超过100篇.在前十个研究热点中,“计量”、“引文分析”、“可视化与知识图谱”、“社会网络”、“h指数”与“共词分析”这6个研究热点可以归属于情报分析,体现了当今国内研究人员近年来比较重视以上述主流方法对各类情报进行分析,从而对特定领域与范围内的期刊、人物或研究机构进行科学评价的工作.
为了更直观地看出这些研究点在近5年的研究趋势,我们对以上研究热点关键词在这5年中的相关文章数进行统计,从中可以看出它们的研究文章变化趋势,见图5.
通过图5可以看出,研究热点的相关文章数整体呈现逐年递增的趋势,尤其是“社会网络”发文量的增长趋势较为明显,年增长率最快,由2008年的3篇增长到2012年的37篇.此外,“可视化与知识图谱”文章数由2008年的6篇增长到2012年的36篇,由此可见,最近几年文献情报分析中应用社会网络分析法对相关关键词共现、作者合作等方面的研究得到较多的关注.可视化相关理论与方法及相关工具在文献计量分析中生成相应的知识图谱也在近两年的研究中增速明显.
表5 国内情报学科研究热点
图5 国内情报学科研究热点文章数年份变化
除了使用高频词聚类分析找出情报领域的研究热点之外,我们通过对突发词进行监测寻找潜在的研究热点.突发词监测与高频词分析不同,前者主要是从关注词自身的发展变化出发,关注单个词发展的阶段性,而后者主要是对领域中各个词的增长势头进行比较[15].我们对所有文章关键词相关文章数分年进行统计.通过机器过滤加人工挑选相结合的方法,挑选出年发表文章增速较为明显的6个文章关键词(突发词)作为潜在研究热点,其历年文章数及总数见表6.
由表6可以看出,这几个研究点都是在2008年至2010年没有相关文章或只有1∼3篇,而在2011年与2012年两年的发文量在10篇及以上.其中“网络舆情/开源情报”的增速较为明显,从2008年没有相关文章到2012年18篇相关文章,表明越来越多的人开始关注开源情报的价值.此外,由于隐性知识在知识经济时代成为人们参与竞争的重要资源,对隐性知识的挖掘以及合理转化为能被人们掌握、利用的有用知识是成为研究者近两年开始关注的热点.
我们选取“网络舆情/开源情报”进行统计分析,关键词涉及网络舆情的文章有32篇,对文章关键词、作者与机构进行处理与抽取,共获取关键词92个,作者62个与机构22个.对关键词进行关联矩阵计算并生成相关研究点分布见图6:
由图6可以看出,网络舆情/开源情报相关研究点包括话题挖掘、热点发现、文献分析、自动标引、知识图谱、网络情绪、突发异常、预警、信息采集与微博客.相比以往的研究,随着微博作为日益重要的舆情来源,已经有部分学者在近两年开展相关的研究,主要围绕对微博中的舆情信息进行采集与分析,以及其作为重要的舆情来源对企业进行竞争情报的研究的影响等.此外,还有学者对潜在舆论话题识别、舆情演化、开源情报、情感分析、无标度网络等网络舆情相关点进行了研究.
本文针对情报学科领域科研动态的开源情报有效监测与挖掘问题,提出一种基于ASKE框架的“面向情报领域的知识解析引擎方法”,该方法可以有效地对多源异构的学科领域专业文献情报进行采集与处理,并集成多种情报分析方法对领域核心人物机构、研究热点进行解析,并通过近5年国内情报学文献进行了实验验证.
表6 国内情报学科潜在研究热点
图6 网络舆情/开源情报相关研究点分布
“面向情报领域的知识解析引擎方法”实现了面向大数据的开源科技情报获取与解析方法的有效集成,提供灵活的可扩展性与配置,可适用于各个领域,以快速全面了解领域进展,实现专家、机构资料知识库的半自动构建,打通研究人员交流沟通的鸿沟.随着大数据海量般地不断增加,相信不久的将来,每个研究领域都需要依靠特定的深度精确的解析引擎系统来了解领域内科研态势并进行价值转化,实现各个领域知识获取、传播、创造、利用、产生的重大变革.