基于百度指数的科技期刊影响力大数据分析
——以《中华医学杂志》为例

2016-03-24 08:04■张
中国科技期刊研究 2016年7期

■张 凯

中南财经政法大学,信息与安全工程学院,武汉南湖大道182号 430073

大数据是新的技术革命,新的社会现象,也是新的冲击,它使期刊研究工作面临前所未有的挑战和机遇[1]。在这一新的历史条件和背景下,期刊的影响力,特别是在大众百姓中的影响力已成为众多期刊和学者都比较关心的新问题。各期刊迫切想了解其影响力有多大?读者人群有哪些人?人群在全国各地区怎样分布?男女比例多少?其影响力是上升还是下降?等等。另外,目前期刊研究工作者也比较关注大数据期刊研究新方法的探索,以及如何利用大数据计算机平台进行其研究。

1 国内外现状及问题

读者的需求、心态和看法对科技期刊质量的提高有较强的“驱动力”。早年的“读者来信”是编辑了解读者的重要途径[2],读者调查是另外一种方式[3],由此可以了解读者的需求[4]和心理活动[5],并通过调查建立起作者和读者的关系[6],读者问卷是读者调查的重要手段[7]。

“期刊大数据”方面的研究主要包括科技期刊的未来形态[8]、编辑的信息素养[9]、期刊出版方式[10]、期刊评价体系创新[11]等。 “知网” 检索尚未发现“大数据期刊影响力”的文献。

在“知网”检索“期刊影响力”的文献约1.2万条,其研究主要有期刊质量与期刊影响力[12]、期刊影响力评价指标体系[13]、国际影响力分析[14]、期刊影响力调查分析[15]等。

Tong Hey[16]在《第四范式:数据密集型科学发现》一书中指出,科学研究范式经历了四个阶段:经验科学、理论科学、计算科学和密集型数据科学。Jim Gray[17]提出:第四范式以数据为基础,结合实验、理论和计算机模拟为一体的数据密集计算。

综上,近年期刊读者调查,期刊影响力和期刊大数据方面的研究,均有学者涉足,但大数据期刊影响力方面调查和分析文献相对少见。从样本量大小看,大数据网络调查较传统读者调查和分析得到的结果更有说服力。如果能将第四范式理论框架用于期刊影响力研究,并结合密集数据处理技术和计算机数据处理技术,将有可能提出新的方法并得到新的结论。

与传统期刊影响力研究不同,本文试图提出一种如何利用(百度)大型网络计算节点进行大数据研究的方法,以及如何利用计算机网络进行期刊读者大数据调查的方法,并以有百年历史的、有一定代表意义的科技期刊《中华医学杂志》为例,借助百度指数[18]平台,通过大数据分析和挖掘,发现其中的规律和结论。

2 研究方法构建与设计

2.1 研究方法构建

21世纪初的人类基因组计划开创了大数据处理的先河,其流程包括采集、处理、存储、分析和解释。密集型数据处理过程[19]包括第一步大数据采集;第二步原始数据处理;第三步用软件工具进行数据计算;第四步数据挖掘;第五步数据可视化。

根据以上两个流程,笔者提出一种研究期刊大数据的流程,见图1。

图1 研究分析期刊大数据的流程

第一步,寻找并采集大数据。百度每天响应6亿用户超过60亿次的搜索请求,日处理数据超过100PB,相当于6000多个中国国家图书馆书籍信息总量。它是一个大数据仓库,可作为学术研究的数据源。百度大数据对期刊研究有四个的优势,即没有语言障碍,符合国情,对外开放和有免费工具。

第二步,寻找和准备大型计算平台。因体量大,类型多,生产、传输和处理速度快,潜在价值大等特点,大数据处理起来比较困难,因此,需要合适的大型硬件平台支持。大型计算平台有两种,一是网络节点(多台网络设备相连的汇聚点,配刀片服务器,海量存储和万兆交换机等),比如百度网络节点;二是大型超级计算机,比如“天河二号”。其使用有较大难度,需与专业人士合作。

第三步,大数据分析和挖掘,就是利用算法和软件从数据中挖掘有用的信息。百度可基本满足这一要求。如其能力不足,可辅助一些其他方法(如分形理论和灰色理论)和工具(如excel软件)。

第四步,数据可视化,是利用计算机图形方法直观显示复杂的计算数据。百度提供了一些可视化工具,如曲线、图谱、指数、热图、辐射图、流线图等,可满足要求。对其不足,可利用绘画板和Photoshop进行数字图像处理。

第五步,解释结果和撰写论文。

2.2 网络大数据调查与百度指数

百度平台不仅提供了一种大数据计算资源,也提供了一种大数据网络调查方法。

网络调查,即通过网络信息系统进行某一主题的调查。百度是国内最大的网民搜索系统。在目前大数据源不多的情况下,可以将其作为大数据源的选项之一。学者可利用这一免费资源。

指数是从研究对象中提取出的一种特征指标。百度指数是海量搜索行为在某一方面的特征量统计。“百度指数”是百度的一个子系统,可提供数据采集、存储、挖掘、分析和可视化服务,包括四个模块:①趋势研究。进行关键词搜索,提供搜索指数。②需求图谱。提供中心词搜索分布。③舆情洞察。提供媒体指数和十条顶级热门新闻。④人群画像。提供关键词访问人群的各省市分布,性别和年龄分布[18]。

其设计原理是:搜索关键词可以反映用户搜索前后的需求。百度用户上亿,每日搜索几十亿次,其大数据统计可从一个侧面反映出用户某个方面的“想法”。百度引擎筛选出的关键词是下一步搜索的来源词,按相关程度排序。搜索的关键词可反映用户搜索指数热度,其排序算法通过计算关键词所有相关词的搜索指数在指定时间窗口内的环比变化率排序得出。本文利用这一原理,研究网民搜索“中华医学杂志”关键词的需求,了解其变化趋势,人群、地域和年龄分布及关联性。

百度指数的使用方法是[18]:登录其首页,在搜索框内输入关键词,按一下“查看指数”按钮即可。

3 《中华医学杂志》的大数据分析

在“百度指数”中输入关键字“中华医学杂志”,可获得相关数据和可视化图形。下面进行“中华医学杂志”的词汇热度变化分析,搜索热度排名分析,搜索区域热图及排名分析,词汇热图及相关性分析,以及关键词热度比较分析。

3.1 词汇热度变化分析

表1是2011年1月1日至2015年12月20日“中华医学杂志”一词每周的搜索次数,共260周260个数。第一行第一列为第一周的百度搜索次数,第一行第二列为第二周的百度搜索次数,以此类推。图2为该词热度变化的趋势图,它可以由表1产生。

为了解“中华医学杂志”一词搜索热度趋势,现运用“均值灰生成方法”进行数据处理。灰色理论是小样本数据处理工具,其灰生成方法可以处理曲线段数据,用于其大致趋势分析。将260个数据分为2组,分别求出其平均值。在此笔者设计了一个计算公式(1):

其中j=1,2,n=260/2。 利用公式(1)计算表1可以得到y1=344.36和y2=252.35。

比较发现,y1>y2,且y1-y2=92.01。这说明“中华医学杂志”搜索次数总体呈下降趋势,且下降趋势明显。从百度指数300点(每周网民搜索的次数)下降至200点,这意味五年减少了约三分之一。

观察图3发现,曲线有若干个“最低点”,这段时间恰好为春节期间。同时还发现国庆节期间也有类似情况。元旦和劳动节期间有类似的情况,但不明显。为深入了解这种现象,特选取了有代表性的2012-2015年时期的图形,见图3。矩形标识了春节期间曲线段,椭圆标识了国庆节期间曲线段。

表1 每周搜索次数(2011年1月1日至2015年12月20日)

图2 词汇热度变化趋势图

图3 词汇热度变化局部分形相似图

近五年百度指数呈快速下降趋势,从每周300多点下降到每周200多点。这从一个侧面反映了“大众百姓”对《中华医学杂志》关注的减少,也反映其社会影响力的下降。

春节期间的休假对搜索次数影响最大,国庆节其次,劳动节和元旦的影响不明显。这说明搜索次数与节假日相关,且节假日越长,影响越大。每年元旦、春节、劳动节和国庆节期间搜索次数下降形成的曲线呈现分形特征,即相似性。

其分形相似性表现在两个方面:一是图形的相似性,即元旦、春节、劳动节和国庆节期间搜索次数下降形成的曲线形状相似,见图3。二是周期相似性。这里的周期性指“准”周期性,因为每年的春节时间不固定。因此几年的周期曲线不会完全重合,见图3的节假日周期。

产生分形相似性的原因是混沌吸引子的作用。这里的吸引子就是节假日人们内心休假放松力的驱动,导致周搜索量下降。当节假结束上班后,其周搜索又恢复正常。于是形成了上下起伏的波形。

3.2 搜索热度排名分析

图4显示了关键词在“百度知道”上相关提问、回答和浏览热度[18]。排名第一的是“中华医学杂志有哪些?”其搜索的热度最高,所占比例也最大,预览热度直线最长。“中华医学杂志是核心期刊吗?”排名第二,其预览热度直线长度次之,只有第一名的三分之一。从第三到第十名,其预览热度直线长度都较短。

图4 搜索关键词热度排名图

这里的热度词汇提问人群只有一类,即学者,这类人几乎占了全部。这说明关注《中华医学杂志》的不是普通大众百姓,而是医学专业的学者。他们搜索的目的是要了解《中华医学杂志》及系列杂志,中华医学杂志是否为核心期刊,属于哪个级别,是否容易投稿,怎么投稿,怎么订阅等问题。

3.3 搜索区域热图及排名分析

图5根据百度用户搜索数据,采用数据挖掘方法,对关键词的人群属性进行聚类分析,给出用户所属的省份、城市,及城市级别的分布及排名[18]。其中前十名的排序为北京、江苏、上海、广东、浙江、河南、四川、山东、湖北、天津。省市前十名排序反映了搜索人群的三个等级。第一级在北京,人数最多,也最关心该杂志,是江苏、上海、广东和浙江地区的三倍;第二级在江苏、广东、浙江和上海地区,即东南沿海地区,这几个地区的人群数差不多,其人群是四川、河南、山东、天津和湖北地区的两倍;第三级在河南、四川、山东、湖北和天津地区,即中部地区,这几个地区的人群数差不多。由东南向西北,关注人群逐步减少。男性占比72%,女性28%,男性是女性的2.6倍。其中30-39岁的最多,约52%;40-49岁的其次,约22%;20-29岁的再次,约占19%。20-49岁人占93%。

图5 搜索区域热图及排名

3.4 词汇热图及相关性分析

图6由综合计算关键词与相关词的相关程度,以及相关词自身的搜索需求大小得出。相关词距圆心的距离表示相关词与中心检索词的相关性强度,相关词自身大小表示相关词自身搜索指数大小[18]。“中华医学杂志”一词在热图中的圆直径最大,“中国知网”一词其次,“知网”一词再次,其他关联词的圆直径不大且大小差不多。

与“中华医学杂志”一词“强相关”的依次是“实用医学杂志”“中华医学会”“中华医学杂志官网”和“中华医学杂志英文版”4个词。与“中华医学杂志”一词“相关”的包括:“中国知网”“知网”“中医杂志”“中国医学杂志”“官网”“内科”“英文”“中国”“实用”“中华内科杂志”“中华心血管杂志”11个词。其他与“中华医学杂志”一词“弱相关”的9个词。

与“中华医学杂志”一词“强相关”的词只有4个,其数量偏少。“相关”的词11个也不多,“弱相关”的词9个,共24个。这从一个侧面反映“中华医学杂志”与其他词、概念或学科的“弱相关性”。

图6 词汇热图及相关性

“中国知网”和“知网”圆直径较大说明其被关注度高。《中华医学杂志》没有上中国知网,因此,在知网上查不到其刊登的文章,学者只好转向互联网上查询《中华医学杂志》,于是它与“知网”产生了关联,这也反映出学者在用“知网”查阅学术论文方面的需求和习惯,以及查阅《中华医学杂志》不便。进一步讨论见本节第五部分。除“中国知网”和“知网”之外,所有“强相关”“相关”和“弱相关”词的热度(圆的直径)都不大,这反映了相关词、概念或学科的影响力不大。

“中华医学杂志”一词与所有相关词的距离不很贴近说明“中华医学杂志”与所有相关词的相关性不强,或准确地说有点偏弱。这说明《中华医学杂志》与其他学科关联度低,相对独立。

3.5 关键词热度比较分析

在百度指数中输入“中华医学杂志”“中国知网”和“知网”3个关键词比较检索可以得到图7。在2015年12月30天内《中华医学杂志》周搜索次数整体同比和环比均下降2%。这与本节第一部分的结论一致。通过计算可知,“中国知网”和“知网”热词周搜索次数分别是《中华医学杂志》的171和113倍,反之它只是其他二者周搜索的0.58%和0.88%。“中国知网”和“知网”合计周搜索71201次,而《中华医学杂志》仅为251次,二者合计是它的284倍。

《中华医学杂志》每周搜索次数整体同比和环比均呈下降趋势,与此同时,“中国知网”和“知网”每周搜索次数整体同比和环比均呈上升趋势,并且“中国知网”和“知网”合计周搜索次数是《中华医学杂志》的近300倍。这说明(中国)知网在网民中的影响力呈上升趋势,而《中华医学杂志》的影响力呈下降趋势,前者的影响力是后者的近300倍。

图7 关键词热度比较

4 结论与讨论

4.1 百度指数与期刊社会影响力关系讨论

信息搜索是网民对某一关键词信息需要的行为操作,这种操作反映了其行为需求意向。百度引擎是一个信息搜索平台,百度指数是对海量搜索行为的一种数据统计。百度每日搜索量达几十亿次,经长期日积月累,网民搜索行为的大数据统计可从一个侧面反映出网民某个方面的“人群意向”。百度指数通过对这个关键词搜索量的统计,即可了解该关键词在大众中的影响力。如果将某个科技期刊名作为关键词,就可以通过百度指数了解这个期刊的社会影响力。本文正是基于这一想法,将百度指数与期刊的社会影响力关联起来,借助百度指数展开科技期刊影响力的研究。

4.2 建议

如前所述,中国“知网”的百度指数是《中华医学杂志》的284倍,而且前者的百度指数还在上升,后者则在快速下降。在此笔者友善提醒《中华医学杂志》应认真思考其原因。据了解,《中华医学杂志》的论文在2006年以前曾经上过“知网”,后来退出“知网”改由自己的网站公开刊登论文,任由用户查看。当然这是非常开明的举措,但遗憾的是近年《中华医学杂志》在网民中的影响力下降,而这又是《中华医学杂志》不愿意看到的。因此,笔者建议《中华医学杂志》在自己网站刊登论文的同时,也不妨将其论文上“知网”,借助“知网”进一步扩大其影响,同时方便学者多渠道查阅其论文。

4.3 不足与展望

(1)数据源不足。本研究数据仅来源于百度,过于单一。但百度搜索统计的样本量较大,在数十亿之上,从某个角度看,本研究结果可信。

(2)尽管百度指数取自于百度大数据源,但针对《中华医学杂志》搜索获得的数据量有限,只有200-300次,关注它的人群数量不大,因此分形相似比统计无法求出。

(3)百度指数只给出了四种可视化结果,对其研究的不同侧面数量偏少,且主要是国内数据。因此,得到的结论只是国内大数据分析得到的结果。

下一步将针对其不足展开研究。

[1]吴锋.“大数据时代”科技期刊的出版革命及面临挑战[J].出版发行研究,2013(8):66-70.

[2]杨颖,钱寿初,游苏宁.中外医学期刊《读者来信》栏目现状的分析与思考[J].编辑学报,2007(3):209-211.

[3]侯春梅,迟秀丽,朱晓文.为我国学术期刊质量建设建言——一份学术期刊读者调查报告解析[J].出版广角,2008(5):21-24.

[4]李伟,关卫屏,游苏宁,等.医学期刊读者阅读需求调查分析[J].中国科技期刊研究, 2012(3):419-422.

[5]亓国,张宜军,马迎杰,等.读者对科技期刊传播的心理需求及启示[J].中国科技期刊研究,2015,26(1):23-26.

[6]程杰,诸静英,杨美琴,等.医学科技期刊作者与读者调查[J].中国科技期刊研究,2013,24(5):992-994.

[7]曹娟.学术期刊读者调查问卷的设计与调查方法分析[J].传播与版权,2015(10):49-51,53.

[8]田丁.大数据时代科技期刊的未来形态[J].中国科技期刊研究,2014,25(2):232-236.

[9]彭远红,孙怡铭.简论大数据时代科技期刊编辑的信息素养[J].科技与出版,2014(3):85-87.

[10]赵文义.学术期刊大数据出版研究[J].出版发行研究,2016(3):50-52.

[11]庞达.大数据时代学术期刊评价体系创新研究[J].新闻研究导刊,2016(3):16-17.

[12]程郁缀,刘曙光.论文质量、期刊质量与期刊影响力[J].陕西师范大学学报(哲学社会科学版),2010(5):64-69.

[13]张积玉.学术期刊影响力及其评价指标体系的构建[J].陕西师范大学学报(哲学社会科学版),2010(5):70-76.

[14]刘筱敏,马娜.中国科协科技期刊国际影响力分析[J].中国科技期刊研究,2014,25(3):335-339.

[15]金鑫,李雪娇,吴靖.中文OA期刊影响力调查分析[J].出版发行研究,2012(10):74-78.

[16]Tony Hey,Stewart Tansley, Kristin Tolle.The fourth paradigm[M].Washington: M icrosoft Press, 2009.

[17]Gray J, Hey T, Tansley S, et al.Jim Gray on eScience: A Transformed Scientific Method [M].Washington: Microsoft Press,2007.

[18]http://index.baidu.com[OL],百度指数.

[19]宫学庆,金澈清,王晓玲,等.数据密集型科学与工程:需求与挑战[J].计算机学报,2012(8):1563-1576.