基于题录信息分析的期刊数据研究
——以《情报学报》为例

2018-05-15 01:27■车
中国科技期刊研究 2018年4期
关键词:题录情报学题名

■车 尧 宋 扬 李 兵

1)中国科学技术信息研究所,北京市海淀区复兴路15号 1000382)《情报学报》编辑部,北京市西城区三里河路54号 1000453)科学技术部科技人才交流开发服务中心,北京市西城区三里河路54号 100045

科技期刊编辑部不应只满足于完成期刊稿件的日常处理任务,还应利用编辑部独有的数据资源,定期或不定期地对某一时域内的稿件情况进行统计,从数据中查找期刊存在的问题,及时调整并跟进。同时适时发布数据分析结果,更好地服务于作者和读者,使其能够及时了解期刊的阶段性动态。

随着期刊全文数据库的普及和信息处理技术的进步,文献题录已成为描述文献特征的重要元数据。通过计算机技术和计量方法对一定学科领域内的题录数据进行处理与分析,可揭示文献集合内外部特征并延伸挖掘出学科研究结构与发展动态[1]。

在已有研究中,学者们大多是对某一领域内的期刊数据进行题名分析,以判断期刊载文阶段性研究热点。如孙静等[3]对22种学报类期刊文献的题录信息进行演化分析,找到两大医学研究热点;冯明东等[4]以《中文核心期刊要目总览》图书情报类期刊为数据源,从万方数据库和中国知网获取数据,运用文献计量学方法,识别出近年来应用于情报学领域的学科热点研究;刘潇钖等[5]以药学领域的论文为研究对象,在Web of Science(WoS)数据库中获取数据,分析得出14个药学研究的前沿领域。这些研究均从某个领域出发,研究该领域的学科热点,但少有学者以某种期刊作为切入点,以文献题录数据为依托,对某种期刊的文本内容进行全面深入的知识挖掘。

1 研究方法

目前,题录信息分析可采用的软件大致分为基于统计、基于文献计量、基于社会网络和基于PubMed的4类分析工具[6]。其中,以分析外文数据库信息的软件居多,如Bibexcel、SciMAT、Histcite、Citespace等,而能够分析国内数据库的软件目前只有SATI和Bicomb,可用来构建各种类型的关系矩阵,但都需要其他工具进行可视化转化。鉴于此,本研究通过编辑VBA宏程序,对《情报学报》期刊题录信息进行批量抽取,使用Excel自带的数据分析工具进行可视化操作,实现对国内数据库题录信息的提取与分析,过程简单,易于操作,为期刊编辑人员及相关从业者提供分析期刊文献内容和研判期刊整体发展动态的思路和范例。

期刊的题录信息几乎涵盖可以反映期刊属性特征的全部要素,如论文题名、作者、关键词、文摘、分类号等。然而,不同数据库批量下载的期刊题录的格式、内容不尽相同,需要对题录信息进行格式归一并清洗数据。数据量虽多,但具备基本的格式体例,因而可通过手工编写VBA程序后,对其实现自动批量抽取,在此基础上,利用Excel即可将所抽取的数据进行二次操作,从而分别得到文章题名、作者、关键词、机构等信息的分布情况。

2 数据获取和预处理

2.1 获得原始题录

期刊文献服务工作中,需要了解相关领域的核心研究机构、核心作者和核心文献源等信息。这需要对大量文献的相应字段内容按频次进行统计,进而根据文献计量学理论确定相应的核心字段内容[7]。

2017年5月24日,笔者利用维普数据进行检索,时间限定为“2012—2016年”,检索条件“J=刊名”为“情报学报”,共计检索获得题录758条,清洗“通知”“卷首语”等非文章类条目后,得到671条。在题录下载自定义输出时点选“题名”“作者”“机构”“关键词”4个选项,每个题录均包含这些字段信息,前3条题录信息下载后的原始状态如图1所示。

图1 Excel下的原始题录数据

2.2 加工处理题录信息

2.2.1 不同关键字段的批量抽取

亲爱的编辑,我一直有个心结,就是我的父母重男轻女,可能这样说比较夸张,但是很多细节都让我心里很不舒服,真的很希望得到公平的爱。

利用VBA自编程序,将“题名”“作者”“机构”“关键词”等字段进行逐行提取,宏程序语句见图2,提取的前10条结果如图3所示。图3中A、B、C、D 4列分别存放提取后的“题名”“作者”“机构”“关键词”4个字段的数据。

图2 抽取原始题录字段的VBA宏程序

图3 执行切分程序后的数据分布

2.2.2 同一字段下题录信息的自动分割

VBA宏程序语句见图4,分别针对提取后的各列字段实施自动拆分,在数据拆分基础上进行统计分析。图5所示为运行split宏程序后所得题录中“作者”字段的运行结果(由于篇幅所限仅显示前10篇的作者分布)。

利用VBA自编宏程序,题录中的其他字段项均可实现同时自动抽取,并形成可以被多次批量运算的格式化数据,从而实现不同的分析需求。

图4 针对B列“作者”字段的split语句

3 2012—2016年《情报学报》数据统计分析

3.1 题名分析

2012—2016年《情报学报》共计刊载文章671篇,年度载文量情况见表1。由表1可知,2013—2016这4年间的载文量相对稳定,2012年的载文量明显高于这4年的平均值。

图6 按作者加权系数排名的作者分布(前30位)

图5 运行split宏后的“作者”拆分结果

年份20122013201420152016刊载篇数/篇152137129130131

利用Excel数据透视表功能在“搜索”对话框中输入“题”,则可将所有题名项独立列出,再通过人工筛选进行数据分析,发现题名中年度平均出现次数超过3次的词汇及次数分别为:基于(325次)、网络(123次)、模型(82次)、为例(47次)、专利(45次)、语义(43次)、微博(33次)、本体(23次)、术语(23次)、合作(23次)、期刊(22次)、综述(20次)、舆情(17次)、计量(15次)及可视化(14次),据此基本可以辨析关键技术及研究热点。

“基于”在题名中的出现频次最高,占比高达48.4%,客观反映了近5年《情报学报》所刊载文章研究主题的研究过程、方法等普遍具有极强的条件化特征,研究前提通常是建立在特定的对象、技术、背景或情境上。另外,“网络”占比达18.3%,大部分题名的“网络”一词集中于“社交网络”和“科研合作网络”,表明研究对象,其余关键词“网络”则多数指代“社会网络分析”,表明研究采用社会网络分析方法。题名中“专利”和“语义”占比均为6%,说明专利分析及自然语言处理的研究成果也占据相当分量。由此可见,该时域范围内期刊载文趋势倾向于具有极强条件化特征和网络相关主题的文章。

3.2 作者分析

2012—2016年《情报学报》所发表的671篇文章中署名作者共计1782人,其中独立作者共计86人,署名1次的作者共计882人,署名2次的作者有203人,署名4~7次的作者共计74人,年均署名超过1次的作者有33人。

单纯统计作者的署名次数很难反映作者的整体贡献情况,因此还需要对作者进行加权统计分析,作者加权统计是指如果一篇论文包含多位作者,在考虑所有作者基础上,根据其对论文的贡献分配一定的权重,然后进行统计[8-9]。加权系数排名前30的作者分布情况见图6。从作者统计的角度看,此时域范围内期刊发文作者大多为情报学领域专家,其中也不乏领域内青年学者。

σ=x1V1+x2V2+…+xjVj,

(1)

3.3 关键词分析

利用VBA程序分割题录中的“关键词”字段数据,并对分割结果进行人工清理后,共得到2268个关键词,可以判断每篇文章的平均关键词数为3.38个。图7所示为可视化处理后的高频词汇,词频排在前10位的有情报学、社会网络分析、竞争情报、复杂网络、知识网络、微博、信息检索、共词分析、数据挖掘、知识图谱等。对比题名分析结果,与之重叠的高频关键词有网络、语义、模型、微博、本体、计量、舆情等,而情报学、文献、知识、科技报告、竞争情报等仅为高频关键词而非高频题名词。从关键词分析看,期刊在此时域内载文关键词倾向情报学、网络相关的社会网络分析、复杂网络、知识网络等,与期刊载文题名趋势一致。

图7 关键词高频词汇的可视化提取

3.4 机构分析

从题录信息中的“机构”字段数据中,共挖掘到490个作者所在机构,其中仅出现1次的机构有345个;671篇刊载文章中,由独立作者机构贡献的论文为328篇,机构合作贡献343篇,二者几乎平分秋色。其中,作者机构中出现最多的是中国科学技术信息研究所,共计66次,其中21次出现在第一作者单位与其他机构作者合作发表的论文中。以中国科学技术信息研究所为第一单位,与之合著论文次数最多的机构是武汉大学(7次),其次为南京大学(4次)、北京工业大学(2次),其余各机构合作次数均为1次,合作关系见图8。

图8 第一作者单位为中国科学技术信息研究所的机构合作情况

通过聚类分析可以判断,围绕中国科学技术信息研究所的合著机构网络分为3类:第一类即“#0”以南京大学、北京工业大学、中国人民大学等为核心,合著主题主要集中在分析模型、大数据、知识组织等方面;第二类“#1”以武汉大学为核心,合著主题为翻译优化、跨语言信息检索、专利引用网络等方面;第三类“#2”则以河海大学为核心,合著主题为分析模型,但更侧重于聚类算法、主题分析等。

4 结论

本研究为期刊从业人员提供了期刊数据的研究方法和总体思路,从而间接提升编辑部组稿约稿及审稿工作的计划性和科学性,同时为广大读者及作者群提供期刊选题的主要研究领域、阶段性研究趋势、主体研究人员及机构等重要学科信息。

本研究主要对题录信息中的题名、作者、关键词、机构4个字段的题录信息进行提取和分析,分析结果如下。

(1) 根据题名分析,可发现约半数作者倾向于将关键技术、理论和研究主题直接展现在题目中,约18.4%的作者倾向于研究社交网络或使用社会网络分析方法。该时域范围内期刊载文趋势倾向于具有极强条件化特征和网络相关主题的文章。

(2) 作者分析统计得出署名1次的作者人数约为所有署名作者人数的一半,占比为49.5%,并分析得出5年间作者权重最高的前30位作者,其中前5位分别为贺德方、李纲、陆伟、唐晓波和曾建勋。发文作者以该领域专家为主,逐渐出现青年学者。

(3) 关键词排名靠前的是情报学、社会网络分析、竞争情报、复杂网络、知识网络、微博、信息检索、共词分析、数据挖掘等,且部分高频关键词与高频题名词汇存在重叠,这部分是该刊的研究热点之一。投稿作者可关注并在写作过程中把握选题方向,期刊编辑人员可通过阶段性分析判断期刊研究热点是否发生偏移,是否已偏离期刊主题。此时域内期刊载文关键词倾向情报学、网络相关的社会网络分析、复杂网络、知识网络等,该趋势与期刊载文题名趋势一致。

(4) 机构分析中,作者独立机构贡献文章数量和机构合作贡献文章数量各占一半,中国科学技术信息研究所是机构合作中贡献次数最多的机构。

笔者对《情报学报》从2012年起5年内发表全部论文的题录进行分析,得出该期刊载文总体分布情况,既可反映出期刊自身特征属性,又可为作者和读者了解期刊主题等信息提供直观数据参考,同时也为期刊主管主办单位及时提供期刊阶段性选题特征,为提升期刊质量、提高期刊影响力和学术水平提供数据支撑。

[1] 刘启元,叶鹰. 文献题录信息挖掘技术方法及其软件SATI的实现以中外图书情报学为例[J]. 信息资源管理学报,2012(1):50-58.

[2] 许静. 关于科技管理期刊内容趋同的思考[J]. 编辑学报,2010,22(4):347-349.

[3] 孙静,程齐凯,张雯,等. 基于NEViewer的医学科研主题演化可视化分析[J]. 中华医学图书情报杂志,2014,23(10):56-60.

[4] 冯明东,李晓菲. 我国情报学核心期刊载文的跨学科方法使用法调查分析[J]. 情报杂志,2014(1):58-61.

[5] 刘潇钖,代涛,贾晓峰,等. 基于文献计量学的药学前沿领域研究[J]. 中国药业,2014,23(23):1-3.

[6] 李艳,张悦,曾可,等. 文献信息分析工具的比较[J]. 中华医学图书情报杂志,2015(11):41-47.

[7] 霍敏,徐永红,李碧清. 专题文献题录数据统计分析软件的设计与应用[J]. 图书情报工作,2008(S2):227-229.

[8] 祝清松. 我国自然语言处理研究的文献计量分析[J]. 情报杂志,2009,28(12):32-34.

[9] 化柏林. 用VBA剖析文献计量分析研究中的统计分析技术[J]. 现代图书情报技术,2007(4):70-74.

猜你喜欢
题录情报学题名
开放与融合:公安情报学进入情报学方式研究*
基于关系数据库的报纸题录数据结构研究
栖凤阁题名记
构建中国特色的情报学
第二届“常山杯”观赏石珍品展展品选登
国内图书馆情报学的发展现状与趋势探索
基于NCBI开放接口的检索和下载文献题录信息功能的实现
卷首语
NoteExpress 在撰写文章综述时的技巧解析
佳石选赏