基于EXCEL及CNKI题录文件实现对文献主题的计量分析

2012-04-29 00:44邹姝阳邹益民
现代情报 2012年2期
关键词:题录计量论文

邹姝阳 邹益民

〔摘 要〕给出一种利用EXCEL的VBA编程语言,以CNKI中提供的RefWork格式题录文件作为数据来源,从中全自动抽取相关文献信息,从而快速获取文献基本计量信息的方法。文中对所提出的方法及程序进行了具体的实证检验,针对2005-2010年间CNKI数据库收录的以“微博”为主题的各类学术论文发表情况,实现了对其文献量、文献著者、文献所属学科、主要来源文献的统计分析,从而验证了这种分析方法在文献计量研究中的有效性和实用性。

〔關键词〕文献计量;论文题录;CNKI;RefWork;EXCEL;数据透视表;微博

DOI:10.3969/j.issn.1008-0821.2012.02.020

〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2012)02-0073-08

Bibliometric Analysis for Literature Topics

Based on EXCEL and CNKI Paper IndexZou Shuyang1 Zou Yimin2

(1.Central University of Finance and Economics,Culture and Communication Institute,Beijing 102206,China;

2.Lanzhou Petrochemical College of Vocational Technology,Lanzhou 7300602,China)

〔Abstract〕A scheme is proposed to obtain basic literature quantitative information of academic paper quickly using EXCEL餾 VBA programming language,which extracted related literature information automatically from RefWork-formatted paper index files provided by CNKI.An actual case study for proposed methods and procedures was provided.With regard to published academic papers on topics related to“Microblog”included in CNKI database from 2005 to 2010,the quantitative analysis results refer to amount,authors,subjects,main sources of these literatures were also given.Thus,the effectiveness and practicality of this scheme in bibliometric analysis and research were verified.

〔Key words〕bibliometric analysis;paper index;CNKI;RefWork;EXCEL;Pivot Table;Microblog

微博是新近兴起的一种互联网热门服务,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。微博的出现使网民成为“草根”网络报道评论员。微博对网络舆论生成模式的主要影响是它强大的即时性、移动性和互动性,从而容许作者更好地即时反映发生在身边的新闻和意见,最后在用户之间的链式互动中形成舆论强势,进而影响网络舆情。

文献计量学从文献的外部特征出发,通过统计分析可以发现科学文献的生产、流通和应用等的内在规律[1],但来源数据的获取一直是文献计量的瓶颈。纵观以往以中国期刊网(CNKI)为数据源的文献计量研究,需要统计的文献基本信息多需繁琐的手工录入。笔者发现CNKI提供的RefWork题录文件中含有文献的众多基本信息,于是开发了一款基于EXCEL中VBA宏语言的小型程序,据此可方便地从RefWork题录文件中抽取所需信息,进而实现了初步的文献计量功能。

本研究结果是笔者主持的中央财经大学2010年度本科生科研创新项目“基于微博的社会舆情研判与预警”研究内容的一部分。本文首先对CNKI收录的2005年起至今(统计日期截止至2010年7月31日)关于“微博”的各类学术论文进行题录检索,并在此基础上利用所开发的VBA程序进行文献量、文献著者、文献所属学科、主要来源文献、关键词等方面的统计分析,努力梳理其发展脉络,从中发现我国相关领域研究的现状与特点,作为项目研究的参考依据。经验证,该方法不仅可以快速地获取文献基本信息,而且能根据研究者的需要进行各种个性化文献计量研究,从而大大提高了文献的检索效率,具有很强的有效性和实用性。

1 基本信息的获取

1.1 CNKI、RefWork及EXCEL

CNKI(China National Knowledge Infrastructure)国家知识基础设施是建立在Web服务基础上的信息资源共享平台和知识传播与数字化学习平台,收录了1979年至今我国约7 700种综合期刊与专业特色期刊的全文[2-4]。RefWork则是CSA(剑桥科学文摘)公司推出的联机个人文献书目管理系统,用于帮助用户建立和管理个人文献书目信息,很多著名的在线数据库都为它提供了文献题录导入接口。经研究发现,CNKI产生的题录文件提供了多种输出格式,其中RefWork格式能够提供众多的论文基本信息,其输出是以“.net”为扩展名的编码格式为UTF-8的半结构化文件文本,包含被检索论文的作者、篇名、期刊、年份、刊期、关键词、摘要等文献基本信息。

EXCEL是一款优秀的电子表格软件,具有强大的数据处理功能,EXCEL内置的数据透视表则是一种从EXCEL等数据集中总结信息的分析工具,它有机的综合了数据排序、筛选、分类汇总等数据分析功能,可灵活地以多种不同方式展示数据的特征,成为最常用、功能最全的EXCEL数据分析工具之一。而EXCEL中内嵌的VBA(Visual Basic For Applications)语言则极大地丰富了EXCEL对数据的自动处理能力,可用于创建自定义的解决方案。

综上所述,CNKI的输出文件提供了基本的文献信息,如果配合EXCEL数据透视表等强大的数据分析功能,加上VBA的任务自动化编程,即可从中自动抽取所需的文献信息,打破文献基本信息依赖手工输入的瓶颈,并完成所需的文献计量分析。

2012年2月第32卷第2期基于EXCEL及CNKI题录文件实现对文献主题的计量分析Feb.,1.2 获取CNKI RefWork输出文件的步骤

以检索近5年被CNKI收录的有关“微博”的专业论文信息为例,获取CNKI输出的RefWork题录文件的步骤如下:

(1)首先利用CNKI的“标准检索”功能,指定“主题”作为检索字段,以“微博”作为检索关键词,匹配模式设为“精确”;指定“发表时间”为2005-01-01至2010-07-31;在“选库”栏目内去除“中国重要报纸全文数据库”多选框,即不将报纸列入统计范围。最后点击“检索文献”按钮即可检索出近5年来相关主题被CNKI收录的全部论文信息,按照以上检索策略,共命中文献480篇;

(2)为了减少处理次数,可以让每页的“显示记录数"设置为最大的50条记录(默认为20条);

(3)依次点击“全选”、“存盘”按钮,将当前页面的全部文献作为数据源,此时将弹出一个新的窗口,内含所有被选论文的题录信息,此时其默认的输出格式为“CNKI桌面版个人数字图书馆”,再按下左侧的“RefWork”单选按钮,以产生所需的RefWork格式文件,最后按下“输出至本地文件”并在随后的弹出窗口中给出相应的文件名,即可产生所需的扩展名为“.net”的题录文件;

(4)对于其它页面的检索结果,可点按“下一页”以选择后续的论文,类似前述步骤可得到一组以“.net”为扩展名的输出文件,这些文件即为本研究的数据来源文件。

2 基于EXCEL VBA的题录文件处理及文献计量统计获得上述全部论文的题录文件之后,即可利用自编的VBA编程软件,借助于EXCEL及数据透视表的强大功能完成对被检索论文的计量分析。

笔者通过VBA编程实现以上功能。为方便使用,在名为“论文统计.xls”的EXCEL文件中将新增一个名为“论文统计”的菜单,下含有“导入题录”,“论文汇总”及“论文统计”3个子菜单项,如后图1所示。本功能需使用内部的“Auto-Open”及“Auto-Close”VBA宏程序,以便完成用户菜单的设置与清除,其部分代码如下所示。

Sub autozopen()

Application.CommandBars(″Worksheet menu bar″).Controls.Add(Type:=msoControlPopup, before:=1).Caption=″论文统计″‘设定主菜单

Application.CommandBars(″Worksheet menu bar″).Controls(″论文统计″).Controls.Add(Type:=msoControlButton,before:=1).Caption=″导入题录″‘设定子菜单项

Application.CommandBars(″Worksheet menu bar″).Controls(″论文统计″).Controls(″导入题录″).OnAction=″importdata″‘设定子菜单项“导入题录”对应的VBA程序

…… ‘设定其它子菜单项“论文汇总”、“论文统计”及对应的VBA程序

End Sub

Sub autozclose()

Set mymenubar=CommandBars.ActiveMenuBar‘恢复原系统默认菜单

mymenubar.Reset

End Sub

2.1 将CNKI的RefWork输出文件导入EXCEL

本功能使用“导入题录”子菜单项,在随后出现的标准文件选择窗口中选取先前由CNKI生成的一组RefWork题录文件,即可将多个题录信息文件导入EXCEL之中。此时,每一条题录占10~12行,多条记录依次以行序存放在名为“原数据”的EXCEL工作表中。

由于RefWork格式的题录文件使用UTF-8编码,若直接读入EXCEL表格将显示乱码。故本程序首先使用ADO的Stream数据流读入题录文件,经格式转换后存放至一个临时文件,最后再读入EXCEL数据表。其相应的主要代码如下:

Set objstream=CreateObject(″adodb.stream″) ‘产生一个ADO的Stream数据流,以打开指定题录文件

filetoopen=Application.GetOpenFilename(″题录文件(*.net),*.net″,,″请选择要导入的题录文件″,,True)‘打开标准的文件选择窗口供用户指定需导入的题录文件

If IsArray(filetoopen)Then

For Each cc In filetoopen‘逐个打开选择的题录文件

With objstream

.Type=2‘打开文本文件

.Mode=3‘打开后供“读写”

.Open

.LoadFromFile cc‘指定文件名

.Charset=″utf-8″‘指定打开UTF-8格式的.net文件

.Position=2‘读取位置

allstring=.readtext‘读至allstring变量中

.Close

End With

cc1=cc &″.tmp″‘生成一个名为*.net.tmp的临时文件

Set fso=CreateObject(″Scripting.FileSystemObject″)

Set MyFile=fso.OpenTextFile(cc1,2,True)‘将allstring写入其中

MyFile.Write(allstring)‘并将文件格式由UTF-8转换为标准Unicode

MyFile.Close

j=ActiveSheet.[a65536].End(xlUp).Row‘计算当前信息存放位置

With ActiveSheet.QueryTables.Add(Connection:=″TEXT;″+cc1,Destination:=Range(Cells(j+1,1),Cells(j+1,1)))‘读取指定文件,并在当前位置转存

.Name=″data″

.TextFilePlatform=936‘指定Unicode代码页为简体中文

.TextFileParseType=xlDelimited‘指定数据分割符

End With

fso.DeleteFile(cc1)‘删除名为*.net.tmp的临时文件

Next cc

End If

2.2 论文汇总处理

本功能使用“论文汇总”子菜单项,用于从一组指定题录文件中忽略多余信息,仅提取感兴趣的作者姓名、作者单位、论文题名、期刊名称、发表时间(年/卷/期)、关键词、期刊中图分类号、中图分类名及是否核心期刊等信息,此时每条文献题录记录仅占一行,并存放在名为“已处理数据”的EXCEL工作表中。由于论文与其关键词的一对多关系,为方便对关键词的统计处理,另生成一个名为“已处理数据zKW”的EXCEL工作表,以存放关键词信息,每一题录将产生与关键词数量对应的信息行。本程序除完成正常的信息提取之外,还对RefWork文件中部分信息缺失的题录作了容错处理,使程序具有相当的鲁棒性。

考虑到核心期刊具有对期刊质量较好的指示作用,而由北京大学出版社编订的“中文核心期刊要目总览”每4年修订1次,每次变化并不大,故将以最新的2008年第五版“中文核心期刊要目总览”作为认定核心期刊的依据,保存在“2008中文核心”工作表中;为进一步了解不同作者的研究领域分布,以刊物的CN刊号中的中图分类号字段作为学科/领域的一个区分指标,分类号与分类码的关系保存在“中图分类码”工作表中,据此可确定论文所属的研究领域。因篇幅所限,此部分代码略去。

2.3 论文的计量分析及图示

本功能使用“论文统计”子菜单项,借助VBA编程软件及数据透视表分析工具,用于从“已处理数据”工作表中提取出论文的相关信息,并完成对文献的文献量、文献著者、文献所属学科、主要来源文献的计量统计及其图示。

Sheets(″处理后数据″).Select

Range(″A1″).Select‘计算″处理后数据″工作表中全部数据块大小,并为其定义一个名称“DataArea”

i=ActiveSheet.[a65536].End(xlUp).Row

j=ActiveSheet.[z1].End(xlToLeft).Column

Set DataArea=Range(Cells(1,1),Cells(i,j))

ItemNumber=Application.InputBox(Prompt:=″请输入前n项:″,Title:=″请输入一个数值″,Type:=1,Default:=20)‘等待用户给定统计结果的最大显示项数

以下按“作者姓名”对文献进行统计,获得按“是否核心”分页;以“作者姓名”为行;以“年”为列,以“作者姓名”的计数项作为数据的数据透视表及其图表显示,其显示结果如后图2~4所示。

ActiveWorkbook.PivotCaches.Add(SourceType:=xlDatabase, SourceData:=z

DataArea).CreatePivotTable TableDestination:=″″,TableNamez

:=″数据透视表1″, DefaultVersion:=xlPivotTableVersion10‘新增数据透视表,按“作者姓名”统计

ActiveSheet.PivotTableWizard TableDestination:=ActiveSheet.Cells(3,1)

ActiveSheet.Cells(3,1).Select

With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″是否核心″)‘指定分页方式

.Orientation=xlPageField

.Position=1

End With

With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)‘指定行数据

.Orientation=xlRowField

.Position=1

End With

With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″年″)‘指定列数据

.Orientation=xlColumnField

.Position=1

End With

With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)‘指定数据项

.Orientation=xlDataField

.Position=1

End With

Range(″A5″).Select

ActiveSheet.PivotTables(″数据透视表1″).MergeLabels=True

With ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″作者姓名″)

.AutoSort xlDescending,″计数项:作者姓名″

.AutoShow xlAutomatic,xlTop,ItemNumber,″计数项:作者姓名″

End With

ActiveWindow.SmallScroll Down:=0

ActiveSheet.Name=″按作者统计″‘指定统计数据工作表名为:“按作者统计”

ActiveSheet.PivotTables(″数据透视表1″).PivotFields(″计数项:作者姓名″).Caption=″发表论文数″

Charts.Add‘增加一个统计图表

ActiveChart.SetSourceData Source:=Sheets(″按作者统计″).Range(″A5″)

ActiveChart.Location Where:=xlLocationAsNewSheet

ActiveSheet.Name=″按作者统计图″‘指定统计数据图表名为:“按作者统计图”

……类似的,以下分别实现“按期刊统计”、“按期刊的中图分类统计”、“按作者单位统计”、“按论文关键词统计”及“汇总统计”功能,产生相应的数据透视表及其图表显示,如后文中图5~10所示。

2.3.1 文献量分析

文献量是指某一学科研究者在某一段时间内所发表论文数量的多少,而核心期刊则是指其中一部分学术水平较高、影响力较大的那些期刊,其收录情况分析可以更好地衡量论文在某一学术领域的科研成就与实力。

某一学科领域学术论文发表的时间分布,在一定程度上反映该领域学术研究发展的脉络。由图1可直观看出2006年无相关论文,2007-2010年(本年度末全部统计)相关研究论文数量无论是核心还是非核心均呈较明显的增长趋势,这和近年来我国微博领域的快速发展相吻合,已逐渐成为学术界研究的热点问题。数据同时表明:同期核心期刊所占比重并不高,如何进一步提高论文质量还需要一定的努力。一般而言,当学科处于诞生和发展阶段,科学文献呈指数增加;当学科进入相对成熟阶段,科学文献的增长就不能总保持原有指数速率,增长率变小,但文献寿命变长。从统计结果看,国内对“微博”领域的研究尚属于快速发展阶段。

从图1左上角可观察到新增加的菜单及菜单项。

2.3.2 文献著者分析

(1)文献作者分析

文献作者的分析有助于确定某学科研究的核心作者。

图2与图3左上角“B1”单元格可供用户通过鼠标选择“核心”、“非核心”或“全部期刊”作为统计范围。

从图2可见,就全部期刊而言,“本刊编辑部”、“刘兴亮”、“喻国明”、“杨澍”、“闫肖锋”等5位作者名列前茅,发表论文4~9篇;从图3可见,就核心期刊而言,“喻国明”、“段钢”、“陈霞”3位作者名列前茅,发表论文2篇;从图4可见,就非核心期刊而言,“本刊编辑部”、“杨澍”、“闫肖锋”、“刘兴亮”4位教师名列前茅,发表论文4~9篇,而发表3篇论文的共有4人,发表2篇论文的共有23人。可见论文的发表无论在数量还是质量上均存在较大的不均衡。图2 论文著者分析(全部期刊)

(2)文献作者单位分析

文献作者单位的分析有助于确定某学科研究的核心机构,并据此判断该机构在此领域研究的综合实力。

从图5可见,就全部期刊而言,“暨南大学新闻与传播学院”、“新周刊”、“中国人民大学新闻学院”、“互联网实验室”、“复旦大学新闻学院”5个单位名列前茅,发表论文4~5篇,发表3篇论文的还有3个单位;从图6可见,就核心期刊而言,“暨南大学新闻与传播学院”、“复旦大学新闻学院”、“中国人民大学新闻学院”、“上海广播电视台广播新闻中心采访部”4个单位名列前茅,发表论文2~5篇;可见各单位研究实力也有一定的差异。

注意:图5~6中的“空白”项的产生是因为CNKI题录文件所收录的部分文献末提供相关单位信息所致,主要是博硕士论文等。图5 著者单位分析(全部期刊)

2.3.3 文献来源期刊分析

(1)主要来源期刊分析

主要来源期刊是指刊载某领域研究论文较多的期刊,分析主要来源期刊有助于确立某研究主题的核心期刊,把握该主题的主要研究成果。在論文投稿时,我们也可优先考虑将研究成果投向这些期刊,这样既可提高命中率,也有利于扩大研究成果的影响。

从图7可以看出,就全部期刊而言,“青年记者”、“IT经理世界”、“互联网天地”、“广告大观(综合版)”4种刊物发文量较多,分别为11~25篇;从图8可以看出,就核心期刊而言,“中国记者”、“新闻与写作”、“新闻记者”、“新闻战线”4种刊物发文量较多,分别为4~8篇。

(2)来源期刊类别分析

来源期刊类别是指刊载某论文的期刊所属的学科领域。笔者利用CN刊号中的中图分类号作为学科领域统计的依據,得出图9。从图9中可见:“信息与知识传播”、“经济”、“自动化技术、计算机技术”、“工业技术”4类学科领域当前研究的重点,分别占45~104篇。图6 著者单位分析(核心期刊)

2.3.4 文献关键词分析

通过文献关键词分析可大体把握相关学术研究的重点问题及其变化趋势。从图10中可见:全部文献中,“博客”、“互联网”、“用户”、“网站”、“传统媒体”、“新浪”构成前6类关键词,其数量分别为“48~148”。

3 结 论

通过以上基于EXCEL以VBA技术对CNKI提供的题录图9 来源期刊类别统计(全部期刊)

图10 文献关键词分析(全部期刊)

信息的自动提取及计量分析,可以看出利用CNKI输出的RefWork题录文件快速自动获取文献基本信息的便捷性和可靠性。本文所介绍方法可以大大降低文献计量研究的劳动强度,提高工作效率,降低错误发生率,使研究者可以集中精力于更有价值的文献内容的深度挖掘。

通过本文方法,对“微博”这一研究领域进行了相应的实证研究,统计结果还客观上揭示了“微博”这一研究方向近五年学术论文的产出状况。从年份分布来看,近年来相关论文的数量快速上升,说明相关领域的研究方兴末艾,也表明还有众多工作需要完善。通过对本领域前人工作成果的研究,有助于梳理研究发展的脉络,更好的把握研究方面,借鉴前人成功经验,并发现研究中存在的不足,为笔者“基于微博的社会舆情研判与预警”研究项目的发展提供基础支撑。本文所述方法可简单地推广至其它研究方向和领域,所提供的小工具软件也为文献检索与挖掘提供了一种有益的思路及实现方法。

参考文献

[1]邱均平.文献计量学[M].北京:科学技术文献出版社,1988:43-198.

[2]林营志,苏明星,刘波.结合EndNote和CNKI题录辅助科技论文文献编排[J].农业网络信息,2005,(3):41-43.

[3]周春雷,王伟军,成江东.CNKI输出文件在文献计量中的应用[J].图书情报工作,2007,51(7):124-126.

[4]宋丽华,伍若梅.基于CNKI文献的我国个人数字图书馆的文献计量分析[J].现代情报,2009,29(11):76-80.

猜你喜欢
题录计量论文
《化学分析计量》2020年第6期目次
关注日常 计量幸福
计量自动化在线损异常中的应用
近刊题录
近刊题录
NoteExpress 在撰写文章综述时的技巧解析
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
基于因子分析的人力资本计量研究