摘 要:为总结我国电子文件研究的有关情况,运用文献计量和可视化分析方法,借助相关计算机软件,结合利用可视化工具绘制的知识图谱,从文献来源、作者、机构、主题、文献被引等多个角度对CAJD收录的1996年~2013年国内电子文件研究的高被引文献进行相关统计和可视化分析。
关键词:电子文件;文献计量;可视化分析;知识图谱;CAJD;CiteSpace;1996~2013
1 引言
电子文件(Electronic Records)是指在数字设备及环境中生成,以数码形式存储在磁带、磁盘、光盘等载体,依靠计算机等数字设备阅读、处理,并可在通信网络上传送的文件。[1]具有参考和利用价值并作为档案保存的电子文件(归档电子文件)[1]便是档案。电子文件也称作“数字式文件”,最初人们大多使用“机读文件”(Machine-Readable Records/Documents)这个概念[2],电子公文、电子文档、电子档案、数字文件、数字档案、机读档案、虚拟文件、虚拟档案等是与之相似或相关的术语。
上世纪60年代,信息技术发达的欧美国家开始了电子文件的研究与管理实践。我国的研究和管理实践起步较晚,从上世纪80年代中后期开始,由介绍国外电子档案的研究与管理情况、翻译国外学者的研究成果,到开展探索性的研究。上世纪90年代后期,国内学者的研究成果开始增多,理论研究逐渐系统深入。与此同时,国家档案局于1996年成立了电子归档研究领导小组,并陆续发布了《电子文件归档与管理规范》(GB/T 18894-2002)、《电子公文归档管理暂行办法》(2003)等一系列标准、规章和文件,有力地推动了国内电子文件的研究和实践。
在中国期刊网络出版总库(CAJD)收录的1996年以来的13万余篇档案学、档案事业类文献中,有关电子文件研究的文献近1.16万篇(2014年5月16日检索),占比超过8.8%,可见电子文件研究是近二十年来档案领域研究的热点和重点。
对这一研究领域近20年的演进、热点方向、发展趋势进行相关分析有助于电子文件研究的深入。此前也有一些相关研究,如陈丹丹对1991年~2000年这10年间我国研究电子文件论文的统计和分析,探求电子文件研究的现状和未来发展趋势[3];曹芳通过对近十年(1993年~2002年)来发表在我国档案事业类中文核心期刊上的电子文件研究论文的数量、内容以及主题分布进行统计与分析,了解我国电子文件的研究现状,并对电子文件的未来发展进行预测[4];张宁对2010年我国电子文件管理理论研究的发展情况进行了全面系统的调查和研究,归纳总结出2010年我国电子文件管理理论研究领域的重要成果和进展。[5]
在借鉴已有研究成果和研究方法的基础上,本文采用自编的计算机软件进行了相关统计,并利用可视化工具CiteSpace绘制知识图谱进行分析。
2 文献来源、研究工具与数据处理
2.1 样本文献来源。研究的样本文献来自中国知网(CNKI)的中国期刊网络出版总库(CAJD),检索时兼顾了电子文件的其他相似或相关术语,以检索表达式“(KY=(电子文件+数字式文件+机读文件+电子公文+电子文档+电子档案+数字文件+数字档案+机读档案+虚拟文件+虚拟档案+电子型档案+数字化档案) OR TI=(电子文件+数字式文件+机读文件+电子公文+电子文档+电子档案+数字文件+数字档案+机读档案+虚拟文件+虚拟档案+电子型档案+数字化档案)) NOT (KY=(数字档案馆+电子档案馆+虚拟档案馆) OR TI=(数字档案馆+电子档案馆+虚拟档案馆))”进行专业检索。由于1995年前文献数量较少,时间范围选定为1996年~2013年,学科领域限制为“档案学、档案事业”,检索时间是2014年5月16日,检索结果为11606篇。在检索结果基础上,分别按年度选取被引次数大于等于4(1996年~2010年)、大于等于3(2011年)、大于等于2(2012年)和大于等于1(2013年)的文献作为初选样本,共计1679篇,剔除误检的不相关文献(领导讲话、标准等)、重复文献(含一稿多投)后,得到用于分析的文献共计1138篇。
2.2 研究工具。本文研究工具主要有两个,一是由美籍华人陈超美开发的信息可视化软件CiteSpace Ⅲ[6](版本号3.7.R7),可用于生成知识图谱,导出相关数据和统计报表,计算突变率、中心性等;二是作者自编的关系型数据库软件,可用于部分数据项的规范或补充,添加必要的统计项,提取同名作者进行区分,选择用于统计分析的样本,快速生成相关统计数据或报表,生成用于CiteSpace处理的数据格式文件。
2.3 数据处理。文献分析是否准确可靠,最重要的就是数据质量。作者将下载的题录信息导入自编软件,对照原文逐一核对了作者、篇名、机构、关键词、刊名等字段,对明显不合理的关键词进行了必要的拆分或合并,补充了部分内容不完整的字段,规范、统一了大多数机构名称和部分关键词,删除了CAJD中计算机自动标引(机标)的关键词,同时剔除了不相关文献。
经过以上处理,由自编软件生成了可用于CiteSpace的WOS格式数据文件。
3 研究文献的计量与可视化分析
本文的相关计量数据主要由自编软件统计得出,表格也依据统计数据编制,其中样本文献的年代分布、作者与机构发文、关键词词频等经与CiteSpace软件的有关处理数据或报表比对,统计结果基本一致。作者合著网络图谱、研究热点主题图谱等由CiteSpace软件生成。
3.1 发文年度及来源分布。CAJD收录的1996年以来有关电子文件研究的高被引文献年度分布如图1所示。从图1中可以看出,2000年~2012年,每年的高被引文献都在60篇以上,反映出2000年以来,国内电子文件研究成果丰硕,且较高水平论文较多。
图1 CAJD高被引电子文件研究文献的年度分布
利用自编软件对样本文献来源进行统计,样本文献来源于211种期刊,其中147种期刊仅1篇被选入统计分析样本中。分析样本中载文数前20位的期刊如表1所示,这20种期刊收录的高被引文献达853篇,占统计分析文献的近75%,巧合的是,排在前十位的是包括《档案》在内的档案类的核心期刊。
表1 高被引样本文献来源期刊载文统计(单位:篇)
3.2 样本文献作者和机构统计与分析
启动CiteSpace软件,建立一个项目及项目目录和数据目录,将WOS格式文件装入数据目录,选择网络节点为“Author”,完成相关设置(主要设置见图谱左上角,下同),由软件生成作者网络图谱(图2),为便于图谱的识读和分析,对软件生成的图谱的节点位置进行了调整。图中的圆为作者节点,圆越大,表明作者发文越多(包括非第一作者);节点色环的颜色代表发文年份(对应图上部色条颜色代表的年份),色环的厚度代表相应年代发文的多少;节点间的连线表明作者间有论文合作,连线的粗细代表合作的频度,连线颜色对应的是首次合作的年份。
图2 CAJD高被引电子文件研究文献作者网络图谱
由图2可以看出,国内已形成了几大电子文件研究的团队,图中圈出了部分科研产出能力较强的团队,如以冯惠玲、刘越男等为核心的中国人民大学,以张正强为核心的解放军南京政治学院上海分院,以何嘉荪为核心的浙江大学等。团队中节点数量较多,大节点较多,且色环颜色多样,表明团队作者及高发文作者较多,1996年以来的多数年份都有成果。节点间连线仅17条,表明合著文献较少。
利用自编软件进行统计,1138篇样本文献涉及作者共计1112人,1523人次,其中独著850篇,两人合著221篇,三人合著48篇,四人及以上合著19篇,表明作者间的合作不多;全部作者来自525个机构。表2和表3分别列示了高发文作者和高发文机构及发文量(发文数中“+”后为第二作者发文数)。
表2 高发文作者及发文量(单位:篇)
表3 高发文第一机构及发文数量(单位:篇)
对照表2、表3和图2,表中数据结果与图谱呈现基本一致,同时也验证了科研产出能力较强的团队是中国人民大学、解放军南京政治学院上海分院等。
3.3 样本文献主题统计与分析。在期刊文献中,关键词最能反映文献的主题,因此,利用关键词进行主题分析。样本文献中有机标关键词文献556篇,无关键词文献10,为减少可能出现的偏差,主题统计与分析未使用机标关键词。在CiteSpace中选择网络节点为“Keyword”,运行并经手动调整后,得到主题网络图谱(图3)。图中的圆为关键词节点,圆越大,表明该关键词出现的频次越高;节点色环的颜色代表该词出现的年份,色环的厚度代表相应年度出现频次的多少;节点间的连线表明关键词共现于同一篇论文中,连线的粗细代表共现的频度,连线颜色对应的是首次共现的年份。图中部分节点外环呈紫色,表明这些主题的中心性较高。[7]
图3 CAJD高被引电子文件研究文献主题网络图谱
值得一提的是,图谱清晰地呈现出了电子文件(数字档案)研究的特点,图中各节点与电子文件、数字档案、档案管理和管理等具有高中心性的关键词连线最多,说明如何管理电子文件是研究的动因;与管理相关的自然是电子政务、对策(安全保存、信息安全)、管理系统以及信息化等。
经自编软件统计,作者标注有关键词的572篇样本文献共有关键词1976个个,篇均3.45个,共涉及关键词690个,其中仅出现1次~3次的关键词分别为484、86和35个,比重很大,对统计结果有一定影响。将统计结果与CiteSpace生成的数据报表整合为表4,表4列出了频次前20位的高频关键词及其中心性。
表4 高频关键词的中心性及词频数
表4中,电子文件、数字档案、档案管理、管理、电子政务、对策这几个关键词的中心性值均大于0.1,关键词安全保存和信息化的中心性值接近0.1,这些关键词代表了电子文件研究的热点。
3.4 样本文献被引统计与分析。文献被引频次一般反映出文献在某类研究中的价值。由于CAJD下载的题录不带引文,无法利用CiteSpace生成相应的知识图谱加以分析,进而总结经典文献和知识基础。为弥补这一不足,作者利用CAJD的被引数据和自编软件生成了高被引作者文献被引统计表(表5)、高被引文献被引统计表(表6)和年度文献篇均被引统计表(表7)。
表5 高被引作者文献被引统计表(单位:次)
透过表5和表6可以发现,冯惠玲、何嘉荪、刘越男、刘家真、安小米、库克、于丽娟等是国内电子文件研究最具影响力的作者,被引排在前15位的作者的文献被引频次达2382次,占统计样本总被引数的近1/4;中国人民大学和浙江大学、武汉大学、苏州大学等是最能代表国内电子文件研究水准的机构。而高被引的库克的《电子文件与纸质文件观念:后保管及后现代主义社会里信息与档案管理中面临的一场革命》、冯惠玲的博士论文《拥有新记忆——电子文件管理研究》系列摘要及《电子文件与纸质文件管理的共存与互动》和《论电子文件的风险管理》、邱晓威的《电子文件与电子档案的管理问题与对策》、安小米的《文件连续体模式对电子文件最优化管理的启示》等无疑是电子文件研究的经典基础性文献,被引前20位的论文被引1039次,占统计样本总被引数的10.88%。
表6 高被引文献被引统计表(单位:次)
表7 被引文献年度篇均被引统计表(单位:次)
结合表7的年度篇均被引数,还可得出这样的结论:1997年~1998年、2002年~2003年是国内电子文件研究的高水平阶段。
4 结语
通过以上统计分析,研究结果可以归纳为:电子文件研究热度持续,每年都产出有一定影响力的高水平成果;中国人民大学、解放军南京政治学院上海分院、武汉大学、浙江大学、苏州大学等是国内电子文件研究科研产出能力较强且水平较高的机构;冯惠玲、何嘉荪、刘越男、刘家真、安小米、于丽娟、张照余等高产且高被引的作者是国内电子文件研究领域最具影响力的作者;库克是对国内电子文件研究产生深刻影响的国外学者;以解决管理问题为目标和驱动的电子文件研究始终是研究的热点。
本文采用的研究工具CiteSpace是近年国内进行文献分析使用较多并公认较好的一款软件,目前在档案文献的分析研究中运用还不多。尽管该软件可用于分析中文文献,但使用中会面临两个主要问题,一是需用转换程序将分析数据转换为WOS格式,但无论转换前还是转换后要对分析数据进行清洗都比较困难和麻烦(包括部分数据项的规范、缺项补充、剔除重复和误检题录、机标关键词是否采用等);二是由于CiteSpace相关阈值等的不同设定可能导致图谱节点大小及报表个别数值与实际统计结果有些不完全一致,如作者发文数量不区分作者排序、不区分同名作者而使得图谱数据与用通常方法统计结果的个别不一致。作者用自编的软件较好地解决了这些问题,同时自编软件的计量结果还可与图谱及由工具软件导出的数据相互印证。因此,分析工具再好,也需要有“干净”的数据做基础,更需要使用者严谨的研究态度。
参考文献:
[1] 国家档案局. GB/T 18894—2002 电子文件归档与管理规范[S]. 北京:国家质检总局,2002.
[2] 冯惠玲. 认识电子文件《拥有新记忆——电子文件管理研究》摘要之一[J]. 档案学通讯,1998(1):44~48.
[3] 陈丹丹.1991-2000年我国电子文件研究论文统计与分析[J]. 档案与建设,2002(9):18~19.
[4] 曹芳.近十年来我国电子文件研究论文的统计与分析[J]. 档案学研究,2003(4):45~49.
[5] 张宁. 2010年我国电子文件管理理论研究综述[J]. 档案学研究,2011(3):4~7.
[6] Chen Chaomei. CiteSpace: Visualizing Patterns and Trends in Scientific Literature[CP/OL]. [2014-06-15]. http://cluster.ischool.drexel.edu/~cchen/citespace/download.html.
[7] 李晓明,宫启生,谢静静. 2001年-2013年国内档案数字化研究文献分析[J]. 档案管理,2014(4):51-53.
(作者单位:北京电子科技学院图书馆(档案馆) 来稿日期:2014-10-17)