摘要:为系统分析我国近30年档案学文献定量研究的状况,运用文献计量方法,以中国知网检索获取的期刊论文为分析对象,从时间、来源、作者、机构、主题等角度进行定量分析。结果表明,档案学文献定量研究近年来呈现了良好发展态势,文献定量研究成为档案学研究的重要方法之一,以CiteSpace为主要研究工具的可视化分析成为档案学文献定量研究的热点。
关键词:档案学文献定量研究文献计量定量分析CNKI
Abstract: In order to systematically analyze the status of Chinas literature quantitative research on ar? chival science in recent 30 years, this paper analyzes the journal articles retrieved from China National Knowledge Infrastructure (CNKI) by using bibliomet? ric method. A quantitative analysis has been made in terms of the articlestime distribution, sources, au? thors, institutions and subjects, etc. The results show that the literature quantitative research on archi? val science had a good momentum of development, and the quantitative research has become one of the most important methods of archival science. Further? more, the visual analysis using the CiteSpace as the main research tools has become the hot spot of the literature quantitative research on archival science.
Keywords: archival science; literature quantitative research; bibliometrics; quantitative analysis; CNKI
一、引言
从1911年俄国化学家瓦尔金统计分析四部论著的参考文献研究各国对化学所作的贡献[1]算起,文献定量研究至今已有百余年的历史。文献计量作为最早和最主要的一种文献定量研究方法,在不断发展中一直沿用至今。随着信息技术的发展,科学计量学、网络计量学等研究成果也不断运用到文献定量研究中,近年来知识图谱、社会网络分析及可视化软件等更是极大地丰富了文献定量研究的方法、工具和手段,加上可较快捷获取数据的各类中外文数据库越来越多,为文献定量研究带来了更多便利。
在我国,文献计量学研究始于20世纪70年代末[2],研究的历史比国外要短至少五六十年。从中国知网(CNKI)检索获取的期刊文献看,档案学领域运用定量方法开展文献研究的历史则更短,1989年在《档案学通讯》上刊发的“《档案学通讯》十年引文的统计分析与评价”[3]是最早的档案学文献定量研究期刊论文,可见档案学相关研究的起步比图书馆学科要晚。2014年,王新才[4]、文振兴对运用计量法研究的学术论文进行统计,从7个方面进行了分析,但样本范围仅限于27种档案学期刊,论文的年份分布只到2013年;2016年,陈忠海[5]、董一超统计分析了定量研究方法在档案学研究中的应用,但分析的范畴比文献定量研究更大,样本仅来自代表国内最高水平的两种档案期刊。此外,再无针对档案学文献定量研究进行系统分析的论文。为全面了解我国档案学文献定量研究的历程,特别是近年来的发展状况,分析定量研究中的问题,笔者以中国知网收录的相关期刊类论文为样本,运用文献计量学方法进行定量分析。
二、样本数据来源与处理
本文的研究样本通过检索中国知网的全文数据库获取。为提高查全率,力圖获取尽可能全的样本总体,考虑到CNKI有系统自动标引的关键词,且专业检索中关键词检索为精确方式,用关键词检索效果并不好,因而选择篇名为主要检索点,以查阅到第一篇相关论文的1989年为检索的时间起点。经反复调试后编制了三个专业检索表达式(参见参考文献及注释)。由于每个检索表达式都较长,若将A式与B式或C式编成一个表达式,CNKI系统无法一次完成检索,因此检索时先用A式检索篇名,再分别用B式(检索篇名)和C式(检索来源期刊)在结果中进行二次检索。检索的时间是2018年1月10日,时间范围为1989-2017年,检索范围包括期刊、教育期刊、特色期刊和学术辑刊,两次检索的结果分别为3322篇和2155篇。
由于两次检索结果中有一定数量的重复文献,也有大量为提高查全而产生的误检文献,必须进行样本选取,同时也有必要进行数据的核对和部分规范化处理。
(一)样本的选取
样本选取采用以下过程:(1)将两次检索结果以自定义格式输出文献题录为Excel电子表格;(2)将电子表格转换成DBF格式文件装入数据库软件,合并后自动剔除重复数据,剩余结果为4004篇(尽管合并时能过滤掉检重的数据,但无法处理类似一稿多投等情况);(3)浏览篇名直接剔除不相关数据,一稿多投的仅保留刊发在影响力较高的期刊上的论文;(4)逐一核对剩下的论文原文,保留有效样本,含有少量定量分析但以定性研究为主的综述类论文,以及档案期刊刊载的非档案学文献定量研究论文均未作为有效样本。经过以上步骤,用作分析的最终样本仅为563篇。
(二)样本的数据处理
为便于统计,笔者对样本数据进行了以下处理:利用数据库软件对样本数据中的机构名称进行规范和统一;对部分较重要的关键词进行规范,如将“大学”“高校”“高等学校”“高等院校”统一为“高等学校”[6];删除CNKI系统自动标引的关键词,对同名作者进行了区分,将曾用刊名换成现用刊名;同时梳理和提取了文献检索项、文献数据来源及数量、样本文献来源语种、分析工具、计量元素、论文篇幅等信息,用作分析和后续研究。
三、文獻定量分析
(一)文献数量分析:从数量上看,1989-2009年档案学文献定量研究处于探索发展期,2010-2017年则呈稳中有升的趋势
本研究样本文献的年度分布如图1所示。由于电子文献出版时滞,2017年可能尚有少量未入库的文献。
从图1可以看到,在1989-2009年的二十余年里,档案学文献定量研究较长时间没有得到广泛运用或认可,研究进展缓慢,处于比较艰难的探索期。具体而言,每年发文数量基本不足10篇,有不少年份仅1篇,甚至有两个年份没有发文,但2006年是这一时期的一个小高潮,发文达15篇。
2010年后发文数量快速提升,近六年(2012-2017)的发文量都稳定在60篇上下,呈现出较好的发展态势。特别是在2015年达到了71篇,2017年达到89篇的峰值。这种大幅增长既得益于文献计量方法在档案学领域的广泛运用,也得益于档案学自身发展而出现了新的研究领域[如档案法、档案依法行政、数字档案馆(室)、电子文件等],还得益于知识图谱、社会网络分析等新方法、新技术成功地用于档案学文献定量研究,更得益于诸多高校和档案学者投身于此类研究。
(二)文献作者与机构分析:从作者及机构情况看,合著作者发文占三成半以上,且高校发文量突出
经统计,563篇样本文献来源于96种期刊,发文10篇以上的期刊半数是档案学核心期刊,合计发文量占总发文量的44.58%。全部样本文献作者共计834人,其中第一作者436人,人均发文1.29篇。论文中独著365篇,两人合著148篇,三人合著35篇,分别占统计论文的64.83%、26.29%和6.22%;另有四人合著9篇,五人及以上合著6篇,占统计文章的2.66%。合著论文超过35%,比笔者近年定量分析的档案学其他领域的合著略高。
同时,高校是发文的主力。其中,郑州大学、云南大学、武汉大学、黑龙江大学等是档案学文献定量研究发文数量多且近年研究依然活跃的机构。同档案学的其他研究一样,高校的发文数量占了绝对多数,包括高校档案馆、图书馆在内共发文420篇,为总发文量的74.6%(见表1)。其原因有二:一是文献定量研究是图书馆学情报学长期使用的重要研究方法,对研究实力原本较强的高校而言,临近学科间的相互交叉渗透、借鉴更为容易。这种渗透和借鉴有力地促进了文献定量研究在档案学科的运用,这应该是高校发文多的一个重要原因。二是这些有档案相关专业的高校在档案学或图书馆学的学科排名大多在国内靠前,并且每所大学都有多位在档案学领域知名的学者担纲文献定量研究的领军人物,如武汉大学的周耀林、王新才,郑州大学的陈忠海、李文以,安徽大学的李财富、马仁杰等。
(三)文献主题分析:从文献主题来看,体现新技术新方法的关键词呈现逐年增长趋势
由于关键词能较为准确地反映期刊文献的研究主题,因而采用关键词进行主题分析。经统计,563篇论文中有作者关键词的文献466篇,共有关键词1794个,篇均3.85个,共涉及关键词665个,大多关键词出现的频次不高,其中仅出现1次的关键词高达454个,出现2次的关键词有88个,词频小于3的关键词数量占81.5%。关键词的集中度不高,可能的原因一是文献定量研究涉及的主题领域较多,二是作者选词有一定的随意性,用词不够规范。
表2高频关键词词频统计从表2中的关键词词频数及其近3年和近5年的变化可以看出,体现传统文献定量研究总频次较高的关键词(如统计分析、文献计量学、引文分析、定量分析、作者分析等)近年的频次在明显降低,而体现新技术新方法的关键词(如知识图谱、CiteSpace、研究热点、共词分析等)出现的频次显著增长,说明以CiteSpace为代表的新技术新方法在档案学文献定量研究中得到了较为广泛地运用,也呈现良好的发展势头。档案学以及档案管理、档案信息化、档案工作、电子文件和数字档案馆等是文献定量研究的主要领域,也普遍是近年档案学研究的热点主题,表明文献定量研究注重追踪档案学的研究前沿。如有关数字档案馆的文献定量研究近年在核心期刊上刊文达6篇,运用知识图谱进行分析的占一半,充分反映出档案学文献定量研究在研究方法和研究主题上都能够紧跟研究前沿。
(四)文献被引分析:从文献被引情况来看,档案学文献定量研究论文的被引数总体偏少文献被引在一定程度上反映出该文献在某个研究领域的影响力。笔者对CNKI检索到的样本被引进行了统计(统计时间为2018年1月25日),被引论文的总被引数为1538次,被引1次至4次的论文分别为94篇、48篇、41篇和28篇,被引5次至9次的论文共58篇;被引10次及以上的论文仅有37篇(其中被引20次以上的14篇),但被引频次之和高达744次,占总被引数的近一半;被引10次以上的论文中邱均平占3篇(分别被引82、55和31次),傅荣校、李财富和康蠡各2篇。表3列示了被引前10位的论文。
表3中高被引文献作者除邱均平是国内著名的文献计量学专家外,其他大多是各高校档案学专业的教授,说明高水平作者对档案学文献定量研究具有较强的引领作用,邱均平文献的高被引现象也说明图书情报领域的相关文献对档案学文献定量研究产生了积极影响。
值得注意的是,从所统计的被引文献来看,563篇论文中有257篇未被引用过,2016年之前发表的论文至今已超过两年,但未被引用的仍达129篇,说明有较多论文的学术影响力可能不强;从研究样本论文本身的引文数量看,563篇论文中引文少于5条的论文多达270篇(其中97篇无引文),表明档案学文献定量研究论文的引文数量总体偏少,或许这也是导致高被引论文的数量不太多、引用频次不太高的原因之一。
(五)基金论文分析:从基金论文来看,档案学开始涉及定量研究理论和方法的研究
563篇论文中基金论文共计123篇,占21.85%,基金论文的比重较大,其中有14篇标注有两项基金名称,两篇标注3项基金名称,各类基金项目及论文数量见表4(标注多个基金项目的论文仅按第一个项目的级别统计)。基金论文中除15个项目的17篇论文未注明项目名称外,其他论文定量研究的主题与项目名称大多相符,但纯定量研究的项目占比并不高,这也是单个基金项目多数仅发表一篇相关论文的主要原因。令人欣喜的是,其中既有国家社科项目“中外图书情报学科知识图谱比较研究”、国家自然科学项目“信息分析方法的继承与创新研究”,也有“基于科学知识图谱视角的信息资源管理学进展研究”“我国档案学知识图谱构建与分析”“基于文献计量学的优势学科和特色学科人才队伍建设研究”等省级和其他专门针对定量研究的项目,而且都是近几年的项目,从一定程度上反映出档案学者在运用定量研究方法开展研究的基础上,开始涉及档案学文献定量研究理论和方法的研究。
(六)其他分析:从论文篇幅、图表和样本情况来看,暴露出档案学文献定量研究的一些不足
前五项定量分析的数据来自CNKI下载的论文题录和被引量,除此之外,笔者还在数据核对过程中提取了论文篇幅、图表数量、样本数量等数据,并进行了相关统计(见表5-7)。
从以上统计数据看,档案学文献定量研究论文大多篇幅偏小,其中3页以下的论文占六成,但篇幅最长的论文多达15页,相差极大。不少档案学核心期刊对学术论文有明确的字数要求,有的5000字左右[7],有的不超过10000字[8];图表偏少的论文也较多,甚至有没有图表的论文(尤其是有3篇知识图谱分析的论文没有一幅图),这显然是不合理的。图表总数最多的论文有6幅图、9张表,差别也很大。在文献定量研究中,图表能更直观清晰地体现量的特征和变化,分析样本数量100篇以下的比重稍大,最少的样本数仅为7,从统计及文献计量的角度讲,不宜采用过少的样本。笔者进一步分析发现,样本偏少的一个非常重要的原因是检索用词选择不当。表5、表6和表7的数据也反映出档案学文献定量研究中存在一些比较明显的不足,有部分论文因检索不当、缺乏必要的数据处理等原因分析不够深入,少数作者不重视样本获取和处理,研究不够严谨,应引起足够重视。
四、总结与讨论
(一)总结
通过以上定量分析可以看出,档案学文献定量研究经过近二十年的艰苦探索后,迅速进入发文数量多且稳定的发展阶段,文献定量研究已成为档案学研究的重要方法之一;作者中有以陈忠海为代表的少量领军人物,但高产的高水平作者较少;学科间的交叉渗透,为同时开办了档案和图书情报类专业的高校成为高水平的研究机构创造了有利条件;以CiteSpace为代表的可视化分析软件和知识图谱方法近年在档案学文献定量研究中得到了较多运用,预示着档案学文献定量研究在积极跟踪文献定量研究的技术前沿和方法前沿;档案管理、档案信息化、档案工作、电子文件和数字档案馆等是定量研究的热点主题;高被引文献既反映出图书情报学科的研究成果对档案学文献定量研究的影响,也表明部分档案学者对促进档案学文献定量研究发挥了积极作用;基金论文达到了一定规模,但基于文献定量研究的基金项目还较少,需要争取更多基金支持来促进理论与方法的研究;论文篇幅、图表数量、样本数量较少的论文占比较高,反映出部分研究不深入、不系统。
(二)讨论
文献计量作为使用时间最长、至今仍常用的文献定量研究方法,掌握和使用看似较为容易,但在具体运用中需要严谨、细致。倘若获取的样本较为完备且题录数据质量较高,则由计量结果得出的结论会比较客观、科学,但档案期刊论文自身的一些缺陷(如无关键词或关键词不够规范、引文缺失或数量偏少、CNKI数据中可能包含的10个左右的机标关键词、机构的变化或不规范等),即便统计无误,也可能会使由计量或定量而得出的结果和结论产生偏差。采用科学计量、社会网络分析等其他方法的文献定量研究也是如此。因而作为分析样本的题录数据是基础,也是关键。所以,档案学文献定量研究要特别重视信息检索和数据处理,以提升计量结果的准确性,并尽可能减少数据本身带来的偏差。努力形成有特色的档案学文献定量研究,除了在技术和方法上吸收、借鉴,还应以创新的态度从研究的方法和手段上去发展文献计量和其他定量分析,如对传统的计量元素采用总量与分时段的统计可使数据体现出一定的动态性,从文献中挖掘题录以外的新的计量元素能丰富定量研究的更多层面。笔者也作了些这样的尝试,统计了篇幅、样本量、图表数等计量元素,试图以此来分析更多数量背后的研究状况和特点。
笔者在数据整理时还抽取了文献检索、数据来源、数据清理等信息作为计量元素,但限于篇幅,未作进一步相关分析,这既是本文的缺憾,也是今后應当研究的内容。从已作统计的各项数据以及数据处理过程对全部论文的浏览情况看,档案学文献定量研究还存在一些较明显的问题,《档案学研究中计量法运用的计量分析》一文也明确提出了值得思考的四个方面。努力提高研究水平不仅要引入新的技术和方法,更要结合档案学研究和档案文献的实际,注意定量分析法和定性分析法的有机结合[9],逐步建立起体现档案学特色的文献定量研究体系。
*本文为中央高校基本科研业务费资助项目“情报(信息)分析中的定量分析研究——以档案学定量分析为例”(2016SK04)的成果之一。
参考文献及注释:
[1]包昌火.情报研究方法论[M].北京:科学技术文献出版社,1991:206.
[2]罗式胜.文献计量学概论[M].广州:中山大学出版社, 1994:6.
[3]林清澄.《档案学通讯》十年引文的统计分析与评价[J].档案学通讯,1989(6):60-62,30.
[4]王新才,文振兴.档案学研究中计量法运用的计量分析[J].档案管理,2014(3):59-62.
[5]陈忠海,董一超.定量研究方法在档案学研究中的应用状况、问题及建议——基于2004-2015年《档案学通讯》《档案学研究》所载文献的统计分析[J].档案学通讯,2016(2):41-47.
[6]李晓明,严京生,宫启生.近十年我国数字档案馆研究的统计与可视化分析[J].档案管理,2014(2):59-61.
[7]《浙江档案》征稿启事[J].浙江档案,2015(4):5.
[8]《山西档案》投稿须知[J].山西档案,2015(1):165.
[9]李财富.关于档案学定量分析研究的反思[J].山西档案,1997(5):11-13.
[10]A式:TI=文献分析+论文分析+统计+社会网络分析+citespace+知识图谱+可视化+载文+计量+文献计量学+定量+引文+被引+词频+共现+聚类+全景透视+文献调查+综述+述评+评述+评析+著者+作者+实证研究+研究热点+学术热点+前沿热点
B式:TI=档案+兰台+公文+文档+文书+文件+全宗+归档+G7+荷兰手册+立卷+依法治档+文献保护学+弃档+存档+OAIS+和县模式+局馆合一+城市记忆+文献遗产+社会记忆+口述+保管期限表
C式:JN=档案+档案管理+北京档案+中国档案+浙江档案+山西档案+云南档案+档案与建设+档案学研究+档案学通讯+兰台世界+兰台内外+机电兵船档案+陕西档案+山东档案+城建档案+黑龙江档案+湖北档案+档案时空+四川档案+档案天地+上海档案+貴州档案+辽宁档案+档案工作+甘肃档案+机械电子档案+湖南档案+上海档案工作
作者单位:北京电子科技学院图书馆(档案馆)