基于文献计量及社会网络的档案信息化研究

2020-11-20 06:07杨典杨鑫苏慧慧罗静
现代计算机 2020年29期
关键词:载文发文期刊

杨典,杨鑫,苏慧慧,罗静

(贵州财经大学信息学院,贵阳 550025)

0 引言

随着信息时代的快速发展,我国档案信息化建设工作不断受到关注。档案信息化实质是指档案管理部门借助现代化计算机技术,构建专门为档案管理工作服务的设备及平台,进而提高档案资料的收集、整理、开发及利用等工作[1]。国内对档案信息化的研究主要以梳理档案信息化概念及发展进程为主,学者马仁杰、张浩(2011)[2]分析社会转型时期我国档案信息化的建设过程,对档案信息化理念有了新的界定,提出将政府信息公开与档案信息化建设相结合,充分利用档案信息资源;薛惠芳(2013)[3]认为档案信息资源整合是档案信息化建设的根本目标,并建议资源整合参照电子政务建设过程。

综上所述,我国对档案信息化的研究大多集中于理论分析,部分通过分析文献的方式,归纳其发展趋势,但所用到的研究方法在一定程度上带有片面性,无法确保文章质量。因此,本文通过文献计量及社交网络分析法对档案信息化相关期刊文献进行分析,识别其核心作者及核心团队,通过数据系统分析此领域研究的发展现状。

1 主要研究方法

1.1 文献计量

文献计量分析法是指基于数学、统计学原理对学术期刊文献分布特征进行研究的一种方法。我国有部分学者借助文献计量法研究了档案领域的期刊文献,如李萍(2012)[4]借助文献计量法研究2010-2011 年间档案从业者关于理论分析的研究现状,得出档案从业人员在档案理论研究中长期处于配角地位。杨静、路思(2014)[5]以档案信息化为主题词进行核心期刊的搜索,利用文献计量法分析1997-2013 年档案信息化相关文献的发表年限、来源期刊等,得出此阶段我国档案信息化研究呈波浪形上升趋势,但总体发展不是很理想。

1.2 社会网络分析

社会网络分析主要用来挖掘社会行动者之间的潜在关联,尤其在探索某领域内研究主题、核心团队等方面发挥着重要作用[6]。如刘则渊与尹丽春(2008)[7]用社会网络分析法对国外科学计量学领域中6 种核心期刊进行分析,统计其高频关键词,结果发现,科学、技术及创新活动为该领域内主要的重要主题,代表着当时的研究现状。此外,邱均平教授[8]结合共词分析与社会网络分析,研究了我国图书馆学科结构与图书情报博客网络结构。

2 研究设计

2.1 研究思路

本文旨在对档案信息化领域的成果进行可视化梳理和分析,其研究思路如图1 所示。

图1 研究思路图

详细步骤如下:

(1)在知网上完成文献数据的检索与下载,将作者、题名、期刊来源、发文机构等7 个特征整理并保存于计算机。

(2)对所获数据进行预处理,如合并同义词、去除异常值等操作。

(3)将文献数据进行梳理和计量,从中提取并分析其时间分布、期刊载文、成果分布等特征。

(4)借助普赖斯和综合指数识别和遴选出档案信息化领域中的核心作者。

(5)利用社会网络分析法挖掘领域核心团队并绘制合作关系图谱。

2.2 数据采集及预处理

本文以CNKI 为数据来源,以“档案信息化”为主题进行高级检索,来源类别选择“核心期刊+CSSCI”,共收集1995-2019 年间2264 篇文献。为保证数据质量,对所获数据进行预处理,包括去除异常值、同义词合并[9],如将“档案资源”与“档案信息资源”合并为“档案信息资源”,最终获得有效文献2016 篇,详细信息如表1所示。

表1 数据统计汇总表

3 档案信息化相关文献分析

3.1 文献时间分布分析

本文借助PyEcharts 技术对数据进行可视化分析,结果如图2 所示,可以看出,发文量在2012-2013 年间达到最高(300 篇),随后呈现出下降态势,表示关于档案信息化的研究热度有所变弱。而最高下载量和引用量则相对稳定,其中,最高被下载量是2010 年刘琴发表的《人事档案管理研究述评及趋势展望》,共被下载4288 次。最高被引用量是2002 年的王佑镁发表的《电子学档:信息化教学的新思路》,共被引用139 次。通过绘制发文量、引用量及下载量趋势图有助于直观把握该研究领域的文献年代分布特点。

图2 档案信息化发文趋势图

3.2 载文期刊分析

对学术论文的载文期刊进行分析,有助于把握研究主题的核心期刊群。经统计,2016 篇关于“档案信息化”的文献分布在168 种期刊内,其中载文量≥4 的期刊有29 种,共计1823 篇,占总发文量的90%。因此对载文量≥4 的期刊进行分析,结果如表2 所示,其中《兰台世界》发文量最高(544),发文量明显超过其他种类期刊,说明该期刊是档案信息化研究领域的核心载文期刊,其次是《中国档案》、《档案与建设》,载文量分别是212 和200。从载文期刊分布来看,档案信息化在全国各地相关档案工作中均有受到重视。

表2 期刊载文统计(≥4)

3.3 学术成果发文量统计

为进一步发现研究领域的核心作者,文中对其发文量和机构进行统计分析。结果如表3 所示,苏州大学张照余发文量最高(13),其研究内容大多以档案信息技术的发展和影响为主。北京大学档案馆李海军和合肥师范学院裴友泉等发文量也较高,分别为10 和8,他们所发表文献的主题大多围绕在档案信息化系统设计、档案信息孤岛消除等方面。

表3 作者发文量统计(≥3)

4 档案信息化文献核心作者发现

相比以发文量为指标统计出核心作者的方法,本文依靠普赖斯和综合指数等多指标方法更为精确和全面,具有极高的参考价值。

4.1 普赖斯定律识别核心作者候选人

此部分主要通过普赖斯定律统计最低发文量及文献最低被引量,并在此基础上初步选出核心作者候选人,具体步骤如下:

(1)通过普赖斯定律计算最低发文量Mp,Npmax代表作者的最高发文量(见表3),根据式(1)计算,最低发文量取值为3。

(2)接着计算最低被引量Mc,Ncmax表示领域内作者文献的最高被引量(见表1),经式(2)计算,Ncmax取值为9。

(3)最后根据Npmax和Ncmax筛选出67 位核心作者候选人,共发文266 篇(占总发文13%),总被引用2351 次。

4.2 综合指数算法确定核心作者

此部分旨在从67 位候选人中计找出最终的核心作者,首先分别计算候选作者的平均发文量与平均被引量,如式(3)和式(4)所示。

式中,X总为候选作者的总发文量(266),Y总为候选作者文章的总被引量(2351),n 为候选作者数(67)。

其次,通过综合指数scorei来确定核心作者,计算过程如式(5)所示:

式(5)中:Xi与 Yi分别是 67 位核心候选人各自的发文量及被引量,其系数值均为0.5。

最后,依据综合指数计算出核心作者排名,结果如表4 所示,从中发现,作者张照余居于榜首,共发文13篇,被引212 次,综合指数为4.66;其次是作者倪丽娟和薛四新,综合指数分别为3.15 和2.52。

表4 档案信息化研究领域核心作者

5 档案信息化核心学术研究团队挖掘

运用社会网络分析法挖掘档案信息化领域内核心团队,有利于了解该领域中作者的合作状况。此部分借助Ucinet 根据数据绘制作者社交网络知识图谱,过滤掉无合作关系的作者后,结果如图3 所示,其中,矩形框表示作者,连线表示合作关系,黄色为发文量≥5的作者,而红色、紫色、蓝色分别为发文量是4、3 和2的作者。可以发现该领域主要有7 个学术团队,其中合作规模最大的是权宇彤、闫国栋等人组成的团队,主要针对高校档案信息化系统的规范化使用进行研究;其次是由徐华、杨艳等人的团队,主要致力于智慧档案馆的研究;此外还有钟文睿等和裴友泉等团队,分别研究档案数字资源的整合与服务、档案信息化与国家战略间关系。

6 结语

档案信息化是档案领域持续发展的必经之路,具有重大战略意义。随着大数据的到来,国内档案领域的研究成果也层出不穷,但仍然是理论分析较多,以数据挖掘等技术为主的研究还较为缺乏,很难全面挖掘出档案信息化领域的价值信息。

针对以上不足,本文借助文献计量及社会网络的方法,精准地对数据展开研究。首先对文献时间、期刊及作者等特征进行计量分析;其次采用普赖斯和综合指数算法深度挖掘领域内核心作者;最后通过社会网络法绘制核心团队知识图谱。以期为档案信息化领域内的后续研究提供一定的参考。

图3 作者社交网络关系图

猜你喜欢
载文发文期刊
期刊更名启事
期刊简介
七部门联合发文 进一步完善和落实积极生育支持措施
文以载道与道以载文
交通领域典型期刊载文知识图谱分析
坚持文化导向 打造精品科技期刊——《编辑学报》2008—2018年载文关键词分析
期刊审稿进度表
校园拾趣
爷孙趣事
以牙还牙