李育桂 弥渡县档案馆
人工智能技术快速发展,引领了包括档案管理在内的众多领域智能化转型。文章采用文献计量的方法,选择中国知网中我国档案领域人工智能研究相关的文献作为统计和分析对象,从文献的发表数量、期刊和基金分布情况、机构分布趋势和研究热点等角度进行分析,进一步阐释我国档案领域人工智能的研究现状,为人工智能技术更好地应用于档案管理作出展望。
随着信息时代的快速发展,信息大数据爆发式增长,获取数据的方式越来越便捷,获取数据的成本越来越低,信息化对各行各业都产生了深刻的影响。面对高度信息化的时代背景,档案管理工作必须要结合大数据和人工智能,探索新的管理模式,提高管理效率,紧跟时代步伐。当下档案管理正发挥着越来越重要的地位和作用,日益成为国家基础性战略资源。随着云计算、大数据和移动网络技术的发展,人工智能的电子政务建设正在快速推进,并促进了电子档案的形成和管理,档案信息化与互联网利用必然成为未来的发展趋势。人工智能化对于档案的管理发展与拓新至关重要。通过将人工智能技术与档案管理进行融合,可以实现大数据的智能化管理与精细化管理,减少大量的人力、物力成本,甚至可以说产生革命性的变化,如传统意义上的纸质档案记录、档案保存室将逐渐减少,电子化的存储配以各种移动设备可以实现档案管理的无纸化、便捷化。但是,目前档案领域的人工智能研究还未有人通过文献计量学的方法进行研究。为了研究人工智能与档案管理的相关性,本文通过文献计量学的方法对中国知网中“档案与人工智能”相关的文献进行统计分析,初步分析该领域的研究现状。
中国知网(CNKI)是目前世界上全文信息量规模最大的“数字图书馆”,几乎收录了国内公开发行的各领域文献研究资料。本研究选择中国知网进行文献统计与分析。在中国知网数据库中选择高级检索,在主题词的的检索框中输入“档案”“人工智能”等关键词,选择包含“and”的精确检索,同时勾选所有中文文献,定义时间段为2010年1月1日至2021年1月1日。同时为了在检索的时候排除其他无关文献的干扰,确保我国档案领域人工智能研究论文的查准率与查全率,添加了以下检索条件:(1)只选择可信度较高、有一定学术价值的研究性文献,排除如报纸、杂文、年鉴、年会摘要等学术价值不高、专业性不强的资料;(2)只挑选文题中包含关键词的文献进行统计分析,其余无关文献进行排除。本研究共检索相关的中文文献268篇,经过对相关内容进行仔细核对后,剔除无紧密联系的文献30篇,并对剩余的文献进行仔细分析。
文献计量法是最近几年比较流行的文献统计方法,即通过大数据筛选、统计学分析对相关主题进行量化,进一步更加直观地描述或解释数据特征和变化规律。通过文献计量的方法可以量化、确定发文者的影响力;分析不同发文者研究成果的异同,是目前专业同行间评价的重要方法。本文利用文献计量的方法对国内档案人工智能研究论文的时间分布、发文期刊、研究机构、作者分布和研究热点等进行定量统计与定性分析,试图解析我国档案人工智能研究的发展趋势、研究进展、热点前沿、学科知识结构及其动态演化的关系。
首先,文献数量的变化可以直接反映出科学知识量的变化情况,故文献数量的多少是衡量知识数量的重要标准之一。本文的文献增长变化规律是以年度文献数量为标准的,从检出文献的统计结果来看,2010年至2018年我国档案领域人工智能相关研究文献数量较少,基本属于空窗期。随着国家《全国档案事业发展“十三五”规划纲要》的实施和人工智能相关技术的快速发展,我国档案领域人工智能研究的文献数量于2016年后急速增长,其中2018年的发文数为24篇,2019年的发文数为77篇,2020年的发文数为102篇,预测2021年的发文数将超过200篇。从学术成果发表数量和趋势看,我国档案领域人工智能相关研究正在成为当今和今后研究的热点。
其次,分析档案人工智能研究发文期刊的分布和层次,可以更好地把握该领域的研究现状,进一步明晰该领域的研究水平。我国档案领域人工智能研究载文量排名前十的期刊分别为《档案与建设》(7篇)、《中国档案》(5篇)、《兰台世界》(5篇)、《山西档案》(4篇)、《兰台内外》(4篇)、《北京档案》(4篇)、《档案管理》(3篇)、《山东档案》(3篇)、《山东档案》(3篇)、《档案学研究》(3篇)。其中档案学期刊有8种,综合期刊有2种,总的来看各期刊的载文量基本持平。从中国知网综合影响因子方面来看,在我国档案领域人工智能研究的载文量排名前十的期刊中,《档案学研究》的CNKI综合影响因子1.1为最高,其余杂志CNKI综合影响因子均未超过0.5。文献的影响因子低意味着影响力较低,未来如何在影响因子高、影响力较大的高质量杂志上发表档案领域人工智能研究论文是亟需突破的发展瓶颈。
第三,科技基金作为支持科学研究的主要资助渠道,可以促进知识生产与创新。从档案人工智能管理工作相关的科学资助基金看,排名前5的资助基金分别为国家社会科学基金(17项)、国家档案局科技项目(5项)、国家自然科学基金(3项)、江苏省社会发展科技计划(2项)、教育部人文社会科学基金(1项)。从统计的结果可以发现,基本上每年国家社会科学基金都对档案人工智能管理工作进行了项目资助,说明我国特别重视档案领域的人工智能发展与利用。
第四,文献发文机构和高产作者的研究分析可以进一步明确当前档案人工智能学术研究的现状。从档案领域人工智能研究发文机构和作者分析来看,我国档案领域人工智能研究发文量排名前三的机构分别为中国人民大学(18篇)、上海大学(10篇)、安徽大学(6篇),其所涉及的基金主要为国家社会科学基金及国家自然基金。在档案领域人工智能研究的发文数前10的机构中,只有云南华能澜沧江水电有限公司、深圳市世纪科怡科技发展有限公司两家企业,其余主要还在科研院校进行基础理论研究和验证阶段,说明档案领域的人工智能相关应用还未成熟。
第五,我们将2010-2021年中国知网检索到“档案与人工智能”相关的文献进行统计分析,同时将发文3篇以上的作者界定为高产作者,发文量排名前3的作者分别为黄霄羽(中国人民大学)6篇、管清潆(中国人民大学)4篇、陈秀丽(云南华能澜沧江水电有限公司)3篇。从高产作者的发文来看,档案与人工智能领域的发文相对集中在中国人民大学,且作者存在着小群体的相互合作关系。普赖斯定律是用来衡量各个学科文献作者分布规律的,因为科技情报学起源于文献计量学,科学计量学和文献计量学有很多的研究方法是类似的,所以普赖斯定律也成了研究科技情报学的方法之一。从作者的发文数与发文频率来看,目前档案领域的人工智能研究还没有形成稳定的高产作者群。
最后,文献的引文分析是利用数学及统计学的方法和比较、归纳、抽象、概括等逻辑,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,进而揭示其中的数量特征和内在规律的一种文献计量分析方法。通过对选定文献的引文分析,我们可以知道档案领域人工智能的总体发展情况,明确现阶段存在的问题。从收集的文献引文分析来看,90%以上的引文都源于国内的参考文献,很少涉及到国外的研究文献,说明该领域研究还不够深入、范围还不够广;引文大都是综述、调查研究,较少涉及到文献计量学的原理、方法;引用的文献主题、关键词大都类似,文献的具体内容也大同小异,很少有创新性较强的文献;引文的影响力普遍较弱,专业性不是很强,仅能起到科普作用,难以推动该领域的学科发展。
档案管理人工智能化是一个系统性的过程,不可能一蹴而就,在大数据时代的背景下,档案管理将更加依赖人工智能,如何将人工智能与档案管理进行深入融合仍旧是当前和今后的研究热点之一。