档案数据挖掘文献统计分析

2019-09-18 08:58谭美琴
资源信息与工程 2019年4期
关键词:发文数据挖掘期刊

谭美琴, 郑 川

(1.衡东县住房和城乡建设局,湖南 衡阳 421400; 2.中南大学 档案技术研究所,湖南 长沙 410083)

20世纪半导体技术的稳定进步使计算机硬件水平飞速提升,随之产生的数据以指数级增长,把社会带入信息爆炸时代。为从信息海洋中去粗取精,把散乱的数据转换成有用的知识,数据挖掘的概念应运而生。数据挖掘是指从数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息, 提取的知识一般可表示为概念、规则、规律、模式等形式。数据挖掘的常用方法有模糊方法、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法、归纳学习。数据挖掘技术最早在商业方面开始应用,用于辅助制定经营计划和销售策略,并逐步在医疗、电信、制造业和保险等行业得到应用。近年来,档案行业的信息化建设快速发展,数字档案资源极大丰富,档案数据挖掘成为了学界和业界研究的新方向。本文通过文献计量与内容分析的方式了解数据挖掘技术在档案行业的研究现状。

1 对象与方法

1.1 数据来源

以CNKI中国知网为论文样本来源,检索资源包括中国学术期刊网络出版总库、中国优秀硕士论文全文数据库、中国优秀硕士学位论文全文数据库(增刊)和中国博士论文全文数据库等。检索条件为:主题=档案and数据挖掘(精确匹配);发表时间=1999~2018年。检索共得到431篇文献。

1.2 研究方法

将检索结果导入文献管理软件Noteexpress 3.2.0进行处理,统计论文数量、发文年度、作者分布、研究机构、期刊分布,分析文献研究内容后进行分类并归纳各类代表性观点。

2 结果与分析

2.1 发文数量及年份分布

1999~2018年的20年间共有档案数据挖掘论文431篇,其发文年度分布如图1所示。从图1统计情况可知,2002年以前档案数据挖掘相关研究很少,2002年起该主题的年文献量呈现明显的上升趋势,到2018年发文数量达到61篇。年文献数量反映了近20年来档案行业对数据挖掘的关注不断增多,从事这方面研究的人员和机构数量在增长,研究成果也在增加。档案数据挖掘相关研究处于逐年发展的态势。

图1 1999~2018年档案数据挖掘发文年度分布图

2.2 论文作者分布

在所统计的文献中,作者总数为627人。其中74.48%的论文为个人独立完成,25.52%为合作完成,作者合作情况如表1所示,作者数最多的为9人合作。

表1 作者合作情况统计表

对所有作者按发文数量降序排列统计高产作者,生成词频云图如图2所示。南京政治学院的王兰成共发文4篇,辽宁省档案局的张伟和山东万杰医学院的张俊杰分别发文3篇,词频云图上其余作者各发文2篇,未显示在图2中的作者发文数量均为1篇。由此可见,档案数据挖掘领域的研究队伍虽有一定的规模,但高产作者偏少,有待形成核心骨干力量。

图2 高产作者可视化词频云图

统计作者所属单位共328个,其中中国人民大学信息资源管理学院、南京政治学院上海校区军事信息管理系、沈阳军区档案馆和华南农业大学档案馆4个单位的作者分别发文3篇,另有21个单位的作者发文数量为2篇,其余单位作者发文均为1篇。档案馆和高校档案学专业处于该领域的研究前沿。

2.3 期刊分布

431篇文献发表所属的期刊共有178种。选取载文量4篇及以上的期刊进行统计得图3所示饼状图,这17个期刊基本都是档案学方面的期刊,其载文量占总统计文献的28.31%,载文量最高的兰台世界共发布29篇。其余161个期刊平均载文量1.92篇,总的来说,档案数据挖掘文献的期刊分布比较分散。

3 文献内容分析

本文所统计的文献,从内容上看主要可分为档案数据挖掘相关理论研究和档案数据挖掘技术在某方面的具体应用研究。

3.1 档案数据挖掘理论研究文献分析

理论研究为主的文献主要探讨档案数据挖掘的发展方向、方法、算法和保密等跨学科理论问题。黄小忠和史江分析了基于知识管理的数字档案馆进行数据挖掘的对象是固化资源、智力资源和用户利用行为信息,在数据挖掘方法的选择上采用适合跨馆跨库的模式和算法,并注意用户隐私的保护。陶水龙分析了档案数据区别于大数据的特点,展望档案数据挖掘技术在档案管理精细化和提升档案应用价值等新方向上的应用,指出传统档案存储管理无法支持海量数据挖掘分析,提出基于语义网技术的海量档案数字资源挖掘方法,以提升档案管理和公众服务水平,并剖析了数据挖掘对档案管理系统建设的影响。张伟认为档案信息挖掘过程包括定义主题、准备数据、浏览数据、生成模型、浏览和验证模型、部署和更新模型六个基本步骤,重点对档案数据挖掘的前期规划、资源收集与存储整理、挖掘算法和分析模型、结果评价等关键技术环节进行了研究。王兰成针对档案数据库中的敏感信息保护问题,分析档案数据的特征及保护需求,引入敏感元组及其密度的概念,用于解除档案数据库中敏感数据挖掘存在的威胁,详细论述其思路和实现方法的同时进行了实证案例分析。王兰成和黄永勤基于国内外档案社会化媒体信息现状分析,借鉴文件管理体系国际标准和开放档案信息系统参考模型,顶层设计档案社会化媒体整合系统总体框架,并阐述了其实施方法和特色。王兰成和刘晓亮分析了网上数字档案的大数据特征,以及进行数据挖掘的需求与挑战,并研究了其中的关键技术。

3.2 档案数据挖掘技术应用文献分析

应用实践为主的文献主要描述数据挖掘技术在档案行业某个方面的具体应用和实践。郑向阳结合广州市城市建设档案馆的实践工作,介绍了城建档案数据挖掘对提高档案服务能力的应用价值。陈玉亮和张代华对江苏科技大学的科研项目档案数据通过聚类分析和关联规则分析后进行课题组科研绩效评估,为学校学科发展提供决策依据。黄华坤提出基于Autonomy知识与服务的构架,阐述该构架的数据采集平台、本体构建与分析平台和数据处理平台,通过Autonomy模式识别提取结构化和非结构化国土资源档案数据中的语义信息实现智能搜索与聚类分析等功能,并介绍了广东省国土资源档案馆的具体应用实践。杨茜雅介绍了中国联通的“两库两平台”档案智能利用方案:在企业档案数据利用中引入语义本体概念实现档案数据语义分析的流程,在此基础上构建联通电子档案知识图谱系统,通过数据挖掘平台把中国联通公司的档案资源库建设成档案知识库进行多维展示,实现知识图谱驱动的电子档案智能利用。覃艳在区域卫生信息平台上构建电子健康档案数据仓库,建模后分析对糖尿病患者进行分类的规则和糖尿病与其他疾病的关联规则,总结得到一些影响糖尿病病发的相关因素以预测潜在高风险人群。

4 结语

档案是原始记录,档案数据也因其特性而成为一种重要而特殊的信息资源,蕴藏着巨大的价值。档案数据挖掘也成为了档案学术界和实践部门的思考热点和研究方向。研究成果总体呈上升趋势;文献发表的期刊分布比较分散;高产作者偏少,未形成核心骨干力量;理论研究主要集中在档案数据挖掘的发展方向、方法、算法和保密等跨学科理论问题,档案信息伦理、档案数据处理等方面成果不多;实践应用方面主要描述数据挖掘技术在档案行业某个方面的具体应用和实践。

猜你喜欢
发文数据挖掘期刊
期刊更名启事
期刊简介
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
期刊审稿进度表
软件工程领域中的异常数据挖掘算法
期待您的加入