王大青
摘 要:数据分析的质量事关档案事业的科学发展。当前,档案领域数据分析效益因缺乏固定而专业的分析师受到严重影响。文章从档案领域数据分析师岗位设置意义、岗位职责和素质要求三个方面进行论述,以利于档案事业科学地、集约化地快速发展。
关键词:档案大数据;数据分析师;岗位需求;岗位职责;素质要求
Abstract:In the big data era, data analysis can affect the development of archival cause. At present, the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements, the post duties and the quality demands of data scientists in archival field.
Keywords:big data of archive; data scientist; post requirements; post duties; quality demands
大数据时代,数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中,人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下,作为大数据的关键组成部分——档案大数据的地位和作用也逐渐凸显出来,它是大数据重要维度即历史维度数据的核心,在各个领域都有很好的应用前景。但是,应该看到,受保密、档案管理机制等因素的制约,档案大数据的应有价值还没有得到充分发挥,档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益,对档案大数据进行分析,优化档案事业发展方案,更好地为领导决策和各领域工作的开展提供数据支撑,成为档案工作的重要组成部分,这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆(室),都在开展档案数据的统计和分析工作,但是,由于缺乏固定而专业的分析人员,从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看,仍有待进一步增强。在此种形势下,档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。
1 档案领域数据分析师岗位设置的意义
大数据时代,数据分析在各领域有着十分重要的意义,各行业对数据分析师的需求与日俱增。与其他数据相比,档案大数据很大一部分源于政府、军队等组织机构的活动,具有权威性和凭证性等不可替代的价值特点,虽然有着服务社会、服务百姓的义务,但又必须确保国家利益不受侵害。因此,在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。
1.1 优化档案资源体系建设的需要。从局部看,各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看,各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目,全面地对档案资源建设现状进行分析,就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们:当今,电子文件的增长几乎达到了几何级。例如,阿富汉战争期间,美军为打击一小股恐怖分子,其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前,如何分类电子文件、确定保管期限?网站、微博、通讯交友软件等产生的数据,哪些是需要作为电子文件保存的、又该如何保存?现有馆(室)藏档案资源,哪些方面需要丰富、哪些方面需要“瘦身”?如何从国家层面调控档案资源体系建设?这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。
1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的,掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源,其利用具有扩展效应,即一次成功利用可能会激发人数更多、范围更广、程度更深的利用,例如名人档案、著名战役档案、历史典故档案等;有的档案资源,其利用具有递减效应,即一次成功利用之后可能很长时间内不会再有第二次利用,例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品,则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析,有助于档案部门聚焦服务热点,提前做好档案信息服务预案,根据用户需求方向准确提供档案资源及其编研产品服务。
1.3 推动档案管理科学发展的需要。近年来,档案事业出现了一派欣欣向荣的景象,尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是,无论是硬件建设、还是软件建设,离精细式、集约化科学发展尚有一定距离,这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说,同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位,则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析,可以有效地冲破经验主义思维的“篱笆”,发现和把握新形势下档案管理工作的发展规律,更加统筹、协调和集约化地利用管理资源,构建档案事业发展的良好生态。
1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用,档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用,已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑,是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师,无疑会有助于提升档案信息服务于社会的广度与深度。同时,也有助于档案部门把握契机创新服务社会的模式与内容。
2 档案领域数据分析师的岗位职责
档案领域数据分析师,可以依据各级主管部门、档案馆(室)的编制和事业发展状况合理配置,其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析,并制定优化方案和提出发展规划建议。
2.1 档案资源数据统计和分析。档案资源数量统计和分析,主要是对馆(室)藏或者主管范围内的档案资源数量情况进行统计和分析,包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。
档案资源质量统计和分析。主要是对馆(室)藏或者主管范围内的档案质量情况进行统计和分析,包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。
档案资源优化方案的制定。基于馆(室)功能,在科学分析的基础上,提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角,有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆(室)藏方向,分析档案资源可能的分布点,为收(征)集工作提供指导。具体分析档案著录、目录数据库构建情形,提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时,对全文数据质量进行优化。根据档案完好度统计,制定档案修复计划。
2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析,包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等,从共性和个性等方面进行分析和研究。
档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分,分别进行统计和分析,并关注其利用效益。同时,分析一定时期内得到用户关注和利用的档案资源,尤其是得到用户重点关注或利用的档案资源。
档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析,与图书情报资源等相关领域的检索效率进行对比,考虑其是否满足用户需要,有无改进策略。密切跟踪信息和知识领域的发展前沿,将先进的技术和工具应用到档案检索效率的提升上来,主要是对档案信息组织和检索模式提出创新方案。
档案利用发展趋势预测。由于社会和国家发展的需要,人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势,科学地统计和分析用户的潜在需求,准确地预测出档案利用的重点方向,从而有针对性地做好档案利用准备工作。例如,编史修志工作往往在国家层面、某一系统或行业层面进行统一行动,有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合;个人利用档案,往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等,引导档案信息资源的开发,借助大数据工具,利用档案信息资源整合平台,充分地进行知识挖掘,高效地构建专题数据库,向用户推送档案信息资源。
2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代,不仅要求档案工作者具有较高的信息素养,而且需要档案工作者转变理念,从知识管理视角出发,为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析,要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。
档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师,应可以系统地设置档案事业各类统计表格,并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况,还要分析各级组织机构对档案事业的组织领导形势,包括工作规划、经费投入和对档案事业的关注度等。
档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下,对行业内硬件、软件建设情况进行统计和分析,要重点对档案馆(室)库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析,避免低水平重复建设、提升管理资源利用效益。
制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要,从档案工作者个体出发,提出人才培养和培训方案。从档案人才队伍整体建设出发,合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面,从档案事业整体发展视角提供指导意见,合理配置各类设备设施。在应用系统开发方面,针对技术发展形势及时提供建议,为颁布软件系统需求标准、协调资源做出贡献。
2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案,还是文书档案,其利用都是围绕着组织机构(或个人)的业务行为开展的。因此,从业务层面对档案内容大数据进行分析,是档案大数据分析的重要内容。根据各专业发展的需要,利用高效、可视化的图形分析工具,对档案文件内容大数据进行分析,挖掘出其中蕴含的知识点,以指导各领域业务工作的科学开展。
3 档案领域数据分析师的基本素质要求
数据分析师肩负着对档案事业各类数据进行统计和分析的职责,并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案,这就要求其具有高度的事业心和责任感,具备档案、计算机、数学和管理等领域专业知识和技能。
3.1 思维开阔,开拓精神强。无论是统计项目的设置、还是优化方案的制定,都要求档案领域数据分析师关注相关领域前沿发展形势,具有开阔的思维和较强的创新意识,能够敏锐地捕捉到档案事业发展中的主要矛盾,打破旧的思维和工作运行模式,为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。
3.2 档案专业功底扎实。档案领域的数据分析,其出发点和落脚点均在档案收集、管理和利用。因而,数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论,而且要掌握领域前沿发展和理论创新情况,密切跟踪行业发展实践,能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。
3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道,必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师,应了解机器学习、人工智能和自然语言知识,能够结合领域实际,提出具体的统计、分析软件系统需求;能够熟练操作基本分析软件,掌握大数据分析工具的使用(如R软件、SPSS、MATLAB),准确地采集、处理数据,必要时进行数据迁移;能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。
3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理,都离不开管理学基本理论的运用。因此,档案领域数据分析师应熟悉现代管理学基本理论,具有严谨的逻辑思维能力和较好的文字表述能力,能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。
3.5 灵活运用统计和分析基本方法。在可视化需求不断增长的今天,人们需要数据分析师能够直观地将统计和分析结果呈现出来。这就要求档案领域数据分析师熟练掌握数据分析与建模方法,牢记统计、分析的基本程序和原则,将分析结果以图形化方式表述出来,必要时加以创新和发展,从定性分析和定量分析两个视角,为档案事业的科学发展提供数据支撑。
此外,在对档案文件内容大数据进行分析和挖掘时,还要求数据分析师了解相关领域的专业知识,或者与相关领域专业人员密切协作,以确保分析过程和结果的质量。
参考文献:
[1]丁世飞,靳奉祥,赵相伟.现代数据分析与信息模式识别[M].北京:科学出版社,2012.
[2]金光.数据分析与建模方法[M].北京:国防工业出版社,2013.
[3]郑毅.证析——大数据与基于证据的决策[M].北京:华夏出版社,2012.
[4]艾伯特-拉斯洛·巴拉巴西(马慧译).爆发:大数据时代预见未来的新思维[M].北京:中国人民大学出版社,2012.
(作者单位:68024部队 来稿日期:2016-08-07)