文/盐城师范学院 刘露
21世纪,数据已经渗透到各行各业并成为重要的生产资料,社会各界已经认识到数据的价值。2012年大数据成为各界关注的热点话题,各大网站、媒体、报纸均对大数据开展报道,众多行业相继提出大数据发展战略,大数据开启了继云计算、物联网之后的新一轮技术革命。不同学科领域包括档案学都想要在大数据研究热潮中占有一席之地。档案学者们致力于将大数据技术应用于学科信息化建设之中,自此大数据研究在档案学领域逐步发展起来,这也引起学者们对档案大数据研究热的思考和质疑。
以“大数据”为篇名在中国学术期刊全文数据库进行检索(检索时间2020年5月14日),2011年相关研究文献量为192篇、2012年为820篇,到2013年达到了2615篇,说明2013年以后关于大数据研究的文献数量急剧增加,多学科跻身大数据研究热潮。截至2020年5月14日,在中国学术期刊全文数据库以“大数据”和“档案”为篇名进行精确检索,时间跨度为2012~2019年,2020年文献数量不完整,故不列入分析范围,共获得检索结果2075条(如图1所示)。根据检索结果,我国档案学者关注大数据是在2012年以后,最早为施永利的《大数据时代背景下的档案利用服务探讨》一文,分析了大数据时代对档案管理和服务带来的挑战并提出利用数据挖掘技术来提高档案服务质量。从图1中可以看出2014年以后档案领域关于大数据研究文献数量明显增加。2016年4月国家档案局发布了《全国档案事业发展“十三五”规划纲要》,4次提到大数据,为档案界主动加入大数据研究提供了方向。2016~2019年文献数量逐年剧增,可以看出国内档案学界关于大数据研究始于2012年,2016年以后呈现爆发趋势并正稳步发展。研究内容主要集中在:档案大数据4V特征分析,大数据对档案利用、信息化等管理工作带来的机遇和挑战,数字档案馆服务新模式以及大数据技术在档案学研究中的应用等方面,学者普遍认同传统档案工作需要转变思维方式、工作方式,利用数据挖掘、数据分析等服务于档案工作,跟上大数据的潮流。
图1 2012~2019年中国档案领域大数据发文量年度趋势
(一)强调共享,忽视档案开放利用。自国际掀起大数据研究热潮后,几乎席卷了各行各业各领域,似乎不谈论大数据就是不与时俱进,不与大数据扯上关系就不是创新。当大数据概念被引入档案学研究时,学者纷纷提出档案数据符合大数据4V特征,要拥抱大数据时代。同时也有诸如于英香等专家学者对大数据被过度神化的现象提出了质疑。大数据时代的一个基本特点是数据开放与共享,档案馆拥有巨量档案资源,只有实现档案开放才能实现大数据技术在档案领域的广泛应用。档案开放是发挥和呈现档案价值的直接方式,但目前档案开放存在鉴定责任主体模糊、开放程度低、档案利用与隐私保护不平衡、缺少补救保障机制等问题。根据国家统计局统计年鉴中的统计数据,国家综合档案馆档案开放率由2008年的24.2%降到2018年的15%,如图2所示。
图2 2008~2018年国家综合档案馆档案开放率(%)
(二)强调融合,忽视学科之间内在联系。党的十八大习近平总书记提出构建人类命运共同体,为治国理政提供了新思想,也为跨界合作提供了新视角。学科之间不是反对、排斥关系,而是一种对话、合作、互利、共赢的关系,开放融合成为各学科发展的趋势和学者鼓励的方向。追求融合不是两个或多个学科的简单嫁接,需要找到契合点,找出学科融合过程中可能出现的短路问题,将其他学科中有价值的、经过验证的理念、技术通过契合点与档案学科联系在一起,实现无缝连接的融合,而不是将所有主流观点、理念、思想、技术、手段等都强加到档案学中,否则只会带来档案学与其他学科的脱节。融合发展可以借助双方力量,不单是数量的简单叠加,更是质量的融合,2018年在党和国家深化机构改革的背景下,各级国家综合档案馆推行局馆分离,档案馆只拥有保管利用的职能,其行政职能归属党委管理。档案馆要明确自己的核心职能,档案学科要明确发展方向,在自身发展的基础上,拥抱大数据技术,形成学科发展的有效性连接,实现两个学科在融合中的一体化成长。
(一)立足学科根本,追求大发展。大数据技术已经被交通、医疗、教育、媒体、金融等众多行业接受并得到广泛传播和应用,但大数据时代对档案开放、鉴定等方面提出了更高的要求,大数据技术及在档案领域的应用还没有成熟,因此,档案部门不应过多强调大数据技术和应用的追逐,而应关注数据时代的到来给档案工作内外部带来的变化,明确学科在大数据热潮中的方向。
档案学科自成立以来,理论和实践方面一直存在难以攻关的重点和难点问题,如档案开放、鉴定该如何把握一直是实际工作中的难题。档案开放是档案开发、利用、服务民众等各项工作的基础。档案馆作为国家、机关、社会组织、企事业单位社会实践活动原始记录的保管基地,掌握着巨大的数据资源,是拥有覆盖历史、现在和未来数据资源的宝库。大数据研究需要以海量数据为基础,档案开放是前提更是基础,只有解决学科发展中的重难点问题、核心问题,抓住主要矛盾,由小见大,完善学科体系,才能有序推进研究,推动学科长远发展。2019年10月,十三届全国人大常委会第十四次会议初次审议《中华人民共和国档案法(修订草案)》,我国档案封闭期拟由30年缩短为25年。加大档案信息开放力度,由内而外先解决档案学科自身的基础性问题已经成为大数据应用到档案领域的基础性工作和条件。一个学科的发展要注重广度,更要注重深度。求小放大和求大放小相结合,以档案学自身发展为前提,放眼未来,逐步实现与其他学科融合的大发展趋势。
(二)夯实数字化,迈向数据化。档案数据化被认为是档案数字化发展的新阶段,它是指档案部门以用户需求和业务需要为导向,将数字档案资源转换为可供阅读、分析和处理的档案数据资源的过程。档案数字化是数据化的基础,数据化是在对数据信息进行识别和处理的基础上完善的。目前我国档案数字化工作还停留在对数字化档案资源的组织、检索层面,通过互联网已经实现主题检索、关键词检索、全文检索等基础操作,但对档案内容信息挖掘并不深入,档案中所包含的复杂信息内容、信息间隐含的语义关系等都无法得到识别和分析,对档案内容的组织和检索服务不够智能化、智慧化。通过数据化,对数字档案资源和归档电子文件的数字内容进行识别、分类、著录和标引,对其包含的数据信息进行重新分割和关联分析,从中提取关键数据成分,将非结构化的档案数据和文档数据实现结构化分析,可以实现档案资源由可读模式转变为可分析、可计算模式。
在完善数字化工作的基础上部署实施档案数据化工作,有助于进一步推进档案信息资源在数据层级的深度开发,实现档案数据资源的融合、关联、挖掘与分析,推动档案知识发现和知识服务的开展。档案部门保存着大量有价值的一手档案资源,作为档案资源大户,档案部门要善于运用数据分析、数据挖掘技术分析档案数据,对其进行聚类、分类和相关性分析,找到数据间的关系,建立数据模型,从海量数据中揭示出隐含潜在价值的信息,从档案本身获取档案数据,为社会公众提供智能化、智慧化档案服务。
(三)积累小数据,放眼大数据。大数据时代,有人说一切文件和记录都将成为档案,确实给档案学科发展带来了影响,但并没有改变档案原始记录性,只是出现了更多新兴档案门类。面对新事物新概念的出现,需要重新思考档案学的概念系统和研究范畴,明确哪些数据流具有档案特征,传统的管理理论是否适用。档案是一种重要的社会信息资源,其中蕴藏着无法估量的社会价值,已经成为大数据时代最重要的信息源之一。档案数据来源于档案本身,必须做好档案基础性管理工作,积累档案资源,才能从档案资源中获取档案数据信息。大数据与统计学、数学等知识相关,单一数据无法发现其中规律,对大量数据进行搜集和分析才能发现数据本身蕴含的价值。
小数据就是每份档案所包含的时间、人物、事件、作者等内容信息和背景信息,这些数据信息不仅能展示过去发生的事件,也能通过数据之间的重组、关联找到某种规律,甚至预测未来的发展趋势。立足于小数据,可以更好地根据用户需求提供需要的数据,能根据用户的特征提供个性化数据。不积跬步,无以至千里,以小数据积累用户,以大数据洞察外部环境,依托先进的技术手段实现档案智能化管理,共同助力档案学科发展。
大数据研究热潮持续升温,档案学应在夯实档案开放利用、数字化等工作的基础上,充分运用大数据技术挖掘数据资源,放眼大数据,追求既有专业深度又有跨学科研究广度的发展趋势,与大数据及其他学科开展跨学科的研究和合作,以期在社会转型期依然能够应对各种挑战,实现档案学科的大融合、大发展和跨越式进步。