王向女 袁倩
摘要:大数据时代催生了一门集合新理念、新方法、新技术以及全新应用和实践于一体的新兴学科,即数据科学。数据科学的出现为档案管理从数字化到数据化的转型提供了工具、思维和理论方法上的便利,引发了档案数据管理在管理技术、人才培养和实践操作层面的创新发展。但同时,数据科学潜藏的威胁也给档案数据管理敲响了警钟。数据科学背景下的档案数据管理,既不能掉落数据陷阱,也不能满足技术现状,“美梦”是虚幻的,“陷阱”是潜藏的,档案数据管理要清醒地认识到数据科学的利与弊,才能使自身发展行稳致远。
关键词:数据科学;档案数据管理;数据分析;数据生态
分类号:G270.7
Dreams or traps?——Research on Archives Data Management Under the Background of Data Science
Wang Xiangnv1,2, Yuan Qian1
(1.School of Library, Information and Archives of Shanghai University, Shanghai, 200444;2.Archives Profession and Academic Evaluation Center of School of Information Management of Zhengzhou University, Zhengzhou, Henan,450001)
Abstract:The era of big data has given birth to a new discipline, namely data science, which integrates new ideas,new methods,new technologies and new applications and practices. The emergence of data science has provided the convenience of tools,thinking and theoretical methods for the transformation of archives management from digitalization to digitalization,which has led to the innovative development of archives data management in management technology,personnel training and practical operation.Meanwhile,the potential threat of data science also sounds an alarm bell for archives data management.Archives data management under the background of data science can neither fall into the data trap nor satisfy the technical status quo.Dreams are illusory and traps are hidden.Archives data management should be aware of the advantages and disadvantages of data science soberly so as to make its own development steady and far-reaching.
Keywords:Data Science; Archival Data Management; Data Analysis; Data Ecology
數据科学是当前信息科学领域的热点话题,是继云计算、大数据、物联网之后,对信息资源的管理、利用和服务造成极大影响的新兴学科。受其影响,档案数据管理正取代数字管理和信息管理,成为大数据时代档案管理的新宠。面对数据科学带来的浩如烟海的数据资源、主动创新的思维方式和灵活多变的数据处理工具,档案数据的“活化”拥有了更多的可能。
1数据科学与档案数据管理
1.1数据科学的发展轨迹
1974年,图灵奖获得者Peter Naur在其出版的著作Concise Survey of Computer Methods中明确提出了数据科学(Data Science)的概念,即数据科学是一门“基于数据处理的科学”。相比偏好运用数据处理技术于教学中的“数据学”而言,他指出数据科学侧重解决数据问题[1]。此后,数据科学有一段时间的“沉默期”,直到1996年,国际分类学会联合会年度东京会议以“数据科学,分类及相关方法”为议题,才再次提及“数据科学”[2]。进入21世纪之后,数据科学的发展迎来转机。2001年贝尔实验室的Cleveland在学术期刊International Statistical Review上发表了题为“Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”的论文,主张数据科学是统计学的一个重要研究方向[3]。2002年4月,Data Science创刊,它专门刊载科技领域中的数据及数据库管理方面的文章,预示着“数据科学”逐渐成为一个独立的研究领域。而这之后,《数据科学家:21世纪最性感的职业》论文的发表、2012年大数据思维帮助奥巴马赢得总统选举及2015年美国白宫设立数据科学家专门职位三件事,更是引起学界广泛瞩目,使得“数据科学”在计算机领域和统计领域的纯“数据计算”色彩以外,增添了更多商业、社会和信息领域的内容。越来越多生物医学、社会科学、信息科学领域的学者开始关注这一新兴学科。
国外学者针对数据科学的成长曲线、学科定位和知识体系等开展专门研究。例如,Gartner总结出数据科学及其各项具体技术正逐渐由初始状态走入稳步上升阶段,整个过程中具体的技术因发展限制而处于不同时期[4];Cathy O’Neil等总结了揭示数据科学学科定位的维恩图,指出这是一个处于统计学、机器学习和领域知识交叉部分的学科[5]。国内关于数据科学的研究则主要集中在具体学科领域的应用,以及技术工具的讨论和国外数据科学研究介绍和反思等方面,有关数据科学和档案管理的结合研究,成果还很少。
1.2数据科学背景下档案数据管理的兴起
进入大数据时代后,“存量数字化、增量电子化”的口号使得档案工作需要处理海量的数据资源,同时“互联网+”环境下,档案服务的线上拓展使得档案部门与社交媒体、新媒体的合作越来越多,原本的数据池内又出现了更多类型各异、结构分散、异地异构的数据。这些急速增长的档案数据给档案管理的原有理论、方法和技术都带来了巨大的冲击,并引发了一系列新的管理问题,促使档案管理不得不考虑向数据型和开放型模式转型,档案数据管理因此作为大数据科学和计算机科学、档案信息化交叉的研究领域,成为学界研究的重点问题。
将档案数据管理按照“种属关系”分解为“档案”+“数据管理”,或是将其拆分为“档案数据”+“数据管理”均不会打乱核心问题,也就是档案数据管理,仍然属于“数据管理”的重要组成部分,可以视为数据科学中数据管理理论在档案学中的本体化[6]。数据科学主要解决了档案数据的快速增长和精准有效利用之间的矛盾问题,创新之处在于数据科学实现了档案数据的数量“增殖”和价值“增值”之间的和谐。
首先,数据科学是一个交叉性学科,不论是专业的数据科学,还是专业中的具体数据科学,都面临着数据大量涌现和快速增加的现状,档案数据也呈现高速增长的态势,档案数据池的无限扩张与数据科学的“增殖性”相辅相成。其次,为了提高处理海量数据的质量,在数据加工环节,数据科学注重融入科学家的创造性设计、批判性思考和好奇性提问,在尊重和认可数据复杂性的同时,加入了人的“能动性”创造,为数据人为赋予价值。
对档案数据管理而言,档案数据面临价值重构的威胁。数据科学的“人赋价值”特性在一定程度上可以回答档案数据是否有价值、有何种价值等问题,即档案数据的价值在于海量数据基础上的价值增值。在数据科学的理论、技术和思维等因素影响下,档案数据管理要谋求发展,取得突破,数量的增加和质量的提升是不可回避的问题。
2数据科学影响下档案数据管理的突破口
数据科学解决的是海量数据的快速处理和精准分析等问题,而档案数据管理在数据量急速增长的现实环境中,亟需新技术、新方法和新理念来减轻海量数据处理的负担,数据科学的相关技术和思维则在一定程度上为档案数据管理突破“困局”提供了便利。
2.1数据分析和加工技术促进档案数据管理的“有序化”
数据分析和数据加工技术是数据科学知识体系的重要组成部分。数据科学关注的是如何使混乱无序的单个数据整合成系统整齐的数据集,以便研究和利用。数据加工使得数据处理和准备不再局限于數据的简单清洗,而是在处理过程中注重数据价值的表露和创造,并且通过数据打磨和柔化技术,使数据呈现整齐的状态;数据分析则利用开源工具揭示数据之间的联系,迅速洞见数据之间的内在关联和价值。“拥有大量的数据本身并不会增加任何价值,数据的核心是发现价值,而驾驭数据的核心是分析。”[7]依靠数据加工和数据分析技术,庞杂无序的档案数据可以在最短的时间内呈现相互关联、有序的状态,使得档案数据管理获得关联清晰、逻辑清晰、价值清晰的数据序列,为档案数据的进一步加工、利用奠定坚实的数据基础。
2.2数据思维模式加速管理工作的“数据导向”
数据科学的横空出世,使得传统科学中常用的基于“知识”“目标”或“假设”的行动范式受到冲击,基于数据的行动范式成为大势所趋[8]。传统的科学研究中以DIKW层级模型“数据(D)—信息(I)—知识(K)—智慧(W)”[9]较为常见,由于数据科学的影响,使得数据和信息、知识的边界变得更加模糊,数据可以跳过信息、知识的提取和转化过程,直接上升为“智慧”,因此引发“数据—问题”范式的出现[10],即利用数据或样本数据直接解决现实问题,这是一种强调数据不经过知识的转化环节而直接应用的范式。“数据能直接解决问题”这一显著特征,影响了档案数据管理的导向,即由内容驱动向数据驱动转变,由信息公开向开放数据转型。当前开放数据已成为社会各界的共识,北京市政府就指出,到2020年政府部门公共数据的开放率要超过60%[11]。数据科学背景下的“数据范式”影响了档案数据管理的思维模式,档案数据管理正式迈入“数据驱动”时代,并且在数据思维的引领下,档案管理工作,尤其是开放数据等与数据研究、利用相关的工作会碰撞出新的火花,促进档案数据价值不断增长,并真正用在实处。
2.3用户至上理念激发档案数据管理的“人本思想”
长久以来,不论是档案管理和服务领域还是其他的信息咨询服务行业,“查全率”“查准率”始终是检验服务质量和结果的重要指标和参照。但是面对大数据时代数据量持续增长、无限扩张的态势,查全率和查准率成为越来越难以企及的高度。即便是利用最现代、最快速的数据库技术、数据加工技术,也难以在满足查全率的基础上,保证数据的精准投递,抑或在保证查准率的前提下,保障用户获取所需数据的时间可控。而数据科学的相关技术备受青睐就是因为充分考虑到用户的使用体验,尽可能地节约用户搜索、浏览的时间,并且为其提供精准结果。因此,档案数据管理和相关的信息咨询服务行业不妨将服务质量的重点放在用户体验上,切实将“以用户为中心”理念贯彻于档案数据管理的全过程。为了使用户最终得到满意的数据结果,在设计档案数据管理流程时,每一个环节都需要考虑用户的体验效果,例如前端数据收集的针对性和真实性,中期数据整理的有序性和系统性,以及后端档案数据库和信息系统检索利用的简洁性和易获取性等等。档案数据管理的整个生命周期都围绕用户展开,是档案数据价值实现的主要推动力。
2.4专业人才团队打造档案数据管理的“好口碑”
档案数据管理的目的就是为了使档案数据得到充分的开发,价值得以充分挖掘。通过一系列专业的数据分析和加工,使档案数据的价值不断实现,不断创造新的价值,形成良性的效益反馈。实现这一目的关键就在于拥有一支高效、专业的数据管理团队,收纳专业的数据分析人才、数据收集和整合人才、数据加工人才等。传统人才培养环节注重的是数据工程师对数据的基本处理和操作能力,但数据科学背景下,由于强调数据的价值增值,更多关注的是基于数据的处理、决策、研发等能力,“数据科学家”就在这一阶段脱颖而出。美国国家自然科学基金会(NSF)下设的国家科学委员会将“数据科学家”定义为“信息和计算机科学家、数据库和软件工程师、领域专家、策展人员和标注专家、图书馆员、档案工作者等”[12],他们对数据的收集和成功管理起关键作用。档案数据管理想要依赖顶尖、精准的数据能力在新一轮产业革命中获得好口碑、高评价,与其单纯培养数据人才,不如尝试与专业的人才团队合作,邀请数据科学家和数据科学团队指导档案数据管理工作,用专业赢得口碑,以认真获得认可。
3数据科学影响下档案数据管理的潜在威胁
数据科学虽然解决了档案数据管理中数量和质量的部分问题,但绝不意味着“一劳永逸”。科学技术无疑是一把双刃剑,它能帮助档案数据管理寻得突破,但如果缺乏对数据科学及其相关技术的正确认识,也会导致档案数据管理走向发展的误区。
3.1思维上:重数量轻质量的倾向
在大数据时代,数据所有者和管理者将“数据就是原油”奉为圭臬。但实际上,随着数据量的持续增加,整个数据资源池内充斥着虚假的、篡改过的、重复的数据个体。数据行业依托自身的技术优势,过度追求数据的抓取与拥有[13]。但实际上,从数据池中抓取数据只是对其进行管理的最基本的操作,获取再多的数据,不用心分析其内涵价值以挖掘其与其他数据的关联,也只是徒劳的。因此,准确客观的表述应该为“优质数据才是原油”。档案数据管理正处于起步阶段,也面临着抓取数据量大易产生自得自满情绪的危机,如果放任这种心态蔓延开来,整个档案数据管理行业,乃至于档案行业,仅停留在从数据池中发现数据或者向数据池中投放数据的程度,那么数据科学为档案数据管理提供的技术、理论和方法上的便利都将变成“镜花水月”,档案管理的变革与进步也将成为空谈。档案数据管理应当警惕数据科学影响下的第一重陷阱,即“数据量与质之争”,二者不是舍我其谁的关系。合理的做法应当是在充分抓取数据的基础上,利用数据分析和加工技术,对数据进行清洗、处理,挖掘数据之间的关联,为用户提供精准的服务。
3.2技术上:档案数据深度分析能力尚浅
对数据的处理和分析能力是决定档案数据管理质量的重要条件,一个有序、有逻辑的数据序列或集合,对于后续的整理加工和研发推广等环节至关重要。数据之间的关联使得档案数据管理“牵一发而动全身”,这是不以数据获取方式改变而改变的事情[14]。但就目前的档案数据管理实践而言,数据分析能力不足。一方面是相关技术的引进力度不够;另一方面是档案工作人员的技术水平未能和数据库技术发展水平完美对接,出现“技术隔阂”,导致档案数据分析还停留在对数据关联性的挖掘和价值的发现阶段,未能进入价值的开发和增值环节。数据科学背景下,档案数据管理要谋得长远发展,技术是核心问题。技术引进是基础,技术优选是保障,深度分析数据的能力是档案数据管理区别于一般信息咨询服务的重要能力,也是保障档案数据管理向更高水平发展的条件。
3.3系统上:档案数据生态系统不健全
数据生态系统指的是包括基础设施、支撑技术、工具与平台、项目管理以及其他外部影响因素在内的各种组成要素构成的完整系统[15]。据此,档案数据生态系统就是一个由档案数据库基础设施、数据库技术、数据管理工具、档案数据管理人员、管理制度和政策以及档案数据面临的社会环境构成的宏观生态系统。这是一个复杂的生态体系,不仅涉及资源的共建共享、数据的开放获取、档案制度法规的贯彻落实,还牵扯到社会对档案数据的认同、对档案职业的尊重、对档案工作的满意等一系列宏观与微观交织的问题。当前,档案数据生态系统的发展状况不容乐观,即便社会档案意识在一代代档案人的努力下有所提高,但由于档案数据处理、利用能力不足,导致档案数据服务的满意度较低,人们又重新进入对档案理解的“误区”,认为档案管理是处理相对容易的纸质和电子文件的简单工作,不涉及对数据的处理和分析、对资源的建设和利用,以及对知识、智慧的创造与发展等方面的内容。档案数据生态并没有形成一个较为浓厚的档案数据环境,因此在其中进行数据的处理、加工、研发和推广工作都带有不确定性。一个健全、协调的档案数据生态系统需要档案数据管理部门坚定信念,努力缩短和其他学科,尤其是相邻学科的距离,提高自身服务质量,积极利用档案数据的优势,创造出有利于数据生态因子和谐共生的发展环境。
4档案数据管理在数据科学背景下的坚守
数据科学背景下,档案数据的活力和生命力得到了极大的开发,档案数据量与价值量的矛盾得以缓和,档案管理向数据管理的转型升级依赖于数据科学的技术、思维、方法等方面的帮助。数据科学似乎为档案数据管理的发展编织了一场“美梦”,但梦境终究不是现实,如果不能切实地利用好数据科学的优势,正确认识到科学技术的两面性,沉醉于“虚幻的美梦”中,那么实践就会在不知不觉中掉入数据科学與档案数据管理的“夹缝”。
4.1走出梦境:吸收经验加快转型
数据科学的技术工具和思维方式值得档案数据管理借鉴。在由常规的档案管理向数据管理进阶转型的过程中,应当加快对数据技术的学习和引进,也可在保障自身利益和国家社会权益的基础上,进行档案数据部分外包和众包管理,推动档案数据管理的高质、高水平发展。只有切实地将先进的数据技术和工具、专业的人才和团队用到档案数据管理的实践中去,才能提高档案数据服务的质量和水平。理论只有在实践中一遍遍检验,才能得以证实。数据科学的发展经验能否成功地应用于档案数据管理实践,依靠理论的演算和推理,其结果不得而知。只有触及现实,吸收经验为档案部门发展所用,才可以筑牢根基。
4.2警惕障碍:脚踏实地不忘初心
数据科学不能一劳永逸地解决档案数据管理转型中的全部问题,转型之路会遭受不同规模拦路石的阻碍,有源自技术本身的不完美,也有来自于实践部门自身的恐惧或大意。当档案数据管理走出数据科学为其编织的“梦境”,切实地利用技术开展工作时,或是由于前路坎坷,或是因为方式不当,转型之路荆棘遍布,又岔路横生,档案数据管理团队只有坚定信念,牢记档案数据管理转型和发展是为了党和国家各项建设服务,是为了广大人民群众的根本利益服务的使命。一步一个脚印,准确识别发展道路上的障碍物,档案数据管理才不会掉入发展的“陷阱”。
最终,档案部门应当清醒地意识到:数据科学背景下的档案数据管理,既不是一场不切实际的“美梦”,其发展也应无惧道路上的“陷阱”。在数据科学的影响下,档案数据管理转型升级的过程是缓慢的,前途是光明的。从长远来看,档案数据管理不会困于数据科学描绘的“美梦”,因为它灵活地将数据科学的优势转化为自身转型的突破口,在实践中进一步发展;档案数据管理自然也不会畏惧数据科学带来的威胁和障碍,因为它脚踏实地,稳步前进。
*本文系国家社会科学基金重点项目“档案学经典著作评价研究”(项目编号:17ATQ011)阶段性研究成果。
注释与参考文献
[1]数据分析学院.数据科学极简史(一)[EB/OL].[2019-09-02].https://www.shujike.com/blog/10950.
[2]叶鹰,马费成.数据科学兴起及其与信息科学的关联[J].情报学报,2015(6):575-580.
[3]Cleveland, W. S. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics[J].International Statistical Review/Revue Internationale de Statistique,2001(4):21-26.
[4]Gartner.Hype Cycle for Data Science,2016[EB/OL].[2019-09-02].https://www.gartner.com/en/documents/3388917.
[5]Cathy O’Neil,Rachel Schutt.Doing Data Science:Straight Talk From the Frontline[M]. Sebastopol,CA:O’Reilly Media, 2013:7.
[6]于英香.大数据视域下档案数据管理研究的兴起:概念、缘由与发展[J].档案学研究,2018(1):44-48.
[7][美]Bill Franks.驾驭大数据[M].黄海,车皓阳,王悦,译.北京:人民邮电出版社,2013:5.
[8]朝乐门,卢小宾.数据科学及其对信息科学的影响[J].情报学报,2017(8):761-771.
[9]Jennifer Rowley.The Wisdom Hierarchy:Representations of the DIKW Hierarchy[J].Journal of Information Science, 2007(2):163-180.
[10][15]朝乐门,邢春晓,张勇.数据科学研究的现状与趋势[J].计算机科学,2018(1):1-13.
[11]金波,晏秦.数据管理与档案信息服务创新[J].档案学研究,2017(6):99-104.
[12]SIMBERLOFF D,BARISH B C,DROEGEMEIER K K, et al.Long-lived Digital Data Collections:Enabling Research and Education in the 21st Century[EB/OL].[2019-09-05].http://arizona.openrepository.com/arizona/bitstream/10150/105473/1/LLDDC_report.pdf.
[13][14]劉德寰,李雪莲.数据生态的危险趋势与数据科学的可能空间——兼谈中国市场调查业的现状与问题[J].现代传播(中国传媒大学学报),2016(1):21-27.