黄若非
在大数据时代,越来越多的档案管理走向历史、当下与未来一体化管理,随着大数据的产生,数算一体、数算分离开始分工合作,也就是有些需要即时分开、传输、存储,以便即时开发利用,也有部分,需要把档案信息化、模拟化以备不时之需,本文重点就城市档案管理如何大数据化、智能化以及相应的数算分离、数算一体展开思考与探究。
传统的档案数据管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案关键信息需通过一定的条目、分类、人工分拣来进行采集存储、提取,在海量的档案数据信息挖掘中主要采用文本数据挖掘技术,可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都是对文本数据的挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小数据范围进行检索,从而大大提高其数据处理的效率和准确度。同时随着音频视频的增多,根据频谱来分拣数据、归类数据、优化和组合数据就成为一种更为广阔的需求。
在传统的档案信息化领域中,档案数据管理的发展主要包括数据信息的认知、信息数据的积累、数据信息的挖掘、运用及档案数据的规范化发展五个步骤。现代信息化、智能化处理,是在以上基础上,通常结合数据信息的检索、分析及挖掘,将信息数据进行适当的分类及抽取或形成一组问答序列,或再进行进一步的深化处理,形成解决某一问题的数据集合,挖掘出一定的专门的信息数据类别,作为决策和应用的依据。
随着智能检索技术的应用而生,智能检索也推广普及成各式各样,比如基于语义检索,计算机在语义大数据基础上,持续地分类和重组,这就是所谓的机器学习过程,一旦机器学习了足够的信息储存后,就相当于理解了人类语言语义,进而就可以进行语义检索了。再比如基于音视频信息内容检索,可以直接对音视频档案资料内容进行检索、自动识别、甚至压缩上传,有的可以云计算、有的可以分布式存储,以减轻低效人工处理的工作量,提高对声像档案的处理能力。
档案数据智能化可从历史数据中智能提取档案分类,提高用户声像资料整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行处理,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。这就要求档案管理大数据系统平台总体架构应按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。
结合城市档案管理,开发相应的应用平台,包括一些特定的VR和AR场景,比如城市水电气路网的模拟呈现,以及相应的智能化管理决策系统,这是云计算、延迟计算、模拟计算、即时计算、在线计算之类的基础和前提,适当的数算一体、数算分离是一种发展方向。2022年2月国家发改委联合多部门制定的“东数西算”工程就是为适应这个大趋势的一个宏伟计划。
目前应用最为广泛的就是民生档案,具体包括社会保险档案、就业人员档案、失业人员档案、房地产档案、婚姻档案、城市拆迁档案、环境检测档案、学籍档案和企业职工档案等。还有很多分散在部门和机关的民生档案信息还未进馆和开发利用。这些档案信息从某种意义上都存在着一定的关联性,然而在未进行大数据分析之前都无法真正实现更深层次的利用。
随着社会的进步,需要由档案馆来进行永久保存的档案类型将会不断增加,档案的总量也会激增,伴随着照片、声像等多媒体档案纳入档案接收的范围,档案馆作为天生的数据集散地,其电子档案收集范围必将进一步扩大,移交时限也将进一步缩短。对大数据的分析处理和增值应用,将成为未来档案开发利用的重要内容,档案馆坐拥庞大的数据资源应该成为巨大社会价值的产出地。
人们一直在探讨如何在收集环节把好档案关口,要避免档案实体涨库,克服档案信息存储空间的限制,又要防止有价值的档案被淹没在价值低甚至毫无利用价值的海量档案中间;而在利用环节,人们追求档案如何在需要时应有尽有、无所不包,同时要能被快速、准确地检索出来。因此数算分离和数算一体就成为两个大趋势,二者相互促进和发展,同时数算所涉及的软硬件也是当前重点攻关的对象,这就涉及到各种各类档案的标准化、规范化、科学化以便档案得以充分利用现有高科技。总之,为了档案交接管理日益智能化,在大数据时代,接收工作必须要坚持一定的质量标准。如果待移交档案中存在一些不能忽略的基础性问题,进馆后将影响档案收集以及后续工作的科学推进。在包容错误与坚持标准之间踩准节拍,底线应该是不影响进馆数据后续的关联分析。传统载体档案将面临全面的“数据化”“数字化”之后的再大数据化、智能化。否则,信息化数字虽然是方便的,但还是“死的”而不是“活的”。
档案馆的信息系统支撑平台又称为硬件平台,为所有信息化应用系统提供运行、存储、备份的物理环境。数字档案馆主要面向四类用户,分别是政府机关领导、档案局(馆)、各级建档进馆单位和部门及市场和公众用户人群,随着接收档案的范围不断扩大,档案数字化进程不断推进,现有硬件平台已无法满足大数据环境下对性能的要求,现有应用系统平台的功能也无法满足对相关档案进行大数据分析的要求,因此对现有的信息化平台借力云计算、数算分离、数算一体,数字东数西算都是一种努力方向,这是云计算化、大数据化、智能化重要内容。
自从3G、4G、5G以及各种智能化设备、软件诞生以来,特别是VR、AR虚拟现实,以及云计算、分布式存储以来,不仅数据的采集可以全方位、实时互动,还可以数算分离、数算一体,这让各种线下服务、线上服务、在线服务等得到了各自的需求,相应的各种经济效益、社会效益、生态效率就越来越显示出来。
目前已经在使用的云计算技术包括服务器虚拟化和桌面云,这些技术在档案行业还停留在试点的范围,在档案大数据时代到来前,云存储的使用要迅速提上日程,而且要越快越好,随着岁月的更替,数据日益增多,就会为后来带来成本和难度的增加。
越早对档案历史分类信息化、智能化处理,就越早对现在数据和未来档案大数据化,目前一方面可以使用云计算,包括云储存、云应用,将服务器虚拟化、桌面云,另一方面把档案大数据化,可以数算一体、数算分离,还可以东数西算,从而充分利用各种基础平台建设以及应用软件建设,包括档案管理核心业务类应用、档案业务协同保障类应用、档案资源服务扩展类应用、档案资源知识管理类应用,将全部应用系统分阶段逐步整合到服务器虚拟化系统中,并补充相应的硬件设备,保障各系统高效率不间断地提供服务。三步并作两步走,高效而且高收益。
档案的种类繁多,数量更是达到上亿,如果保存到存储设备中占用的空间将会达到极限,如此大规模的数据对存储设备性能的要求就会比较高,如何快速、准确地找到相关数据,一直是大数据对实时性能的最低要求,采用分布式存储的云存储方式,对于数据的请求将会分发由多个存储服务器去处理,从而可以快速得到想要的数据,来实时为相应数据分析,提供有价值的信息。
十年前,操作系统、数据库、全文检索等软件技术国内还没有成熟的产品,和国际水平相差得比较远,如今国产软件从性能和安全上都与国际水平不相上下,国内有成熟厂商提供云计算服务,更方便和廉价。
传统的运行平台,数据都保存在单一的存储设备内,存储的容量上限取决于存储设备可扩展的规模,如果扩展性较差,当档案数据量达到一定规模,或者说需要处理大数据的时候,性能会明显降低,而且存储满了,只能再重新购置设备,虽然容量可以增加,但是技术却并不对口,如果采用云存储来保存数据,所有数据是由多台云存储服务器去管理,通过分布式的方式来优化存储结构,可以随时扩容和无限扩容,而且不会影响存储系统的性能。
基于东数西算,就是数算分离、数算一体,可以把延迟计算和即时计算分开,也就是把历史档案和不需要即时计算的变为云计算之类,而把即时档案、即时计算的变为即时需要,充分利用现有资源和先进技术,在档案数据存储方面采用分布式文件系统,解决海量档案文件保存问题。在对公众查档出证服务方面,采用云桌面技术,在保证档案安全的同时,更好地为广大群众服务,整合服务器资源,采用服务器虚拟化技术,针对不同的系统应用动态调配处理计算的资源,便于统一管理,提高工作效率。
总之,未来城市的发展,第一步就是智能化城市档案管理,城市档案管理应当通过“东数西算”这个新时代的超级工程,构建城市档案管理一体化的数据中心、云计算、算力中心等新型网络体系,满足智能化城市档案管理的需求,有序优化城市档案数据中心建设布局,促进城市各类档案的协同联动。