大数据时代档案信息资源共享平台运行策略

2020-11-30 04:33陆小妹
关键词:资源共享资源信息

陆小妹

(盐城师范学院 档案馆,江苏 盐城 224007)

随着互联网技术的快速发展,数字化、网络化、信息化正逐渐渗透到社会生活的各个方面,大数据时代已经不可逆转地来临。美国麦肯锡咨询公司于2011年5月发布《大数据:创新竞争力和生产力的下一个前沿领域》(BigData:TheNextFrontierforInnovation,Competition,andProductivity)提出了“大数据”概念,并指出“大数据时代”已经到来。习近平总书记曾在中央政治局会议中指出“实施国家大数据战略,推进数据资源开放共享”,并要求运用大数据保障和改善民生。目前各行业各系统档案自行保管,构建跨行业跨系统档案信息资源共建共享平台是档案部门值得深思和研究的问题。笔者在分析大数据背景下全国档案信息资源共享平台运行情况基础上,拟提出共享平台的运行策略。

一、档案信息资源共享平台建设概况

(一)运行状况调研

目前,全国副省级市以上档案部门基本能够通过局域网、政务网、互联网“三网”平台开展电子档案信息查询服务,许多地市级和县区级档案馆已建成或正在建设局域网平台,大多数县区级以上档案馆都在互联网上设有网站或主页,以开展不同程度的档案查询利用服务。一些地方建成了区域性的档案数据中心,可以进行一站式的远程查询利用[1]。

表1 档案信息资源共享平台情况调研

通过对依托政务内网、政务外网、内部局域网、互联网等多种形式已经建成上线的档案信息资源共享平台进行的调研,笔者发现,各省构建档案信息资源共享平台的方式不一样,一些基层工作者结合本地区的实际情况,探索出了一些经验。但这些与《政务信息系统整合共享实施方案》中提出的建设“大平台、大数据、大系统”,形成覆盖全国、统筹利用、统一接入的数据共享大平台还有一定距离。调研发现,目前共享平台存在以下一些问题:大多数的档案信息资源共享平台并没有实现目录与原文同步共享;有些地区档案信息资源共享平台建设并未得到重视,造成整个地区发展落后;有些地区平台并没有高效运行,存在虽建设完成但长期打不开网页情况;有些平台存在用户体验感差的情况,查全率、查准率不高;有些地区平台存在运行过程中容易崩溃的bug,导致平台不能高效运行。近期,政府部门提出的让“数据多跑路、百姓少跑腿”的政务服务方式,对政务系统运行提出了更高的要求,其中,档案信息资源共建共享是重要的组成部分。

上线的档案信息资源共享平台发挥作用的关键是做好运行与维护工作。如何最大化发挥平台的效益也取决于平台的运行与维护工作。运行与维护是一项兼具系统性与复杂性的工作,运行与维护效果直接决定着系统运行的稳定性、安全性与快捷性[2]。通过对中国知网中关于档案信息资源共享的文献调研,笔者发现,国内学者侧重于研究共享工程的建设,而对档案信息资源共享平台的运行与维护关注较少。笔者尝试通过对平台运行机制的解读,以期对大数据时代档案信息资源共享平台遇到的一些问题提出相应的解决策略。

(二)运行的机制

档案信息资源共享平台运行的基础是各机关档案部门、档案管理部门、档案用户、平台运行与维护部门等。档案信息资源共享平台借助各档案部门的档案信息管理系统,利用互联网共建共享技术,建立档案信息资源共享平台机制。档案管理部门可通过档案信息资源共享平台对档案归档情况直接进行监督管理。档案用户在档案部门的管理下可借助档案信息资源共享平台查询档案。档案的分类、保管、利用等这些传统档案管理过程,也可通过档案信息资源共享平台完成。档案信息资源共享平台相较于原有部门档案管理平台,分类档案更加个性化,也便于精确检索,同时通过整合各项资源也更便于为民服务。运行管理人员每天巡视检查档案信息资源共享平台,将需要解决的问题,借由系统后台进行分配管理,推送至每个部门的负责人和责任人。这样,以档案信息资源共享平台为依托,形成档案归档--整理鉴定--保管利用--日常监督--督查考核系统,实现闭环管理,从而加强各平台之间运行及交办事项办理情况的监督、检查,提升档案管理、利用效率。如图1所示,平台运行维护除了需要对图1中的基础业务进行维护外,还要做好数据更新、运行监控等工作。

图1 档案信息资源共享的组织保证

二、档案信息资源共享平台运行存在的问题

大数据时代共享平台本质上是多个信息系统的数据汇聚、融合,目前大数据发展已进入以数据深度挖掘、融合应用为特征的智能化阶段,大数据的价值和意义日益凸显。

(一)协同管理困难

目前我国大多数部门的档案管理系统仍处于各自为政的状态。档案信息资源共享平台通过整合各部门分散的、独立的信息系统,形成协同合作、信息共享的大系统。客观上这是多种数据之间的整合。各个系统整合对接,必将提高对平台的管理要求,也将会造成故障排查困难。档案管理平台建设往往是分散的,在大数据系统中缺少统一的管理接口,同时缺少路由管理、网络管理、磁盘管理等能力,造成大数据平台的开发往往需要对管理系统进行深度定制。这样做就带来开发工作量大、系统管理困难、平台迁移困难等问题。例如,大数据平台需要提高对大数据组件UI页面的访问能力。在大数据平台构建中,为了能够访问组件的UI页面,往往需要单独打通网络,额外配置路由。很多时候这些配置因缺少标准接口而无法做到自动化,所以管理起来十分困难。同时各部门运行管理方式也不统一。在线业务和大数据业务虽然属于不同的业务类型,但就管理平台来说,提供的功能是类似的。它们都主要提供资源管理、业务(任务)管理、权限管理、可视化展示与操作等方面的功能。而由于管理方式不统一,底层框架与运行方式也不同,造成了在线业务和大数据业务往往需要开发不同的平台,由不同的团队来管理,造成档案部门与信息化部门之间的协同管理困难。

(二)自动运行维护性能不够

档案信息共享平台在与各个平台协同运作之后,档案数据、平台对接数据量巨大,这就需要运用高效的自动化运行管理技术。单机架构的数据存储量往往无法满足平台内海量数据和每天产生的大量日志。海量数据与受限存储量之间的矛盾,导致平台资源弹性不足,无法按需自动扩容。因此,解决自动扩容就是档案平台自动运行维护的核心内容。同时,大数据平台资源运行的高峰往往具有明显的周期性。例如,实时计算资源消耗主要在白天。离线分析中,日报型的计算任务资源的高峰一般在晚上十点以后。周报和月报型的计算任务业务高峰往往也是在一个固定的时间点。并且离线计算有时还有突发的计算任务,例如需要对历史数据做一个统计。现有的大数据系统普遍缺乏资源的弹性,无法按需进行快速扩容,为了应对业务高峰和突发的计算任务,只有预留出足够多的资源以保证任务能够正常响应。此项工作的完成完全依赖于具备计算机知识的综合型人才。平台运行人员需要掌握多个脚本语言编写能力和计算机软硬件操作技术。如何吸引人才、留住人才是档案管理部门面临的重要课题。

(三)信息开放与利用限制存在矛盾

档案信息资源共享平台上各档案馆之间,实行统一认证、浏览、检索等一站式服务,为公众提供便捷的服务。但如何界定开放的程度也是当前档案信息资源共享平台建设中面临的突出问题。档案信息资源共享平台的构建克服了传统档案馆利用的不足,对公民便捷利用档案起到了促进作用。但在大数据时代的档案信息资源共享平台中,档案开放利用与管理权限管控的尺度较难把握。权限管控较严,业务流程就不畅通;权限管控放松,数据安全隐患增大。而且大数据平台组件、架构、流程、管控都复杂。档案信息资源共享平台管理对业务功能和数据采用统一权限配置管理后,如果权限管理不佳,就会留下漏洞。黑客可通过隐藏URL侵入、SQL注入等方式轻松越权获得数据,甚至修改、删除平台内数据,从而造成数据丢失。档案信息资源共享平台的信息,有些涉及国家利益,关乎国家安全和社会稳定。传统平台低质量的情报预警系统和告警疲劳,易导致事件预警响应周期过长。信息开放与利用限制的矛盾,需要档案信息资源共享平台安全运行体系不断升级。

(四)缺乏安全可视化与数据交互可视化

目前共享平台的数据透明化与交互可视化程度较低,无法处理好隐私和大数据分析与治理的关系。绝大多数大数据平台都是基于Hadoop生态,使用Yarn作为核心组件来进行资源管理和调度。现有平台无法整体监控把握系统安全情况,以快速定位理解日志细节,并提出解决方案。平台数据资源利用率较低、日志留存和流量清单等存储密集型的业务,使CPU使用率长期小于30%。而计算类的业务虽然CPU消耗很高,但是存储的资源使用率小于20%。共享平台在低峰期往往会有大量的资源闲置,而这些资源完全是可以利用的,但在目前大数据的系统架构下,这部分资源完全没有被利用,导致资源利用率进一步降低。档案信息资源共享平台如何通过大数据AI分析自动构建可视化地图分析运行数据中的异常和关联,实现信息流的场景化呈现和推送,从而构建全局运行视角下的运行体系,如何在不同的运行场景下,运行人员可以快速完成各个运维数据与工具的整合,避免多个工具之间切换操作,从而更加直观、全面、高效地进行日常运行管理工作,这些都是档案信息资源共享平台可视化需要研究的重要课题。

(五)运行成本与效益之间存在矛盾

档案信息资源共享平台的成本消耗包含建设成本和运行成本。与传统档案馆相比,共享平台的建设成本与运行成本有大幅提高。建设成本包括档案共享建设的规划、设计、论证费用和基础设施费用、应用系统费用等;运行费用包括设备和系统维护、技术升级、数据迁移、维护管理等费用。另外,档案管理人员平台运行培训费用也是不菲的支出。由于档案信息资源业务范围较广,不同的团队又管理各自的区域,这就需要加大人力投入,势必造成不必要的人力浪费。档案部门、档案管理部门,每个单位都配备运维人员,人力资源配置浪费,这就导致运维成本居高不下。如何使运维经费发挥更大效益,批量化管理维护多台服务器,这也是各个部门需要思考的问题。国务院办公厅下发的《关于印发国家政务信息化项目建设管理办法的通知》(国办发〔2019〕57号)提出,政务信息化投资与运行维护经费协同联动,对未按要求共享数据资源、未纳入国家政务信息系统总目录、不符合密码应用和网络安全要求等情况的政务信息系统,将不安排运行维护经费[3]。

三、档案信息资源共享平台的运行策略

(一)加强运行制度保障

根据《政务信息系统整合共享实施方案》的要求,各级政府应健全政务信息系统和资源共享开放管理制度,加强协调,明确目标、责任、牵头单位和实施机构等。各地区、各部门要按照《政务信息资源共享管理暂行办法》要求,把信息共享工作列入重要日程。各地区、各部门应根据《政务信息系统整合共享实施方案》,统筹推动在本地区、本部门政务信息系统整合共享工作,制定落实时间表、路线图,加强台账和清单管理。在组织实施方面,各地区、各部门每年2月底前应向促进大数据发展部际联席会议报告上一年度政务信息资源共享情况(包括政务信息资源目录编制情况、政务信息系统接入统一共享平台进展、数据对接共享和支撑协同应用情况等,报告径送联席会议办公室〔国家发展改革委〕),切实保障工作进度(各地区、各部门负责),经汇总后向国务院提交政务信息资源共享情况年度报告(促进大数据发展部际联席会议负责)。在经费保障方面,政务信息资源整合共享相关项目建设资金纳入政府固定资产投资预算(各级发展改革部门牵头),政务信息资源整合共享相关工作经费纳入部门预算统筹安排(各级财政部门牵头)。

档案共建共享的法规制度是规范各单位协同开展档案信息建设和共享的基本依据[4],制定完善的法律、政策以提供完备的制度保障。档案数据正逐年迅速增加,而各个档案馆之间的著录标准不一,将会对档案信息资源共享带来巨大的阻碍。制定健全的法律制度,一方面需要出台导向性及指导性的文件,另一方面也需要将著录标准、业务规范、数据目录交换细则等相关措施具体落实。中共中央办公厅、国务院办公厅印发的《关于加强和改进新形势下档案工作的意见》指出,支持各档案馆把可公开利用的档案上传到网络,推进城乡档案共享。但此文件仍停留在政策性层面。另外,出台对著录标准、业务规范更详尽的指导意见,将会对大数据背景下档案信息资源共享平台的构建有极大的推进作用。

目前各行业各系统档案基本在行业或专业档案馆保管。大数据时代档案信息资源共享将寻求在统一元数据基础上,建立全程控制、一站式服务、一体化服务的新模式。因此,档案信息资源共建共享需要各单位相互合作。大数据时代推进档案共建共享,可建立协同管理机构,以提供健全的组织保证。如图2所示,协同管理机构可行使监督权,对政府机关各部门分管各系统单位的档案如医疗信息资源、劳动保障资源、人口信息资源、水利系统等实行监督。协同管理机构应对健全法律制度保障提供意见,其中包含上文提出的对大数据背景下档案归档范围作进一步延伸,对各平台之间的操作协议、著录标准、业务规范、数据交换目录等作详尽的规定。同时,协同管理机构应当能够对归档文件的安全性起到过滤审核的作用。

图2 档案信息资源共享的组织保证

(二)保证日常运行维护的稳定性

日常运行和维护中需要档案部门与信息部门共同协作完成的业务有:档案信息资源共享平台建设与优化,档案用户服务流程优化;平台前端用户行为分析,数据挖掘,流程优化,具体用户量、查询量等数据统计;平台后端服务提供者的服务管理、优化、合作等;平台之间的维护、对接、消息推送等活动;平台的日常维护、咨询、投诉、售后服务、反馈等;平台组织架构的建立,人员岗位的设置和管理。档案部门应切实研究平台运行中馆藏分类、归档定位、利用需求,从而向运行维护人员提出具体的系统需求。平台的正常运转,离不开平台运行人员稳定的日常运行维护。运维人员应构建平台自动化运维体系,定期对用户系统进行自动化备份、恢复等服务,同时对用户系统的工作环境、设备运行状态、性能、安全性等方面进行检查。运维人员应进行必要的预防性维护,及时解决用户系统中存在的问题,以确保整个系统的安全、高效运行。

除做到自动运行系统的日常维护外,运维人员还需根据平台运行状况,每周检查平台运行情况;分析错误日志;检查平台相关数据库结构、初始化参数、主要配置文件;检查平台相关数据库运行状况;检查平台相关数据库空间的使用情况及规划管理;检查平台相关数据库备份是否及时;检查平台相关硬件设备运行状态等。运维人员每个季度应该根据平台运行状况详细报告系统的运行状态、发现的问题,对问题解决情况,是否有遗留问题,遗留问题状态等方面的情况,并将结果以巡检报告的形式及时反馈,以定期形成平台运行情况统计分析、数据质量分析、系统升级处理、故障处理、系统优化等相关报告。

(三)构建安全体系

安全是平台运行的生命线,必须建立全面的安全体系、安全制度与规范。平台数据的安全保护是重中之重。要建立数据分级体系,不同的数据需要有不同的管理策略和数据使用策略,策略包含访问密码加密、访问日志的脱敏、数据隔离访问、数据加密、数据的备份、数据的加密获取等。大数据背景下档案信息资源共享平台的安全,通过关键技术对各单位系统进行整合和共享,在整合的基础之上,对关键信息进行挖掘和整合。档案部门可根据自身所面对的用户群体与档案资源状况,应用自身所选择的引擎实现技术,完善符合自身服务需要的信息系统功能[5]。因此,在档案信息资源共享平台的构建与运行过程中,成熟的技术如分布式存储技术、数据交互技术如微服务、云平台服务是必备的。

难度高的共享平台在运行技术方面需要专业的运行安全团队负责操作和维护,可在委托团队与主管部门之间建立双向联动责任人机制。所有涉及业务平台的资源,包括主机操作系统、应用系统、网络设备和安全设备,指定业务主管单位与平台运行单位专人对接技术,专人日常监督平台运维工作,支撑单位对业务系统的日常操作和维护可按照本方案进行,做到责任到人,保证各个业务平台的正常运行。平台运行人员日常通过实时监控信息系统,监视分析用户和系统的行为,进行风险评估、安全加固、安全通告、应急响应等工作。运行人员借助物理资源监控,监控物理资源运行情况,精准判定硬件故障,以加强物理资源的维护工作。通过性能指标监控,监测到系统某些硬件性能不足时,可通过迁移技术将虚拟资源迁移到性能较好的硬件上。通过容量监控,随虚拟机运行进行资源优化,以便对各类资源容量进行扩容,从而保证平台空间运行正常。运行维护不是对单一故障的排除,而是对多个系统协同合作的排查,这对技术难度也提出了更高的要求。故障的排查需要各个部门的重视与协同合作,对档案管理部门的系统性合作提出更高的制度要求。档案管理平台管理方既对平台的运行起监督作用,也对各部门接入平台进行运营监督,以保障平台运行规范。

(四)优化业务流程与运维流程可视化

大数据背景下,档案信息资源共享平台的数据具有类型繁多、价值密度低的特点,因此,提供高效、一致、透明化、面向用户的服务,是共享平台运行的价值所在。这就要求共享平台从平台基础设施到运维流程都需要做到持续可视化,以提升平台运行的灵敏度与精准度。传统平台工作时,流程之间彼此割裂,并没有很好地衔接,如网络、机房等都是由不同的部门、团队在运行与维护,彼此互不干涉。档案信息资源共享平台运行维护自动化工作的重点,是将互不干涉的运行维护团队组合成一个彼此合作、流水线运作的整体,从而优化业务流程。集成化平台提升了数据运行的效率和质量,这也节约了个人或团体的学习成本和事务执行成本。

异构平台的档案信息资源数据交互成为档案信息资源建设的重要发展方向,信息的表现形式呈现出文本信息资源、超文本信息资源、多媒体信息资源、超媒体信息资源和自媒体等并存的局面[6]。共享平台基础建设必不可少要采集档案数据,各馆需对自身数据进行清查,明确馆藏量及位置,关注缺少的数据。数据采集至过滤层后,由协同管理机构进行数据检测,对数据格式、内容等各方面进行相似性、安全性检测。在此基础之上,应明确标示数据存储位置,以便于之后的数据挖掘工作。

基于可视化的数据共享,在整个业务流程和某个业务流上都会体现可视性,这要求各个流程对数据规则容易理解且达成一致。共享平台的可视化程度代表了运维的能力,可视化程度越高,运维的能力越高。要实现数据可视化,各部门可建立面向应用的端到端数据分析体系,从基础设施、上层组件,到应用服务,接口,再到用户侧,基于应用的拓扑架构,收集各类指标,然后统一到一个分析平台中展现。如图3所示,基础设施层如机房、服务器等方面应建立预警分析体系;基础组件层采集组件的内部服务情况;应用服务层采集应用服务使用情况,以及URL入口的情况分析;采集接口服务层应用服务的调用情况;用户端采集用户侧数据,建立以交付到用户侧的服务维度告警及分析体系。这样,形成如图3所示的标准数据采集、分析和展现体系之后,其他应用也可以使用此种方法。平台遵循相同数据标准,数据的采集、分析、展现和告警标准化也就完成。这套数据体系建设完成之后,可以在运维的故障定位、服务优化、架构改进、运维规划等各方面找到应用场景。

图3 标准化分层体系

(五)保证运行的质量与效益

大数据背景下,海量的数据运行必然导致带宽、服务器、人力等支出费用不菲。平台运行从粗放化向精细化的转变,更加考验运维团队的质量和效益,因此,相关部门可采取下列措施。

从实际需求出发,合理规划。档案信息资源共享平台运行是系统化的工程,必须进行整体、全面的规划,开展整体方案的认证,体现档案信息资源共享平台建设的科学性与经济性。档案管理部门的设计者与决策者既要从国家信息化发展方向和战略出发,又要掌握档案业务管理技术,从公众实际需求出发,在保证档案信息资源管理和利用的基础上,解决实际需求,避免建设无意义工程,杜绝建设“形象工程”。随着计算机技术、存储设备等相关技术更新换代速度越来越快,档案信息资源共享平台建设需考虑设备使用效益,合理规避技术淘汰的风险。

平衡配置,形成良性运行机制。档案信息资源管理平台运行要考虑各个档案馆系统之间的协同合作,实现资源共建共享的运行机制。档案信息资源共享平台的构建应当重用轻建,无论是用什么技术构建的档案信息资源共享平台,如果由于管理环节的制约导致无法长期运行,这个平台的构建无疑是失败的。梁惠卿在数字档案馆建设的成本控制问题研究中指出:“从最终效果上看,无论采用什么技术构成的数字化档案馆系统都以能否实用,是否得到应用,是否产生和积累数字化的档案信息资源作为判断其成败的标志。”[7]

优化管理流程,重人轻物。平台运行人员是档案信息资源共享平台运行的人力因素,加强人才的培训和队伍建设是保证平台运行质量和效益平衡的关键因素。

平台运行需以质量来驱动研发、测试、运维,相关部门应以最低的成本、最快的速度、最高的效益运行平台。美国著名质量管理专家朱兰(J. M. Juran)博士从顾客的角度出发,提出产品(服务)质量就是产品(服务)的适用性说法,即产品(服务)在使用时能成功地满足用户需要的程度[8]。平台运行要以用户体验为衡量指标,通过提升数据资源反馈速度,以最快的速度提供档案复制件或数字化档案,从而提高用户体验满意度。精细化管理应贯穿于档案信息资源共享平台的全过程,只有坚持“细节决定质量,质量决定成败”,才能实现档案信息资源共享平台的高质量、低成本、高效率发展。

猜你喜欢
资源共享资源信息
交通运输数据资源共享交换体系探究与实现
基础教育资源展示
福建省交通运输信息资源共享平台
一样的资源,不一样的收获
资源回收
卫康与九天绿资源共享
订阅信息
资源再生 欢迎订阅
测量学精品资源共享课建设的探索
展会信息