高校档案大数据业务流程重组研究*

2016-03-20 19:15张倩
档案与建设 2016年11期
关键词:业务流程可视化档案管理

张倩

(南京艺术学院综合档案室,江苏南京,210013)

高校档案大数据业务流程重组研究*

张倩

(南京艺术学院综合档案室,江苏南京,210013)

文章借鉴业务流程重组的基本原理和大数据理念,通过考察传统高校档案业务流程的内容构成,分析现阶段高校档案业务流程中存在的突出问题,探究高校档案大数据业务流程重组的核心内容,提出将高校档案业务流程由传统的职能型组织结构改造为流程型组织机构,建立“全息式采集、分布式存储、关联式挖掘、可视化发布”的业务流程。

大数据 高校档案 业务流程重组

当前,高校馆藏档案信息数据量呈急剧增长之势,且数据存储、查询、分析的形式与方法也变得异常复杂,针对原来相对小量、静态、结构化的“小数据”而存在的档案信息处理方式,已难以应对海量数据发展之需。本文借鉴业务流程重组的基本原理和大数据应用的发展理念,通过剖析高校档案业务流程的内容构成及其存在问题,提出高校档案大数据业务流程重组的构建方案和实施步骤。

1 高校档案业务流程的内容构成

综观国内高校档案业务流程长期依据的标准,主要存在三种说法。一是“六环节说”,指将档案管理的业务流程分为收集、整理、鉴定、保管、统计、利用等六个环节,其中,前五个环节是档案管理机构内部的基础性业务工作,后一环节是指对外部开放的档案业务工作。二是“八环节说”,即档案管理包括收集、整理、鉴定、保管、检索、统计、编研、利用等八项工作内容。三是“分层次说”,认为档案业务的管理方法不应在单一层次上罗列具体内容,而应采用按层次划分法进行分层管理。它将档案管理的核心业务划分为第一层次的工作内容,将各项具体业务划分为第二层次的工作内容。

无论是“六环节说”“八环节说”,还是“分层次说”,在大数据应用面前都露出了不适应的窘境。对此,笔者认为,高校档案界迫切需要突破传统纸质档案管理理念(Paper Mind)的束缚,尽快探寻到可适应高校档案大数据发展要求的业务流程模式与标准。

2 现阶段高校档案业务流程中存在的突出问题

2.1 高校档案界普遍缺乏对档案数据潜在价值的全新认知

首先,面对大数据的应用价值,高校档案管理者尚未摒弃“数据小农”心态。目前,江苏省高校档案管理机构普遍存在着“数据割据”和“数据孤岛”现象,档案信息资源的开发与利用处于“小农经济”状态。究其原因,除受资金、技术等物质投入和管理体制方面的影响之外,档案管理者大数据意识缺乏是阻碍大数据技术在高校档案界落地的主要因素。

第二,面对“大数据风暴”的冲击,高校档案界仍习惯于将原有传统档案管理模式套入新媒体建立的框架中作徒劳之争。多数高校档案管理机构仍在按老套路做旧事情,看似在不断地收集信息,却甚少对信息进行分析、筛选与总结;普遍承认信息收集匮乏的短处,却不愿承认信息驾驭力的缺乏。

2.2 传统“小数据”模式下的高校档案业务流程无法满足“大数据”开发利用

首先,在档案数据的采集方面,高校档案管理机构尚未建立档案数据体系化的采集与积累机制。目前,江苏省一些高校档案管理机构不但没有重视采集元数据,而且极少关注非结构性数据,特别是还未建立档案数据体系化的采集与积累机制。为客观评判江苏省高校档案管理机构对档案资源的开发应用能力,笔者借鉴EIU评判应用大数据的企业能力等级标准,对被测评对象作了全面分析:一是将采集的数据搁置、遗忘,或不加以应用的高校档案馆(室),认定为最低等级的“数据浪费者”(Data Wasters)。二是将表面上数据泛滥,但并未达到大数据应用要求的高校档案馆(室),认定为第二等级的“数据采集者”(Data Collector)。三是将已经做好应用于战略决策和投资的准备,但水平还有限的高校档案馆(室),认定为第三等级的“积极的数据管理者”(Aspiring Data Managers)。四是将走在大数据应用的最前沿,且具有先进开发技能的高校档案馆(室),认定为第四等级(最高等级)的“战略数据管理者”(Strategic Data Manager)。按分类标准评估后发现,目前江苏省多数高校档案管理机构处于第二到第三等级之间,档案馆(室)之间合作意识不强,致使档案信息资源共享的整体优势大打折扣。

第二,在档案数据的鉴定方面,传统的档案鉴定模式将被“全数据模式”取代。长期以来,由鉴定人员逐件逐张地审查原始文件的档案鉴定方法(即直接鉴定法),在“小数据”范围内比较有效,但随着档案数据量的急剧增长,这种鉴定模式已呈行将崩溃之势。

第三,在档案数据的质量方面,高校档案管理机构的数字档案尚未实现“大数据化”。目前,江苏省不少高校档案馆(室)尚未对数字档案文本的内容进行数据化处理,实际只储藏着原始纸质档案资料的扫描图片。将数字档案图片转化为可处理的数据化内容,是建立大数据资源库的有效途径,不仅可打造开放的知识世界,而且能最大限度地释放档案信息数据的潜藏价值。

第四,在档案数据的利用方面,高校档案管理机构的档案数据尚不具备加工增值效能。目前,江苏省高校档案管理工作主要疲于应付众多短期需求,且基本是对原始档案信息的低层次利用,档案机构普遍缺乏加工增值的技术手段,特别是一旦形成决策方案后,几乎不再重新使用已用于决策的数据。对此,笔者认为,利用大数据技术推动档案数据由“一次性消耗式”向“可塑性增值式”利用模式转型已势在必行,档案数据只有被不断开发利用,才能使其使用价值产生翻倍递增的效应。

2.3 档案大数据加工与分析所需的知识基础与技术力量薄弱

很多高校档案管理者虽已意识到自己积累了大量的数据资产,但却没有可操作的方案来挖掘馆藏档案大数据的使用价值。形象地说,许多高校档案管理机构在守着“金山讨饭吃”。不具备“采矿”的先进手段,高校档案管理机构将难以发掘档案信息数据潜藏的宝贵价值。

目前,国内高校之间的档案管理信息化水平存在较大差别,多数地方院校因受人力物力所限,馆藏档案信息资源的储备能力落伍。对此,笔者认为,档案信息化建设是一项科技含量很高的专业性工作,引进类似“数据科学家”的综合型人才,已是高校档案管理机构的当务之急。

档案机构可加强与大数据科研人员的合作,特别要借助可视化技术等,将档案大数据应用做到既直观又易用,使高校档案馆(室)甚至个人也可按需购买数据分析服务等来享用档案大数据资源。

3 高校档案大数据业务流程重组的核心内容

3.1 业务流程重组的概念

业务 流 程 重 组(Business Process Reengineering,BPR)是由美国著名的管理学家最早提出的一种管理思想,其强调:以业务流程为改造对象和中心,以关心用户的需求和满意度为目标,利用现代的管理手段对现有的业务流程进行根本地再思考和彻底地再设计,并最大限度地实现技术上的功能集成和管理上的职能集成,建立全新的流程型组织结构,从而实现企业经营在成本、质量、服务和速度等方面的戏剧性改善。这一理论对探索高校档案大数据业务流程的模式创新具有重要的指导意义。

3.2 高校档案大数据业务流程重组的实施步骤

数据专家指出:大数据应用的分析结果,需要经过数据的采集、预处理、存储、分析和挖掘等多道环节才能最终呈现出来[1]。因此,借鉴业务流程重组的基本原理,按照档案数据化管理与服务的自然顺序和需求特点,对传统的纸质档案业务流程进行科学调整与精简,不仅势在必行,而且切实可行。笔者认为可将高校档案业务流程由传统的职能型组织结构改造为流程型组织机构,即建立“全息式采集、分布式存储、关联式挖掘、可视化发布”的业务流程。

(1)建立“全息式采集”业务流程的实施步骤

第一,在进行“全介体、全方位、全天候”的档案信息数据采集之前,必须先搞清楚有哪些问题需要解决,并找到解决具体问题的途径与措施。例如,可采取汇总用户利用案例的办法,每季度出一本案例集,并将梳理日常业务作为发现问题的“抓手”,认真研究用户实际应用中的共性问题,高度关注还有哪些障碍需要克服,以便找到制定档案数据采集业务策略的客观依据和解决问题的途径与措施。

第二,针对需要解决的问题,科学制定“全息式采集”的策略方案与业务流程。首先,要从发现大数据的过程开始,明确馆藏数据。其次,要明确数据位置,由谁负责保管。再次,要明确目前这些数据是怎么使用的,其依赖的第三方数据源是什么,有多少数据和数据源是重合的。同时,要关注“重复数据”的规律与特征,因为这既是研究制定大数据采集策略方案与业务流程的科学依据,也是评估验证大数据采集策略执行效果的重要基础。

第三,关注馆藏数据资源中缺少什么信息数据,积极探寻获取所缺信息数据的方案。大数据的采集,是指注重获取全部数据而非随机数据;大数据的整理,是指注重解决混杂性而非精确性;大数据的分析,是指挖掘数据之间的关联关系而非因果关系。因此,我们要按照“应收尽收”的原则,尽快健全档案信息数据采集制度,竭尽所能地实施“全息式”采集。

第四,健全档案大数据互操作协议,创新信息资源整合共享机制。目前,高校内部已建立了教务、科研、财务、资产等多种单功能的信息管理系统,但甚少与档案管理系统建立接口,导致各类异构信息系统中的数据无法进行互操作。因此,我们要针对高校内部数据分割的窘境,加快制定档案大数据互操作协议的业务规制与考核标准;针对高校之间的“信息孤岛”问题,着力完善档案信息数据的科学整合与资源共享机制,尤其要通过搭建档案大数据智能处理平台,智能链接“分散孤立、类型各异”的档案大数据集,加快推进校内各部门乃至高校之间跨领域档案大数据资源的互通互享。

需要指出的是,盲目地收集信息数据,是当前大数据投资回报率过低的原因之一[2]。如何在海量的档案信息数据中找到真正有价值的内容,让自己拥有“奥康姆的剃刀”?这是高校档案管理者需在实践中不断深入探究的课题。

(2)建立“分布式存储”业务流程的实施步骤

第一,按照数据属性特征构建不同的存储方式。首先,在高校档案大数据智能处理平台中将采集到的各类元数据分为结构化、非结构化和半结构化的大数据。其次,要借助大数据技术,创建分布式文件系统、分布式数据库系统和分布式数据流处理系统(这是针对结构化、非结构化和半结构化的大数据分别量身定制的三种存储方式)[3]。再次,要将经过鉴定的结构化、非结构化和半结构化的大数据,分门别类地进行存储。

第二,搭建高校档案海量大数据智能存储平台。将TB、PB级乃至EB级的海量档案大数据存放在大规模的分布式集群服务器上,可保证数据的读写效率、安全性和可靠性。目前,HDFS(Hadoop Distributed File System)就是一个典型的海量数据存储系统。它作为主流的开源云计算系统Hadoop的核心构件之一,由于具有低成本、高度容错、支持大数据集等多方面的应用优点,已成为解决高校档案大数据存储问题的首选方案之一。

第三,夯实和提升数据质量管理功能。首先,要把分布式存储的档案大数据进行转换,可使用Google Refine、80Legs等格式转换工具;Grep、Turk和BigSheets等工具,则可用于数据分析[4]。其次,要最大限度地凝练可信数据,切实提高数据资源整体质量标准的规范性。再次,要根据信息数据的生命周期,对存储的各种不同结构类型的档案大数据建立“体检”(价值检测)、“保养”(技术优化)和“淘汰”(冗余删除)等智能处理机制,不断提升高校档案大数据的净化质量。

(3)建立“关联式挖掘”业务流程的实施步骤

第一,了解和掌握档案大数据关联挖掘业务的基本原理。“档案大数据关联挖掘”(Association Rule Mining)工作原理是:运用大数据关联挖掘的开发工具(计算机算法模式),对档案大数据实施静态和动态的数据分析评估,揭示(预测)有价值的数据信息。

第二,建立科学的档案大数据关联挖掘管理流程。传统的档案管理业务流程是:出现问题→逻辑分析→找出因果关系→提出解决方案。这种事后“救火”的操作流程较为被动,无法预测未来的发展情势和提供解决问题的应对预案。大数据关联挖掘技术的核心作用在于“预测”。其业务流程是:搜集数据→量化分析→找出关联关系→预测未来结果→提出优选方案。这是一种正向思维模式,其主动性的工作方式和操作流程,不仅符合档案数据网络化、智能化、个性化管理的特性需要,而且是管理和挖掘档案大数据资源的有效措施。

第三,选择档案大数据关联挖掘的开发工具。“购物篮分析”(Market Basket Analysis)是目前比较先进的大数据关联挖掘工具,它依托云计算技术,不仅能对用户行为等大数据作分析评估,而且可揭示相关联想(Association)的规则,特别是通过梳理和剖析事物之间的相互关系,可挖掘(预测)出以前无法发现的细节信息,使高校档案信息的智能关联推荐更为精确、更有预见性,服务方式则更加符合个性化需求。

(4)建立“可视化发布”业务流程的实施步骤

第一,了解和掌握基于计算机图形学和图像处理可视化分析(Visualization Analysis)的工作原理。“一张图片等于1000个字”[5],这是对大数据可视式发布技术最形象的比喻。可视化分析的工作原理是:将档案大数据压缩转换成图形或图像,并在各类终端设备的屏幕上以简单直观的方式展示出来。应用这项技术,不仅能更好地展现档案大数据分析结果或监测数据背后的信息,而且可以帮助用户更好地发掘档案大数据潜藏的宝贵价值。

第二,注重开发可视化发布技术的应用优势。这项技术的应用优势主要有三:一是运用动画、趋势线、图形等视觉效果技术,能开发出丰富多彩的可视化分析结果,有利于提高推介结果被用户接受的可能性。二是通过优化档案大数据智能处理平台的人机交互界面,主动推介“玩”的方式,有利于吸引用户对档案大数据分析过程进行调整。三是通过建立技术融合机制,让分析结果发布到Web应用系统和移动终端设备交互展示,有利于强化平台黏度。数据专家预言:未来大数据的采集、展示和交互,必将朝着移动的、即时的、泛在的方向发展[6]。

第三,注重不断丰富可视化技术的展示形式。目前,具有代表性的可视化展示形式主要有:气泡图、树状图、平行坐标轴、时间轴、网络图、标签云、堆栈图、地图、热力图、流程图、标签云等几十种图例。经考察发现,相比传统的表格、饼图、柱状图等数据图,可视化发布技术能够变得更加丰富多彩、更具吸引力。我们在构建高校档案大数据智能处理平台的过程中,应当根据实践应用的需要,主动与专业技术服务提供商进行沟通,以利设计者能够提供更多具有时代气息的创新佳品。

第四,注重集成信息图工具的遴选。目前,有一种与可视化发布技术非常接近且有时能够互相替换使用的技术叫“信息图”(InfoGraphic)。该技术不仅能使无“生命”的数据显示出趣味和生命力,而且便于在网络上传播和收藏。不同之处在于,可视化发布技术基本上是全自动的,而“信息图”要靠手工定制。据调研发现,“信息图”已是当今“轻阅读”的宠儿,可以广泛应用到高校档案展示领域,各高校档案管理机构可根据自己所需用途和投资条件进行选择。

*本文为2011年度国家社科项目“基于互操作协议标准的档案信息资源整合模式研究”(项目编号:11CTQ030),2016年度江苏省档案局科技项目“区域性高校数字档案资源共享平台建设研究”(项目编号:2016-13)研究成果之一。

[1]杨正洪.《智慧城市——大数据、物联网和云计算之应用》[M].北京:清华大学出版社,2014:17.

[2]李德伟等.《大数据小故事》[M].北京:中国标准出版社,2014:110.

[3]杨巨龙.《大数据技术全解:基础、设计、开发与实践》[M].北京:电子工业出版社,2014:9.

[4]张新程等.《物联网关键技术》[M].北京:人民邮电出版社,2011:38.

[5]大卫·芬雷布.《大数据云图》[M].杭州:浙江人民出版社,2014:178.

[6]赵勇等.《大数据革命——理论、模式与技术创新》[M].北京:电子工业出版社,2014:109.

张 倩,女,南京艺术学院综合档案室副研究馆员,主要研究方向为档案信息化建设。

Study on Big Data Business Process Reengineering of University Archives

Zhang Qian
(Comprehensive Archives Office of Nanjing University of the Arts,Nanjing,Jiangsu,210013)

Referring to the principle of Business Process Reengineering and the idea of the development of big data technology,this paper investigates the contents of the traditional archives business process and its existing problems in colleges and universities,and explores the core content of the business process reengineering of university archives and puts forward to reform the university archives business process from the traditional functional organization structure to the process type organization,in order to establish the business process of holographic collection,distributed storage, association mining,visual publishing.

Big Data;University Archives;Business Process Reengineering

G271

猜你喜欢
业务流程可视化档案管理
基于CiteSpace的足三里穴研究可视化分析
思维可视化
如何规范档案管理
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
企业财务管理、业务流程管理中整合ERP之探索
互联网+背景下物流公司的业务流程再造
档案管理与企业内部控制关系的思考
建设项目全过程造价管理咨询服务的业务流程分析
基于财务业务流程再造的ERP信息系统构建探析