张 倩(南京艺术学院综合档案室,江苏南京,210013)
高校档案物联网大数据处理平台的构建方案研究*
张倩
(南京艺术学院综合档案室,江苏南京,210013)
[摘要]文章借鉴大数据技术发展理念和物联网环境建设的基本原理,通过考察高校档案物联网环境中的大数据源特征和处理流程,试图探寻物联网与大数据等处理技术的“跨界”融合途径,提出高校档案物联网大数据处理平台的设计重点与主要功能模块的构建方案。
[关键词]大数据高校档案物联网信息系统
[分类号]G271
随着信息产业的飞速发展,高校档案业界即将迎来“档案Web3.0”时代。步入Web3.0时代,在高校档案物联网环境下,档案数据采集将呈爆炸式增长,特别是档案大数据源的处理和运用,将成为创建高校智慧档案馆(室)不可或缺的服务手段。考虑到现阶段大数据技术在高校档案物联网领域应用的紧迫性和相对滞后,本文借鉴大数据技术发展理念和物联网环境建设的基本原理,通过考察高校档案物联网环境中的大数据源特征和处理流程,试图探寻物联网与大数据等处理技术的“跨界”融合途径,提出高校档案物联网大数据处理平台的设计重点与主要功能模块的构建方案。
1.1物联网是大数据的孕育之母。通过考察可以发现,物联网生成的子系统不断增加,数据源规模日益膨胀,大数据由此应运而生。实践还告诉我们,物联网世界的本质就是数据。物联网既是数据源的“产房”,也是大数据的孕育之母。借助物联网技术,不仅可使高校档案物理环境中的信息实现数据化,而且这些数据均具有大数据的特征,即:数据体量大(Volume)、数据处理速度快(Velocity)、数据类型繁多(Variety)、数据蕴藏价值高(Value),是供高校档案管理机构开发增值服务的丰富“宝藏”[2]。
1.2大数据是物联网的助力之神。大数据技术提供对终端设备的智能化控制和智能化交互,将引领高校档案物联网向智能物联网方向发展,使高校档案物联网拥有更加广阔的发展空间。实践探索表明,创建具有云计算功能的大数据处理平台,运用大数据技术对档案物联网生成的数据源作采集、存储、过滤、筛选和可视化处理,既是高校档案物联网建设的核心任务,也是高校智慧档案馆(室)创新数据化运作机制、增强智能化关联与预测功能、提升个性化服务水平的重要手段。
1.3物联网与大数据是“联姻”之体。物联网与云计算、大数据无论在技术概念上,还是在技术内涵上,都存在着极强的关联性与共生性。若将档案物联网看作是处于前端的传感器与网络设备,具有云计算功能的档案大数据处理平台则是发挥核心作用的应用系统,促进三者技术优势的融合,是提升高校档案信息智能化服务水平的关键所在[3]。因此,高校档案管理机构在推进档案物联网建设的过程中,不仅要积极引入物联网技术,而且要注重与云计算、大数据等处理技术进行“联姻”。
2.1档案物联网环境中大数据源的主要特征
(1)数据规模的海量性。海量性(Volume)是大数据源的4V特征之一,物联网则是最能体现这一特点的应用领域。例如,在档案物联网环境中,每件档案及其相关设备都被附加了可跟踪其位置的标签或芯片,这些装置实时生成的日数据量不仅能以指数级增长,而且能创造出众多的“数据海”。因此,构建档案物联网并依托大数据技术对档案大数据源进行收集、存储、分析处理和应用,这既是对高校档案管理机构改造传统管理模式的艰巨挑战,也是跟上Web3.0发展步伐的重大机遇。
(2)数据处理的高速性。数据处理速度(Velocity)是决定物联网成败的重要支撑条件之一,大数据分析技术的最大优势就在于其能够快速“提纯”出有价值的信息。例如,在档案物联网环境中,档案大数据处理平台的传感器、控制器等智能处理设备每天都会高速、动态生成大量的数据,不仅TB级以上的日数据增长量将呈常态化,而且以流(Stream)的形式产生的实时监控数据规模量将更为惊人。因此,高校档案管理机构应当高度关注档案物联网建设的重要性和紧迫性,着力加快云计算和大数据技术落地进程,以利促进档案物联网大数据源的开发与利用。
(3)数据类型的异构性、多态性和颗粒性。“大数据源”是海量数据+复杂类型的数据,其数据生成方式的多样化是造成物联网大数据源极具复杂性的重要原因之一。例如,在档案物联网环境中,种类繁多、结构不同、功能各异的传感器、非接触式射频识别标签等感知设备生成的文本数据和图像、音频、视频等多媒体数据,既有异构的、非结构化和有噪声的数据,又有静态数据和动态数据。这些不同类型数据构成的档案物联网“大数据源”,具有明显的异构性、多态性和颗粒性(数据通常带有位置、时间、行为和环境等信息)特征,其对档案大数据源的处理与开发利用造成了极大的难度。因此,高校档案管理机构必须重视档案物联网大数据源的处理平台建设,尤其要采取将错误数据检测与冗余信息处理等方法相结合的措施,让非结构化数据转换成结构化数据,以优化高校档案物联网的大数据智能处理机制。
2.2档案物联网环境中大数据源的处理流程
遵循档案信息大数据“生成、传输、处理和应用”的四项基本原则,我们可以把高校档案物联网大数据处理平台的技术构架分为“感知识别、网络枢纽、管理服务和综合应用”四大层阶[4]。这种技术模型构造的高校档案物联网,以大数据源的集成与应用为核心对象,其处理流程可归结为:数据采集、数据存储、数据分析和数据应用等四大运作环节。其中,数据的采集和存储是基本功能,数据智能化分析和处理是大数据技术的精髓所在。
(1)感知识别层大数据的采集与遴选。
感知识别层位于物联网四阶次模型的最底层,是所有上层结构的重要基础。在这一层阶中,其采集的数据是档案物联网集成大数据源的主要“原料”,后续各种应用都将通过提取存储在“原料库”(数据库)中的各类数据才能实现。档案物联网感知识别层如同人体的皮肤和五官,其作用主要是通过装置在档案库区环境中各类物体上的射频识别、全球定位系统、传感器、二维码等信息传感设备(“触手”),对档案数据进行采集、识别、筛选和存储,并由档案物理环境“全息式感知系统”来构建大数据源集成库(智能数据库)。
在档案物联网环境中,采集到的数据因其具有异构性、多态性与颗粒性等特征,其中很可能存在较多受过干扰的错误数据,必须依靠大数据技术对原始数据进行“去伪存真”和“去粗取精”。感知识别层的遴选流程与措施:一是对采集的异源、异构数据进行识别分类;二是对噪声数据进行去噪处理;三是对数据设置时空标志;四是与历史数据进行比对;五是建立大数据资源存储库。
(2)网络枢纽层大数据的传输与交互。
网络枢纽层在档案物联网四层模型中的主要功能是:“链接”感知识别层和管理服务层。这一层阶如同人体的神经中枢和大脑,其作用主要是:通过数据接入技术(包括个人网、局域网、广域网等传递网络的融合),将下层(感知识别)经过加工处理的数据高效、稳定、安全地调度输送到上层(管理服务),并由数据交互功能模块构建“智能交互”的档案大数据源共享系统。需要指出的是:大宽带是处理极端高速关键数据的基本要求,也是实现高效消化和处理大型数据集的基础[4]。因此,对于构建“智能交互”的档案大数据源共享系统而言,首先要确保带宽能够满足数据高速流动的要求。此外,高校档案物联网感知识别层的节点众多,如果直接将实时采集的海量感知数据传输至综合应用层,不仅会占用数据资源库,而且会导致网络拥塞甚至瘫痪。因而,采用基于云计算的分布式系统作为档案物联网大数据源的基础架构,可为网络枢纽层提供足够的数据传输与存储能力,进而实现高校档案数据“物物相连”的智能交互之目的。
(3)管理服务层大数据的组织与整合。
管理服务层位于感知识别层和网络枢纽层之上、综合应用层之下,是档案物联网大数据处理平台进行智慧管理的“数据资源供应站”。档案物联网感知识别层生成的海量数据,经过网络枢纽层传输汇聚起来后,需在管理服务层进行组织与整合方可利用。因而,管理服务层承担的主要功能是:应用数据检索、数据挖掘和机器学习等大数据处理技术,对下层生成并传输过来的海量数据进行组织与整合(有针对性地进行数据挖掘、实时分析、模型预测等),并通过提供智能检索手段来便利数据的有效挖掘与利用。需要强调的是,将大规模动态且可能是模棱两可的数据高效、可靠地组织与整合起来,并能导出可理解的内容,这是建立高校档案物联网的要务之一。
(4)综合应用层大数据的可视化与智能化。
无论采用任何技术,应用是决定其成败的关键。只有有应用需求的数据才是有价值的数据,只有生成服务模式各异的多样性数据应用才是高校档案物联网大数据源的最终价值体现。综合应用层处于档案物联网四阶次模型中的最上层,是提供档案大数据服务的“数据应用指挥部”。这一层的核心功能有二:一是将管理服务层提炼出来的数据结果,进行可视化处理;二是建立多样性应用模式,提供智能化应用。即运用可视化技术以图文并茂的方式输出分析与预测的数据结果,并由大数据的匹配机制提供智能化应用。值得指出的是,构建高校档案物联网,实现档案大数据源应用的可视化与智能化,这既是推进高校档案管理手段转型升级的内在要求,也是创建高校智慧档案馆(室)的明智选择。
3.1设计重点一:创建档案文件智能追溯模块。
在传统的文书处理模式下,档案文件从生成到存档或销毁的各个环节都需要人工参与记录,档案管理部门因缺乏获得文件流转过程的实时信息,故而无法做到对每份文件的实时监控与管理,即使收到了记录资料,在时间上往往也存在延迟,且对出现的误差更是无法及时追溯,严重影响到归档文件的真实性、完整性和有效性。解决这一难题的出路何在?
笔者通过深入考察和研究,提出的建议方案是:在高校档案物联网大数据处理平台中建立“档案文件智能追溯模块”。即应用非接触式射频识别、近场通信、二维码等物联网技术,将每一份(件)实体档案都“植入”电子标签或芯片,档案文件智能追溯系统就可实现“一档一码”的精细化档案质量控制和档案大数据源的开发与利用。
在高校档案物联网大数据处理平台中建立“档案文件智能追溯模块”后,传统的档案文件从生成到存档或销毁的各个环节的信息生成及其生命周期管理(ILM)模式将被彻底颠覆,不仅数据化档案文件在每个环节上产生的实时信息都可自动写入标签或芯片之中,而且档案文件智能追溯系统可随时监测、定位、追踪数据化档案文件在各个节点的流转情况,并可全程跟踪每份数据化档案文件的去向。值得一提的是,档案文件智能追溯系统除了具有接收档案文件实时与精准的优点,还可提前控制档案的数量与形态,有利于降低或规避意外风险。
3.2设计重点二:创建档案仓储智能管理模块
面对与日俱增的实体档案,特别是在海量数据化档案的压力之下,高校档案管理机构如何找到实体档案与海量数据化档案实时、高效、安全的对接捷径?
笔者通过深入考察和研究,提出的建议方案是:借鉴仓储管理(Warehouse Management)的理念与方法,在高校档案物联网大数据处理平台中建立“档案仓储智能管理模块”。
鉴于现代高校档案仓储管理的目的不仅是保管,更多是利用,对仓储管理的重点也不再仅仅着眼于档案保管的安全性,更多关注的是如何提高仓储运作的效率与效益,因此,高校档案管理机构应根据档案仓储业务的核心内容,为档案物联网大数据处理平台的“档案仓储智能管理模块”设置如下技术支持功能:
一是档案出入库的智能作业。在高校档案物联网大数据处理平台中,应借助RFID、NFC、二维码等物联网技术来创建“档案仓储智能管理模块”,让档案物联网大数据处理平台在无需人工物理接触实体档案的情况下,就可做到“感知”全库档案的种类、数量以及储位等详细的属性信息,以达到实体档案出入库智能作业之目的。
二是档案统计与盘点的智能作业。在高校档案物联网大数据处理平台中建立“档案仓储智能管理模块”后,可将RFID标签等感知设备安装在库房智能密集架上,档案管理人员只需手持“读写器”走过智能密集架,档案物联网大数据处理平台就可通过仓储智能管理系统在几十米的范围内精准测定实体档案的位置、类别、保管期限等属性信息,且可将采集的实体档案数据通过“读写器”与管控平台对接,自动记录和告知档案管理人员有关实体档案丢失或放错位置等方面的详细信息,并迅速完成库房实体档案的统计与盘点作业。
三是档案在线利用的智能作业。在高校档案物联网大数据处理平台中建立“档案仓储智能管理模块”后,附有电子标签或芯片的实体档案被放置在智能集成管理架上,其所放物理位置的感知编码与档案物联网大数据处理平台中的库位编码信息相一致,因此,运用库位感知编码技术,档案物联网大数据处理平台不仅可通过仓储智能管理系统快速锁定实体档案,而且能实现在线办理自助借出与归还的智能作业,特别是档案被查询和利用过程中的所有移动路径,都会被自动详细记录在标签或芯片之中。此外,档案物联网大数据处理平台还可通过对仓储智能管理系统中相关历史数据的分析,提出优化库房布局和实体档案科学排列的建议方案,并可预测用户借阅行为,以有针对性地研发可增值的档案产品和服务。
3.3设计重点三:创建档案环保智能监控模块
笔者研究发现,将物联网技术应用于环境监测领域,不仅是最早提出、最为普及的先进模式,而且这项技术的智能化水平已达到较高程度。因此,应用以传感网为代表的环保监控技术,在高校档案物联网大数据处理平台中建立“档案环保智能监控模块”,既可使高校档案库区环境监测尽早获得成熟技术的支持与保障,又可依据管控平台全天候、大规模、连续性的实时监测结果来不断完善处置档案环境变化所需的应对预案。
例如,对温湿度控制,档案物联网大数据处理平台可通过环保智能监控系统和感知节点部署的“智能恒温器”,不间断地测量档案库房和展厅内各个区域的温湿度,自动制定温湿度设定的最佳预案,并指导“智能恒温器”根据需要自动调整温湿度;档案管理人员则只需用智能手机的相关APP就能监控全局。应用这一技术,既可彻底摆脱人工每日查看温湿度计进行记录的繁琐劳作,又可有效地避免人为因素造成的误差或判断失误。此外,档案物联网大数据处理平台对环保智能监控系统实时采集的全方位(7×24小时)监测数据,可以进行大数据智能分析,分析环境质量发展趋势及其变化规律,生成各类可视化统计图表,按需发布监测结果。
3.4设计重点四:创建档案设备智能监控模块
确保档案管理机构设备的安全运作,也是一项不可轻视的重要工作。近几年,高校档案管理机构购置的现代化设备迅速增多,依靠人工方式记录并统计这些设备的运转及维修养护信息,不仅需要耗费大量的精力,而且不可能做到实时、精确。
笔者通过研究提出的建议方案是:引入物联网技术,在高校档案物联网大数据处理平台中建立“档案设备智能监控模块”。目前,这一技术的运用,已在许多领域广为普及且简便易行。即:只需档案管理人员在每台(件)设备上都装上感知标签或芯片,档案设备智能监控系统就可立即锁定设备的安放位置、工作性能、使用状态等,并可随时提供监控的运行参数。
档案设备智能监控模块的核心作用在于:通过实时监测特别是对运行参数的统计分析,可进一步理解并掌握设备的运行规律,进而提供以下技术支持功能:一是可以依据设备运行产生的大数据,将其工作性能调整到最佳运行状态;二是可以提出设备合理调配的使用方案,最大化地提高资产利用效率;三是可以及时获知设备部件的故障点,迅速准确地通知管理人员进行维修;四是可以科学安排设备的养护,及时更换老化的设备。
3.5设计重点之五:创建档案数据信息流智能预警模块
与传统的人工安全防范措施相比,档案物联网大数据处理平台依托感知、识别、通信、定位等先进技术,对高校档案数据信息流的安全管控将更加及时有效,特别是综合防范能力将大为提高。只要为实体档案及其存放设施(设备)安置的“传感器”设定标准参数并启动实时监控,一旦有某项数值超标,档案数据信息流智能预警系统就可立即发出警告信号,还可自动实施应急预案设定的安全措施。
笔者认为,在高校档案物联网大数据处理平台中建立档案数据信息流智能预警模块,依托其“大数据高速处理引擎”进行安防监控预警分析,不仅仅对档案信息具有可靠的安防预警作用,还可对高校档案物联网环境中大数据源进行深层次开发与应用。即运用采集的数据资源,创建“高校档案物联网大数据预警信息库”,并依托历史数据与实时数据的全方位分析比较机制,构建自动删除重复数据、重点保存和分析突发性异常数据等智能化的功能,有利于挖掘其更重要的预测预警作用。例如,通过对高校档案物联网大数据预警信息库的开发与应用,可以深入剖析大规模的网络数据外流流量,并对出现反常态的数据外流流量(指向此前未知的目标,可能就是数据外泄的信号)进行预测预警。
关注IT技术发展,积极学习和应用计算机、互联网等IT领域的科技成果,尽快承接物联网、云计算和大数据等新技术在高校档案领域落地,既是创建高校智慧档案馆(室)的内在要求和重大机遇,也是推动高校档案服务业态转型升级的发展方向和有效之举。毋庸讳言,我国的高校智慧档案馆(室)建设尚面临着知识储备、物质条件等方面的挑战与制约。但是,笔者深信在不久的未来,传统型高校档案馆(室)将被塑造成为集建筑物自动化(BA)、通信自动化(CA)、办公自动化(OA)、安全保卫自动化(SAS)、消防自动化(FAS)等多功能于一体的“智慧殿堂”,极具人性化的舒适环境和智能服务的功能,成为人们流连忘返的上佳去处。
*本文为2015年度江苏省档案局科技项目“高校档案大数据智能处理平台的构建方案研究”(项目编号:2015-18)研究成果之一。
参考文献
[1]朗为民.大话物联网[M].北京:人民邮电出版社,2011:40.
[2]鲍亮,李倩.实战大数据[M].清华大学出版社,2014:100.
[3]张礼立.大数据时代的云计算敏捷红利[M].北京:清华大学出版社,2013:17.
[4]郎为民.漫话大数据[M].北京:人民邮电出版社,2014:23.
张倩,女,南京大学档案学硕士,南京艺术学院综合档案室主任,副研究馆员。主要研究方向为档案信息化建设。
Research on the Construction Scheme of IOT Big Data Archival Processing Platform in Colleges and Universities
Zhang Qian
(Comprehensive Archives Office of Nanjing University of the Arts,Jiangsu,Nanjing,210013)
Abstract:Referring to the principle of IOT environment construction and the idea of the development of big data technology,this paper investigates big data source characteristics and treatment process of University Archives in the environment of Internet of things,and attempts to explore the approach of IOT and big data processing techniques of "crossover" fusion and put forward the design of key and the main function module of processing platform for big data of Environment of Internet of things.
Keywords:Big data;University Archives;Internet of things;Information System
[作者简介]