大数据时代下的档案信息服务探索

2015-01-07 10:50刘晓亮
卷宗 2015年12期
关键词:档案服务数据挖掘大数据

摘 要:大数据背景下,档案馆的服务模式与应用将会发生改变。首先介绍大数据时代档案馆所面临的时代背景;接着分析大数据背景下档案服务的问题与挑战,最后提出相应的应对途径与方法,以期为开展大数据档案服务提供借鉴和参考。

关键词:大数据 档案服务;数据挖掘

1 大数据与档案服务应用

大数据是一场革命,将改变我们的生活、工作和思维方式。大数据并无统一定义,一般认为由巨量的结构与非结构化数据组成。通常以“4V”特征或称为维度对大数据进行描述性解释:规模(Volume)指数据的数量规模巨大;类型(Variety)指数据类型多样复杂,混合结构化与非结构化的多种类型;实时(Velocity)一方面是数据增长速度快,另一方面是要求在合理的时间内访问、处理数据;价值(Value)反映了数据中隐含着价值转化。大数据发展的最终目标是挖掘数据的应用价值,其重点在于数据的分析和服务应用,“大”不过是信息技术不断发展所产生的海量数据的表象而已。

随着数字档案馆的兴起,档案网络服务得到应用与普及,数字化档案、档案数据库的种类、数量不断攀升,成为档案资源数据的重要增长点,已经达到海量数据规模。另外,档案数据中存在大量的非结构化数据,包括各类照片档案、录音档案、录像档案、文书文档、电子表格等,以数字形式作为文件或录入数据库存储,符合当前大数据的“4V”基本特征。然而,这些档案数据资源远未得到有效与相应的服务利用程度。随着大数据技术的发展与应用,必然需要档案馆进一步从大量的档案信息中分析和挖掘数据的价值,要求档案馆在服务模式、资源利用方式等方面作出相应调整与改变。因此,探索大数据对档案馆服务应用产生的影响以及应用大数据思维方法拓展档案服务是亟须思考和解决的问题。

2 大数据档案服务应用的需求与挑战

大数据背景下,档案数据类型多样、数量众多,档案数据存储分析处理技术、环境与条件的变化导致了其服务应用面临着新的需求与挑战,体现在以下几个方面:

(一)档案数据存储与备份受到挑战 档案数据量已经可达到相当级别的数据规模,并且数据量在不断增长,这就对数据存储系统的扩展能力要求不断提高。档案馆的数据存储已不止于结构化的二维信息,各类图像、音频、视频、网页等非结构化数据来源与数量也在不断增加,会出现类似传统档案管理时的“胀库”问题。同时,必须解决大规模档案数据的安全备份问题,而且在实践中通常会伴随存储管理复杂、存储利用率低下、存储能源消耗巨大等问题。这就必须应用合理可行的集群存储方案,优化存储提高效率和节约成本,运用高效存储技术,比如数据压缩、自动精简配置、自动分层存储、存储虚拟化等解决或缓解这些难题。

(二)档案数据加工分析能力亟待加强 档案建设惯用“仓储”方式,工作重心是征集接收保管档案。近些年虽然也强调档案的数字化工作,但加工与分析处理档案资源的能力严重不足,大量的档案资源的价值得不到有效体现利用。随着信息化进程不断推进,相对大众网站与其他信息机构,拥有海量社会价值信息的档案馆地位作用正在被不断弱化与边缘化。大数据的目标在于数据价值的发现,迫切需要利用数据挖掘、机器学习技术与工具从档案数据中获取有价值的档案知识。通过数据的整合共享,交叉复用提升档案馆的智力资源和知识处理加工能力。

(三)档案服务方式与内容发生变化 传统的信息服务模式和内容虽然能够满足用户的基本要求,但在大数据时代下关注个体的服务需求明显。信息服务的方式和内容以为用户提供个性化、精准化知识服务为目的,强调用户体验与知识发现。用户在面对海量的档案资源时,如何准确快捷地检索利用档案,需要档案馆为用户提供综合一站式的服务体系,良好的用户体验,并且具备个性化服务、语义化服务、社交网络以及数据可视化等服务应用能力。

(四)档案数据隐私安全需求不断增长 数据开放已成为档案馆发展的必然选择,但档案数据中存在各种敏感信息与隐私信息,比如健康档案、医疗档案,开发和利用会涉及到档案信息的安全问题。如何协调处理数据隐私与数据开放之间的矛盾,在开发利用档案的同时保护隐私敏感数据就显得格外重要,必然要在传统的用户准入控制、权限验证等安全技术的基础上,利用安全多方计算、数据模糊、数据加密检索等隐私保护技术提高数据的安全性与可控性。同时,通过制定完善档案安全管理法规制度,明确档案的使用权限,控制和应对未来的潜在风险,健全人防、物防、技防三位一体的档案数据安全防范体系,以防止失泄密问题发生。

3 开展档案大数据服务应用的途径方法

(一)转变观念,拓展服务理念 大数据背景下,促进信息的开放、交流与共享是开展深度信息服务的大势所趋。如果档案馆仍然故步自封、无所作为,不突破传统服务理念与服务范围的局限,那么档案馆会失去大数据发展机遇,作用地位会被不断弱化。档案馆要拓展服务应用内容与范围,实行开放性服务,紧跟社会发展与用户需求主动调整服务应用模式。利用互联网与移动网络拓展服务领域,延伸服务范围至社会各领域的用户与单位。这就对档案馆员提出了更多要求:(1)处理加工数据的能力,能够利用数据挖掘技术工具分析数据;(2)研判见解,能够从数据中讲道理、作解释、说故事,能够从数据的角度看待档案,以大数据理念推动档案馆的服务应用。

(二)个性化服务应用体系 个性化服务依据各种渠道方法对资源进行收集、整理和分类,根据用户需求、习惯和行为方式提供和推荐相关信息和个性化的应用环境,满足用户需求。从整体上说,个性化服务打破了传统的被动服务模式,能够充分利用各种资源优势,主动开展满足用户个性化需求为目的的全方位服务。档案馆要面向社会用户,以需求为着眼点,以技术为手段,发展基于档案数据的知识化产品化服务。大数据时代,所有信息机构都想获得并充分了解用户需求。将海量的档案数据进行知识化加工是深层次信息服务的重要模式,也是大数据档案服务应用的必然选择。目前,各大档案馆与网站能真正运用数据分析挖掘技术,为用户提供知识服务的功能还比较薄弱。可以从档案数据中抽取本体、知识单元,通过语义标注、知识库构建等方法实现档案资源知识链接形成知识网络,为语义处理提供支撑,进而通过分类聚类等数据挖掘加工处理从不同角度满足用户对档案知识的需求。同时,可借助微博、微信提供的API接口,获得更廣泛的用户数据,通过对用户需求与档案数据深层处理分析,利用APP等多种方式搭建起档案与用户之间的服务桥梁。

(三)集成档案数据资源 数据集成把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,采用统一标准管理数据,从而应对大数据数量众多、类型多样、来源广泛等问题给档案数据管理服务所带来的挑战。目前,档案馆的一个重要问题就是档案资源的分散化与碎片化。馆内资源存储在互不连通的系统或数据库中,产生大量的数据孤岛。孤立的数据是难以发挥出数据价值的,如何连接这些数据,实现资源交互共享,是大数据价值最大化的关键。大数据时代,万物互联,档案馆不能处于社会信息服务体系之外。档案馆的数据集成不单要在馆内实现集成,而且要整合集成不同档案馆间的数据,与图书馆等其他信息机构之间的数据进行连接集成,从而将档案资源纳入大数据社会信息服务应用体系之中,提升档案利用价值。

为了档案馆事业能够在大数据时代稳步前进,必须把握与应用大数据思维、方法与技术,探索与创新档案服务应用的方法与模式,使档案馆信息服务水平不断得到提高,满足时代需求。

参考文献

[1] 舍恩伯格.维克托 大数据时代:生活、工作与思维的大变革[M]. 浙江:人民出版社,2012.

[2] 王兰成 刘晓亮. 网上数字档案大数据分析中的知识挖掘技术研究[J]. 北京档案,2013(10):14-19

[3] 韩翠峰. 大数据带给图书馆的影响与挑战[J]. 图书与情报,2012(5):38-39

[4] 周枫. 大数据时代档案馆的特征及发展策略[J]. 档案与建设 2013(8):6-9

猜你喜欢
档案服务数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
浅析信息化背景下高校档案服务策略
大数据时代建立高校档案服务新模式探索
档案管理和档案服务
基于大数据背景下的智慧城市建设研究
如何做好事业单位的档案管理与服务工作
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究