政府数据开放背景下档案数据价值实现研究

2020-12-07 08:31董聪颖金轶莹
山东档案 2020年5期
关键词:数据服务数据挖掘价值

文·董聪颖 金轶莹

一、前言

新型冠状病毒疫情发生后,国家档案局《关于做好新型冠状病毒感染肺炎疫情防控期间档案工作的通知》(以下简称《通知》)指出:要服务大局,充分发挥档案政资作用,特别是2003年抗击“非典”疫情的有关重要工作情况,汇总编辑成档案参考材料。[1]

档案数据作为社会公共资源,实现档案数据价值、促进档案数据价值最大化是适应政府数据开放的有效举措。在数字化浪潮席卷社会的今天,档案人不得不紧跟时代,及时向社会提供档案数据服务,高效跟进政府、社会的改革与建设需求,重新将档案数据管理、档案数据服务、档案数据价值实现等问题纳入思考范畴。档案数据价值是指档案数据对于社会的积极意义和有用性,档案数据价值的实现是一个动态过程,是人对档案数据加以动作,使档案数据“活起来”,从案牍上或者数据库中的静态数据变成信息甚至知识并为人所用的过程。

二、政府数据开放背景下档案数据价值实现的可行性

(一)相关政策的支持

《数据资产管理实践白皮书4.0》明确提出:“将数据转变为数据资产,要掌握丰富的高价值数据资源。”档案数据和政府数据联系密切,政府部门存有大量的公共数据资源,这些资源大多存放在原有的数据库中或堆积在各部门档案室或文件柜里,并没有得到很好的利用,对这些数据资源进行开发服务将是未来数据开放工作的重心。[2]政府数据开放力求通过带动社会开展大数据增值性、公益性开发和创新应用,充分释放数据红利。《促进大数据发展行动纲要》(以下简称《纲要》)明确指出:“构建电子健康档案,加强数字图书馆、档案馆等公益设施建设,构建文化传播大数据综合服务平台”,由此可见,增强档案数据服务是推动政府数据开发的重要因素之一。

(二)档案自身条件的优越性

截至2018年底,全国各级国家综合档案馆馆藏档案75051.1万卷、件,全国各级国家综合档案馆纸质馆藏资料3883.1万册(不包含照片、影片档案、电子档案等)。[3]随着大数据、社交媒体的发展,档案数据的外延不断扩展,如此海量的档案数据中蕴藏的价值不可估量。另一方面,政府数据开放的深入开展,引发了档案领域对档案价值的思考,理论层面关于档案数据价值实现的研究也不断增多。马海群指出在数据开放的研究与实践潮流下,进一步关注档案数据开放将成为档案数据研究的最新前沿问题。[4]Ahmed Elragal, Tero Paivarinta等学者寻求运用数据挖掘技术实现档案数据价值增值,提出通过新兴的大数据分析手段来开展数字档案和馆藏的开发工作,从而为社会提供知识服务。[5]王向女、袁倩指出数据科学主要解决了档案数据的快速增长和精准有效利用之间的矛盾问题,创新之处在于数据科学实现了档案数据的数量“增殖”和价值“增值”之间的和谐。[6]

(三)服务实践的推动

首先,档案数据服务的开展。疫情防控期间,《通知》指示各级档案部门要充分利用现代通讯技术,灵活采用电话、办公网、短信、微信、移动客户端等适宜方式,加强对疫情防控材料收集归档工作的业务指导,做到疫情防控档案应收尽收、应归尽归。许多档案馆纷纷制定策略,保障档案数据服务的有序开展。第二,档案数据服务网站的不断完善。截至目前,一些省市已经建成档案数据服务网站,如上海市将档案数据服务融入“一网通办”工程、浙江档案服务网增设“开放档案”栏目。第三,数据挖掘技术的应用。政府数据开放动员社会利用数据挖掘技术来开发数据价值,真正实现数据来源于民用之于民,这对档案数据价值实现提供了诸多可鉴之处。

三、政府数据开放背景下档案数据价值分类和实现要素

(一)档案数据价值分类

大数据背景下,档案数据价值可以挖掘出三个层次,一是档案数据内容的凭证价值和情报价值;二是档案数据关联、数据挖掘以及数据融合产生的二次价值;三是无法立即判断其价值的数据的潜在价值。[7]档案数据价值可以分为三类,即档案数据内容价值、档案数据增值价值、档案数据潜在价值。

1.档案数据内容价值

档案数据内容价值是指不经过任何加工直接用肉眼或者简单分析就可获取的凭证和情报价值。新型冠状病毒防控期间,各级部门及时公布“非典”档案和新型冠状病毒的对比数据,防治“非典”病毒的档案为新型冠状病毒的防控提供了可鉴之处,如当时北京小汤山医院的建设对遏制病毒起到了重要作用,截止到2020年2月7日,火神山医院已经开始收治病人,雷神山医院也即将完工,这些都充分发挥了档案数据的凭证和情报价值。

2.档案数据增值价值

在数据科学的大背景下,档案数据的价值在于海量数据基础上的价值增值。[8]《通知》指出:“各级档案局、档案馆要根据疫情防控工作实际需要,组织档案编研人员,深入挖掘馆藏档案资源。”档案数据增值价值又称档案数据附加价值,不易直接获得,通常和数据量、技术手段相匹配,同一问题数据规模越庞大,数据分析技术越精进,档案数据增值价值越容易体现。档案数据增值价值包括定量和定性两个层面。定量是可见的、真实的、可以测量的价值;定性更带有主观色彩和不确定性,如通过“非典”档案和新型冠状病毒对比数据的公布,缓解了社会对新型冠状病毒的恐惧,发挥了稳定社会秩序的作用,这很难用确切的数据来衡量,但也是档案数据增值价值的体现。

3.档案数据潜在价值

档案数据潜在价值是还未发现的价值,一经发现它既可以转化为内容价值也可以转化为增值价值。在新型冠状病毒未发生前,“非典”档案只作为相关科研人员研究所用,其他凭证价值、情报价值以及经过数据分析的价值则不会显现。因此,档案数据潜在价值需要一定条件去发现和实现。对于档案馆而言,从大量数据中分析潜在的价值决定着大数据时代档案馆的发展水平及方向。[9]当前档案数据仍有无数潜在价值等待我们去发掘,需要档案人敏锐的目光,需要整个社会的参与。

(二)档案数据价值实现要素

1.档案数据价值实现的主体

2018年5月24日,冯惠玲在上海大学《新时代 新趋向 新思考——信息资源管理发展创新论坛》报告中提到,档案管理与开发呈现出档案主客体多元化、档案实践多元化等特点。政府数据开放背景下档案数据价值实现主体是指开放档案数据和挖掘数据价值的部门、机构或者个人。档案部门是开放档案、提供档案数据服务的主力;第三方服务机构在技术、知识挖掘等层面占据优势,是挖掘数据价值的重要力量;掌握数据挖掘技术的个人在档案数据价值开发方面也可发挥其特长。

2.档案数据价值的服务对象

档案数据价值的服务对象是接受档案价值的用户,是价值受众。档案数据管理的整个生命周期都围绕用户展开,是档案数据价值实现的主要推动力。2018年末,我国总人口139,538万人,2018年度,全国各级国家综合档案馆接待利用者724.9万人次。每一个人都是档案数据的潜在用户,由数据可知,我国档案数据用户的增长空间巨大。随着信息的高速发展,用户对档案数据的利用需求也在改变,用户关注的已不再是简单地获取文献,而是如何从繁杂的信息环境中捕获和析取解决所面临问题的信息内容,并将这些信息融化或重组为相应的知识或解决方案。[10]

3.开放的档案数据

政府数据开放的重心在“开放”一词,开放的政府数据具有自由访问、规模大、种类齐全等特点。自由访问代表任何人都可以获取,无权限设置;《纲要》提出2020年前,实现信用、交通、医疗等20多个相关领域的政府数据集向社会开放,“数据集”是政府数据开放的单位之一,是海量数据组成的集合。开放的档案数据是利用档案数据的前提,大规模的数据开放是开展数据挖掘的基础,是促进数据—信息—知识转变的有效举措。

除上述因素外,技术条件的成熟和引用、政策法规的出台完善、逐步增强的社会档案数据利用意识等也是档案数据价值实现的要素。只有各要素相互配合,相辅相成,才能实现档案数据价值最大化。

四、政府数据开放背景下档案数据价值的实现路径

(一)增强档案数据内容服务

1.提高档案数据内容质量

档案数据价值开发的对象是档案数据,档案数据内容质量的高低决定了档案数据价值的可信性。电子文件归档有效解决了纸质档案保存对空间的特定要求,但是目前,电子文件的格式多样、重复存储,不同系统的文件没有接口,文件之间、类别之间、馆际之间等形式及内容间的深层次关联仍未建立,限制了档案价值的挖掘与利用。另外,不少档案馆采用数字外包的形式,档案数字化质量难以保证。因此,加快建设档案数据共享平台、完善电子文件标准建设、提高档案数子化水平、做好元数据著录和保存工作是提高档案数据内容质量的重要因素。

2.扩大档案数据开放格局

档案数据不是为了保存而保存,对档案进行一系列的管理活动,其最终目的是为了发挥档案的作用。政府数据开放背景下,档案数据更应紧跟时代,扩大档案数据开放范围,加大档案数据开放格局。首先,促进全方位的开放服务,即面向用户,无差别地提供服务;其次,实行多层次的开放服务,即档案数据的开放由国家到省市、由较发达地区到经济相对落后地区依次推进;最后,宽领域的开放服务,包括两个方面,一是内容领域更加广泛,如开放种类增多、开放数据集,二是档案数据的利用除凭证价值外,其增值价值也会激活市场某一领域的活力。

3.开展档案数据化服务

开放的政府数据都是以数据化的形式向社会提供,档案数据价值挖掘技术的应用需要数据化为前提。档案数据化是档案数据的结构化解析、应用级封装、媒体化组织和全链式管理过程。[11]档案数据化是档案数字化建设的发展方向。[12]我国档案数字化已开展多年,但数字程度较高的档案馆多是经济发达城市,经济相对落后的市、县数字化任务仍十分艰巨,加快这些地区的数字化进程,是开展档案数据化服务的重要因素。

(二)完善档案数据服务平台

1.充分借助政府数据开放平台

《纲要》明确提出2018年底前建成国家政府数据统一开放平台。目前,各省市政府数据开放平台建设已比较成熟,如上海市“一网通办”、贵州政府数据开放平台等。政府数据和档案数据联系密切,档案包含经处理归档的政府公开信息,不少地区档案数据服务借助政府数据开放平台来开展,如《福建省数字档案共享管理办法》指出:“综合档案馆基于省市两级电子政务云计算平台,统筹建立数字档案的目录数据库、全文数据库、专题数据库等数据库。”因此,档案部门应抓住数据开放机遇,充分借助政府数据开放平台,推动档案数据服务,促进档案数据价值的实现。

2.促进档案数据服务网站建设

档案数据服务网站是影响档案数据价值实现的重要因素,是用户获取档案数据的关键渠道,服务网站及其内容的完善与否决定了档案数据的获取量。政府数据开放背景下,档案数据服务网站应更加完善,但是实践中仍存在一些问题,如网站建设多处于初步阶段,经济相对落后地区甚至还未开始建设档案数据开放平台、网站访问量有待提升等。因此,档案部门应加强举措,继续关注已经有所发展的档案数据服务网站,推动其向更完善更丰富的方向发展;加大对经济相对落后和偏远地区档案数据服务网站的资金投入,从而尽快实现档案数据服务平台的互联互通,为档案数据价值实现提供更多契机。

(三)强化数据挖掘技术的应用

数据挖掘技术的应用是开发档案数据价值的关键。使用人工智能、文本挖掘、语义分析等大数据挖掘技术可以分析海量数据资源背后蕴藏的潜在价值,将数据转化为知识以满足档案用户的需求;利用VR、AR、MR等大数据可视化技术可以使结构复杂、类型多样的档案数据资源以清晰、明朗、更为直观高效的方式呈现出来,便于档案用户的利用,提高档案资源的利用率。[13]目前,档案数据挖掘技术在档案数据价值实现方面的应用还不广泛,有关部门可以借鉴政府数据价值实现的成功案例,加大投入力度,加强数据存储、整理、分析处理、可视化、信息安全与隐私保护等领域技术产品的研发,突破关键环节技术瓶颈,形成一批有代表性的应用案例,以应用带动档案数据价值开发。

(四)健全相关档案数据标准制度

相关档案数据标准制度的完善和实现档案数据价值密切相关。首先,完善档案数据标准,一是档案数据著录标准,包括电子文件主题著录、元数据著录等,便于相关数据的识别和开发;二是档案数据存储标准,促进电子文件存储格式的统一,便于数据挖掘技术的开展。其次,健全档案数据保密制度。大数据背景下,档案数据的外延不断扩展,哪些属于档案数据,哪些不属于档案数据还没有明确的界定,这给档案数据的安全带来了一定风险。因此,完善档案数据保密制度,明确档案数据保密内容,是保障档案数据安全的基础。最后,强化档案数据人才培训制度。档案数据价值的开发需要更多的技术人才参与进来,加大对档案管理人员和相关领域人员的培训,提高其档案数据价值开发意识,增强档案数据价值挖掘机会。

猜你喜欢
数据服务数据挖掘价值
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
改进支持向量机在特征数据挖掘中的智能应用
基于数据中台的数据服务建设规范研究
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
软件工程领域中的异常数据挖掘算法
一粒米的价值
“给”的价值
小黑羊的价值