朱令俊
摘要:数据驱动下的档案知识发现以大数据为驱动力,探索档案数据结构转变,利用数据可视化、建模、算法洞察理解档案信息资源,从档案领域中创新知识生产方式。文章立足数据背景明晰档案知识发现的概念涵义,以数据驱动为主轴解析档案知识发现的基本程式,从数据层、逻辑层、应用层、表示层构建档案知识发现的内容框架,具体阐述档案数据转型的递进过程,以数据思维、网络思维、用户思维探讨档案知识发现的实现路径,助益档案机构推动知识共享与服务。
关键词:档案知识发现;数据驱动;知识服务
分类号:G270.7
Research on the Path of Archives Knowledge Discovery Based on Data Driven
Zhu Lingjun
(School of Information Management of Nanjing University, Nanjing, Jiangsu, 210023)
Abstract:Data- driven archival knowledge discovery exploits big data as the driving force, explores the transformation of archival data structure, and uses data visualization, modeling, and algorithm insight to understand archival information resources, and innovative knowledge production methods from the archives field. Based on the data background, the article clarifies the concept meaning of archive knowledge discovery, and uses data-driven as the main program to analyze the archive knowledge discovery. The content framework of archive knowledge discovery is constructed from data layer, logic layer, application layer and presentation layer, and the transformation of archive data is elaborated. The progressive process explores the realization path of archive knowledge discovery with the data thinking, network thinking and user thinking and helps the archives institutions to promote knowledge sharing and service.
Keywords:Archive Knowledge Discovery; Data Driven; Knowledge Service
伴隨数据环境的形成、数据时代来临,实现以数据、信息、知识、智慧为生长点的动能转换显得尤为重要。数据密集型科学的兴起,使得海量、片段、异构数据得以采集、清洗与分析,驱动着新知识的发现。档案作为重要的知识载体,如何深度挖掘档案信息资源,发现档案知识价值,创新政府治理决策与社会服务方式,成为当前档案学界的重要议题。
截至2020年2月16日,在中国知网、万方数据知识服务平台、维普资讯中文期刊服务平台等数据库中,以“档案+知识发现”为主题检索,去重筛选后仅得7篇相关文献,进一步以“档案+知识发现+数据”为主题检索,则无相关文献。可见,学界尚未对档案知识发现主题开展一定程度的探索,但也并非毫无基础,在“档案知识发现”概念提出之前,图书情报与档案管理一级学科已有相关研究。一方面,图情学界围绕数字图书馆、智库建设等知识发现与知识服务展开了探讨,如李祎以图书情报机构智库的知识发现系统为研究重点,提出该系统实现的技术方法[1],李洁等人以数字图书馆知识发现为研究对象,重新界定其服务内涵,提出创新优化知识发现服务的规划意见[2],图情领域对知识发现的研究融合关联数据、深度学习、粗糙集等理念与技术,充盈了知识发现的研究主体与研究力量;另一方面,档案学界对档案知识管理的理论探索也取得一定成果,主要包括档案知识组织、知识共享、知识创新,知识服务等方向[3],突出隐性与显性知识管理之间的转化关系,以流程优化、体系构建、建设策略为着眼点,对档案知识管理的环境高度和人才需求提出了更高要求[4]。
基于上述研究成果分析,档案知识发现将有助于揭示和利用档案知识组织之间关系与规律,数据浪潮驱动将推动档案机构以数据为核心,重塑自身形态,成为社会数据生态链关键一环。但目前档案学界缺乏对档案知识发现专门深入的探索,多停滞于档案知识价值与知识获取的理论阐述,缺少系统的研究。鉴于此,本文尝试构建数据驱动下档案知识发现的概念涵义,立足数据驱动探讨档案知识发现的实现路径与具体方案,推动档案机构知识共享与知识服务。
1档案知识发现的概念内涵
鉴于学界尚未对“档案知识发现”一词有明确统一的定义,而在更为宽泛的知识发现领域已奠定了夯实的研究基础,本文以“知识发现”为突破口,结合档案工作特征和发展趋势,明晰数据驱动下档案知识发现的概念内涵。
1.1知识发现
知识经济时代,指数级增长的数据、泛在化的信息环境为知识发现提供了巨大的发展潜力。知识发现通常被认为是基于数据库的知识发现(Knowledge Discovery in Database,KDD),依据美国数据科学家Usama Fayyad的观点,知识发现是从数据集中识别提取出有效的、新颖的、潜在有用的信息并理解的模式过程[5]。简单来说,知识发现描述了大量数据被自动检索以获取知识的有关模式的过程[6]。知识发现通常运用统计方法、机器学习方法与神经计算方法,其中较为常见的是粗糙集、聚类分析、遗传算法等[7]。
1.2档案知识发现
结合知识发现与档案知识管理的相关理论,档案知识发现是指运用知识发现的理念与方法,借助信息技术手段识别析取出海量档案资源中隐含的有价值的知识元[8]。在知识发现的理论方法与技术体系下,档案的知识价值将利用关联分析、预测分析、聚类分析等方法有效挖掘,实现档案显隐性知识的转化,帮助用户明晰档案—数据—知识之间相互关系,服务档案知识管理。
1.3数据驱动下的档案知识发现
数据驱动的本质在于实现从数据到知识再到理论转化,并为实践提供决策的一系列迭代过程,其最大特点是对规模大、流转快、类型多、价值密度低的数据进行统计性分析归纳。数据驱动下的档案知识发现以大数据为驱动力,探索档案数据结构转变,利用数据可视化、建模、算法,洞察理解档案信息资源,发现规律和价值,从档案领域中创新知识生产方式,具体机理见图1。数据驱动下档案知识发现的突出价值,不仅在于发现传统方法难以发现的相关性,还在于能够深入探索其因果关系,并对之进行集成、共享、挖掘,最终提升决策服务水平。
2数据驱动下档案知识发现的框架构建
2.1数据驱动下档案知识发现的基本程式
在阶梯处理过程模型中,知识发现处理过程分为九个阶段,分别是数据准备、数据选择、数据预处理、数据缩减、确定知识发现目标、确定挖掘算法、数据挖掘、模式解释和知识评价;螺旋处理过程模型强调领域专家参与的重要性,以问题的定义为中心循环评测挖掘的结果,经过多次循环处理使结果更准确;Brachman和Anand提出以用户为中心的知识发现处理模型,支持用户与数据库交互;实现联机交互式的知识发现模型需要可视化技术支撑,由数据挖掘过程可视化、数据可视化、模型可视化和算法可视化四方面组成。
借鉴上述多种知识发现模型,综合考虑档案内容与载体特征,在档案资源组织的收集、整理、提炼、总结规律的过程中,以数据化—结构化—语义化—网络化—智慧化为主轴,本文将数据驱动下档案知识发现的基本程式概括为“数据源—数据集成—数据存储—数据处理—数据可视化—知识应用—评价反馈”七个环节,经由知识关联、知识聚合、知识共享等处理,形成由知识元、知识链、知识域、知识网所构成的多层档案知识体系[9]。
如图2所示,档案是档案知识发现的资源基础,作为数据驱动的原动力;数据是档案内容的再加工,是数据驱动的中转站;知识是档案内容的提炼升华,是数据驱动的归宿;用户是数据驱动的核心,是档案知识服务的对象。数据驱动下档案知识发现是以档案资源组织为基础,以用户需求和社会服务为导向,以数据为二次加工的载体,通过数据集成与质量控制、数据分析与模式构建、数据呈现与关联预测、数据应用与知识服务四项技术融合,实现档案知识形态的演变,最终析取档案知识,完成档案知识的提取、整合、分析、利用、服务的全过程,将档案、数据与知识三者创新互联,支持信息决策和社会服务需求,推动社会数据生态链的流程再造与结构转型。
2.2数据驱动下档案知识发现的内容框架
以数据为驱动,面向档案的知识发现需要兼顾档案资源的多种存储格式和数据格式,建立由档案知识元、知识链、知识域、知识网组成的多层次知识网络组织体系。数据驱动下档案知识发现的框架主要由数据层、逻辑层、应用层、表示层四部分组成,对应数据驱动下档案数据化—结构化—语义化—网络化—智慧化的发展演变,目的是将档案组织转换为体系化、结构化的知识网络,实现档案的知识发现、知识描述与知识服务。
(1)数据层。知识发现是建立在全量数据基础上对档案资源组织进行知识采集、处理、组织与融合的过程,即对档案资源组织的数据化处理。数据驱动下档案资源类型更加复杂多样,数量规模更加庞大,具体分为非结构化(如文本、图片、HTML等)、半结构化(如XML和JSON)和结构化数据(如MySQL、Oracle和SQL Server)三种,不同類型的数据存储整合也需要借助多种工具方法将其结构化和有序化,规范档案资源的组织方式;为过滤冗余数据、错误数据、重复数据和矛盾数据,筛选出具有价值的档案数据,利用自然语言处理对全部档案数据的进行词法分析、句法分析、语义分析等处理,清除档案数据中的缺失值、格式、副本和垃圾数据,并根据档案个体数据特征对其重新排序、赋予含义并简化形式;经过清洗、简化、标注、分析,实现结构化和语义化的档案数据具备整合利用的价值;通过时序融合和多源数据融合,将具有时空信息和多来源特征的档案数据由海量碎片化聚合成为网络,链接到知识库中,去冗分类、去粗取精,推断预测潜在动态时序的档案数据,为数据驱动下档案知识发现提供服务[10]。
(2)逻辑层。从传统的档案知识表达转向数据驱动的档案知识,需要对其进行可解释、更稳健的有效知识计算,准确获取并主动配合知识的演化方向,调整知识组织管理方式及架构,实现档案知识的多维深度语义关联,进而完成精准度高的知识发现[11]。在知识集成与融合的基础上,利用本体、语义网等概念与技术,结合聚类相似度、分类、关联规则、回归、预测和偏差分析等方法,通过大规模的计算和预测模型增强档案知识中模式、趋势、事实、关系、模型、关联规则、序列等一系列的表现效果。知识计算的开放性、一致性、完备性、上下文等重要性质使得能够发现和提取在逻辑推理、存在、否定等多种复杂语义网络中的档案知识[12]。总体而言,知识计算是数据驱动下档案知识发现的顶层应用[13,14],满足档案知识表达、获取和计算需求。
(3)应用层。档案知识应用是档案网络化向智慧化发展的重要环节,是档案知识发现的高级阶段。通过数据层与逻辑层对档案资源组织的加工、挖掘与分析,档案在知识组织层面逐步形成了从知识元、知识链到知识域的较为完整的档案知识体系,而应用层运用语义检索、地图导航、智能问答、推荐反馈系统、构建知识图谱等技术与方法,将档案知识置于更宏大的网络框架中,深入应用机器学习算法,不断更新完善档案知识库,丰富档案知识网络,为上层平台或智能应用提供基础设施支撑。与逻辑层显著不同的是,应用层集中在检索、推荐、问答、解释和辅助决策方面,具有明显的交互性和内在关联性,使档案组织向更加成熟的档案知识网络发展,提升档案知识提取与发现的质量与规模。
(4)表示层。档案知识服务是档案知识发现的根本,也是档案知识发现联结用户、实现智慧化转型的最终环节。数据驱动下面向档案的知识发现服务围绕知识门户和个性化服务两方面展开。知识门户根据用户需求分析,基于主题深度集成知识资源,采集用户个性数据库,向用户动态提供知识与信息,是知识共享与知识交流的平台。从其交流模式而言,知识门户以知识创新与二次加工为资源基础,为用户解决获取知识过程中的疑难问题,是一种知识密集型和智慧型的咨询服务方式。而个性化知识服务则是根据用户兴趣建模,采取个性化定制、个性化推送、个性化检索和个性化推荐等服务模式,数据驱动下的个性化知识服务涉及多种技术,诸如社会网络、云计算、云存储、Web数据库、Agent、本体、物联网等[15],提升档案知识呈现和知识利用的能力和效果。知识门户与个性化服务的结合,使档案知识发现融合问题导向与目标导向,从被动知识发现服务转向主动知识发现服务,数据驱动兼具技术革新与理念转变,以把握档案知识发现更深入的智慧化。
3实现路径
3.1数据思维理性审视档案资源
数据思维极大影响着全社会对档案资源的认知与设想,数据驱动下审视档案资源范畴与价值也获得更广泛和深远的开拓。在范畴上,档案资源不再限于传统纸质文件记录,而向社交媒体信息[16]、政务信息[17]等纵深发展,诸如国家图书馆互联网信息战略保存项目,利用不同年龄、不同地域、不同教育和文化背景用户所发布的微博内容,分析提取有價值的数据,日后为政策决策和学术研究提供多元参考,基于此,社交媒体信息实现了从信息向档案、数据和知识的转变;在价值上,档案资源的利用和保存价值应在数据思维下有更深远的发挥,传统意义的利用和保存价值是针对档案实体和内容而言的,数据驱动对档案资源的价值审视理应升级,探索寻找档案知识的价值最大化,以“城市记忆工程”为例,借助档案资源挖掘构建社会记忆,高度浓缩、记录城市的历史变迁,将丰富的历史信息保存、转化为社会大众的记忆,实现档案本体的利用保存价值向群体记忆价值的提升。
3.2网络思维定义搭建档案生态
网络思维将档案置于更宏大的网络框架下,纳入丰富复杂的社会信息生态圈,可以为档案知识的发现和应用提供源源不断的动力。一方面,档案本体可以突破原有刻板印象,借助语义检索、知识图谱等技术和方法,析取有价值的档案知识,形成兼具创新与特色、可寓教于乐的档案文化产品和展览,如美国、英国、澳大利亚等国家的国家档案馆利用其丰富馆藏如电子文件、地图、海报等各种类型的记录,汇聚形成多主题的编纂成果和文创产品,深受大众喜爱;另一方面,档案领域也可以积极与文博图、互联网各界寻求合作,运用现代技术挖掘档案的数据关联,探索更丰富的用途和潜能,搭建宏大的档案生态。
3.3用户思维主动发现档案知识
数据驱动予以档案数据化的转型红利,但这并不意味着档案领域的被动态度。相反,档案领域需要以档案数据为契机,捕捉用户兴趣和社会热点,结合现有档案资源主动发现集聚优质档案知识,并主动向社会公众呈现和输送,运用小程序、手机APP等形式或以线下快闪等活动为大众提供更具浸入式的档案知识盛宴。此外,可针对特定人群,关注与他们息息相关及有吸引力的话题内容,发现整合相关档案知识推送给特定用户,提高档案知识的应用价值,使档案知识的发现成为一种趋势和需求,倒逼档案领域的主动服务。例如,“档案那些事儿”微信公众号针对用户实际工作、文化历史研究等需求,开设“档案实务”“法眼论档”“文化传承”等栏目,提供整编的档案知识。
4结语
当今世界处于“数据爆炸,知识贫乏”的时代,数据创新驱动利用数据集成、分析、可视化和应用等手段激活数据价值,重塑数据治理流程与方式。因此,在数据时代,档案数据是传统档案数据与实时数据的整合,其凭证参考价值也将向知识价值转换[18]。档案蕴含着巨大的知识价值,其知识服务研究已成为档案学界研究热点。然而,知识发现作为拓宽档案知识应用范畴,提升档案知识服务质量的基础与前提,如何运用知识发现的理念挖掘档案知识价值是目前研究必须直面的问题。鉴于此,本文在综合了解国内外相关研究现状的基础上,引入数据驱动的理论方法与技术体系,界定数据驱动下档案知识发现的概念涵义,以数据化—结构化—语义化—网络化—智慧化为数据驱动的主轴,将数据驱动下档案知识发现过程分解为“数据源—数据集成—数据存储—数据处理—数据可视化—知识应用—评价反馈”七个环节,并从数据层、逻辑层、应用层、表示层具体论述档案数据转型的递进过程与档案知识发现的内容框架,以数据思维、网络思维和用户思维探讨档案知识发现的实现路径,从而推动档案机构知识共享与知识服务研究。
注释与参考文献
[1]李祎.基于图书情报机构智库建设的知识发现系统构建研究[J].图书馆工作与研究,2017(2):61-65.
[2]李洁,毕强,张晗,牟冬梅.数据驱动下数字图书馆知识发现的服务研究[J].情报资料工作,2018(4):6-14.
[3]贾玲,吴建华,杜岩.试论档案知识管理流程[J].档案与建设,2015(12):14-17.
[4]冷雪.近十年我国档案学与图书馆学领域知识管理研究的计量分析[J].档案学研究,2013(6):9-14.
[5]Usama Fayyad,et al.From Data Mining to Knowledge Discovery in Databases[J].AI Magazine,1996(3):37-54.
[6]William J Frawley,et al.Knowledge Discovery in Databases:An Overview[J].AI Magazine,1992(3):57-70.
[7]化柏林.数据挖掘与知识发现关系探析[J].情报理论与实践,2008(4):507-510
[8]姚恒.从信息管理到知识管理的蜕变——智慧校园环境下档案知识管理研究[J].图书情报导刊,2016(1):102-104.
[9]牛力,袁亚月,韩小汀.对档案信息知识化利用的几点思考[J].档案学研究,2017(3):26-33.
[10]Yantao Jia,Yuanzhuo Wang,Xueqi Cheng,Xiaolong Jin, Jiafeng Guo. OpenKN: An open knowledge computational engine for network big data[P].Advances in Social Networks Analysis and Mining(ASONAM), 2014 IEEE/ACM International Conference on,2014.
[11]李旭暉,秦书倩,吴燕秋,马费成.从计算角度看大规模数据中的知识组织[J].图书情报知识,2018(6):94-102.
[12]孙晓平.大数据知识计算的挑战[J].情报工程,2015(6): 43-50.
[13]Hilbert M. Big data for development: From informationto knowledge societies[J].Social Science Electronic Publishing, 2013.
[14]Zhuge, Hai. Mapping Big Data into Knowledge Space with Cognitive Cyber-Infrastructure[J]. Computer Science, 2015.
[15]孙雨生,于凡,孙肖妹,郝丽静.国内基于大数据的个性化服务研究进展——架构体系与关键技术[J].现代情报,2018(2):171-177.
[16]周文泓.我国网络空间中档案领域的缺位审视和参与展望——基于社交媒体信息保管行动的解析[J].档案与建设, 2019(9):13-17.
[17]薛四新,黄丽华,杨来青,宋华.大数据环境下政务信息资源归档研究的框架体系[J].档案学研究,2018(4):92-96.
[18]于英香.从数据与信息关系演化看档案数据概念的发展[J].情报杂志,2018(11):150-155.