李菁 黄仁彦 徐鸿飞
摘 要:信息技术与经济的交汇融合使高校档案数据迅猛增长,数据资源已成为基础性资源。随着知识图谱的研究和应用逐步深入,在档案专业领域的应用也在进一步的研究和探索中。我们需要充分认识知识图谱技术的优势,利用先进的科技进行数据资源管理和利用上的改革创新,构建具高校特色的档案知识库模型,提高数据管理和利用效率,更好地为高校的管理和发展服务。
关键词:知识图谱;档案知识化;高校档案
一、引言
随着计算机及网络技术的发展,信息的获取与传播发生本质变革,推动着互联网向语义网络的高速发展,奠定现代信息社会知识构成的基础。在这一发展过程中,将前沿技术的深耕实践与档案资源的整合挖掘和深化利用相结合,为档案资源知识化提供了新的思路和发展方向。加拿大著名档案专家特里·库克(Terry Cook)在1994 年提出,档案工作者应该“由实体保管员向知识提供者过渡”,需要“从建立数据库到建立知识库”。美国在2005年启动ERA(Electronic Records Archives)项目,主要研究数字档案资源结构建立,从而进行长期保管;2012年启动“大数据研究和发展计划”(Big Data Research and Development Initiative),大力推进从大量的、复杂的数据集合中获取知识和洞见的能力;在此基础上,2016年发布“联邦大数据研发战略计划”(The Federal Big Data Research and Development Strategic Plan)对2012年的计划做了补充和完善,强调通过优化大数据分析和信息提取,提高做出决策和发现的能力。
从美国等国外的数字档案资源发展路径来看,最近几年,利用人工智能和大数据技术,促进资源的知识化,加强信息分析,提高决策能力成为档案资源的重要研究方向之一。知识图谱(Knowledge Graph)技术是新兴人工智能技术的重要组成部分之一,具有强大的语义处理和开放互联组织能力,是一种应用十分广泛的知识化组织和智能应用的工具,或许可以成为将来数字档案资源知识化的有力工具之一。本文以知识图谱技术为工具,研究高校数字档案资源的知识组织和知识服务问题,通过高校档案资源的知识化,实现对高校教职员工和学生的思想行为常态化管理,及时反馈学校的管理、教学、科研等各项信息,动态了解学生的各种动态及热点情况,为高校领导提供决策、育人等辅助功能,最终为学校制定科学的管理策略,为维护学校安全稳定提供保障。
二、知识图谱应用于高校数字档案资源知识化的可行性
知识图谱概念由Google公司2012年提出,Google公司的工程师阿米特·辛格(Amit Singhal)是这样介绍知识图谱的:“The world is not made of strings , but is made of things”,就是说,知识图谱实际就是一张巨大的语义网络图,由真实世界中存在的各种实体或概念及其关系构成,节点表示实体或概念,边则由属性或关系构成。知识图谱的提出是与互联网上网络资源内容呈现爆炸式增长的态势密不可分的。由于互联网内容逐步呈现的大数据特点(体量巨大、类型繁多、处理速度快、组织结构松散等),对人们有效获取信息提出了挑战。知识图谱正是在此背景下逐步形成和发展,以“实体(Entity)-关系(Relationship)-实体(Entity)”构成的RDF三元组结构为基础和核心来描述不同对象(包括属性)以及他们之间的关系,如图1。
1.知识图谱将进一步深化高校数字档案资源的知识组织。随着档案数字化进程的深入,资源数量浩大、形式异构、内容繁杂与高效处理的矛盾逐渐显现。尤其是高校档案,纸质档案数字化基本完成,海量照片、视频等日益增加,与学校OA系统、教务系统等诸多系统的接口获取大量数字资源,对数字档案资源的管理能力和利用能力提出了很高的要求。利用知识图谱的三元组结构,可以对数字档案资源进行知识化整理和信息处理,提高档案利用的查询速度和效率,解决数据结构复杂问题,最终能构成一个语义化的知识网络。
2.从技术实现看,知识图谱已经应用于很多知名度较高的大规模知识库,是一种比较成熟的工具技术。比如LOD(linked open data)项目中的Freebase大規模知识库网站,该知识库网站由Metaweb创建,2010年谷歌收购Metaweb,在Freebase的基础上建立Google知识图谱。到2014年,Freebase在知识图谱里引入6800万个实体,建立约10亿条关系,构造超过24亿条三元组。最近几年,知识图谱也逐渐深入各个不用的专门行业领域的数据分析和挖掘,其中不乏档案资源方面的案例。清华大学研发的AMiner学术知识服务平台,集成了学术大数据融合、专家档案智能抽取、专家智能搜索等研究成果,在论文文献搜索以外,提供了针对研究者信息的强大搜索能力。
三、知识图谱应用于高校数字档案资源知识化实现的总体设计
1.总体设计目标
利用知识图谱技术, 对党群类、行政类、学生类、教学类、科研类、基本建设类、仪器设备类、产品生产类、出版物类、外事类等基础数据库以及其他数据资源库等关系数据库,运用知识抽取技术对基础数据进行知识化和融合, 实现对各类实体的抽取、语义组织和关联, 再借助大数据深度挖掘和融合技术将基础数据和其他来源数据进行数据融合和数据增值, 构建高校档案领域的知识图谱,最终以可视化知识图谱为核心,构建基于高校档案数字资源的可视化智能搜索平台。该平台可以提供强大的知识索引和校级领导决策分析服务,满足语义网和知识网络时代用户的新需求。
2.数字档案资源的知识单元化是知识图谱的实现的基础。
知识图谱描述的是真实世界中存在的各种实体或概念及其关系。实体是指具有可区别性且独立存在的某种事物,如某一个人、某一个城市、某一种商品等等。对高校的数字档案资源而言,实体应是组成档案结构和内容的基本要素,是表达一个档案文件的完整内容的最小单位。知识单元的特点是:第一,知识单元具有唯一性和独立性,知识单元是每个实体的唯一代表和表示,用于描述共同认可的知识实体。与常用的概念或定义不同,知识单元必须是原始档案文件中存在的、不可分割的知识表达。第二,知识单元具有共享性。档案资源从文献资料的形式转化为供他人传递和利用的知识时,不同知识中的同一实体需要指向同一知识单元。知识单元是知识结构网络中的一个个节点,通过点和点之间的关系构成了巨大的知识网链。
3.知识图谱实现的总体架构
基于高校数字档案资源的知识图谱的体系架构如图2所示,以档案数据和其他来源数据作为知识图谱的数据基础,利用大数据挖掘各项技术,完成对数字档案资源的抽取和知识原型的分析。同时通过对档案资源的知识化网络构建,完成档案资源知识图谱库的构建,实现从档案文件检索到档案知识检索的方式转变,优化海量档案资源的检索,真正实现档案资源实体关联导航。
四、知识图谱应用于高校数字档案资源知识化的体系构成
1.数据资源平台
主要采用基础数据资源库和档案知识库的双库设计来实现数据资源平台的搭建,两库协同作业,以基础数据资源库为数据资源,以知识库为利用服务的数据来源,充分挖掘档案文件的内容关联,提高档案资源的利用效率。
目前高校档案馆已基本完成档案数字化,数字资源的数量庞大,同时每年新增的数字档案资源和其他非结构化数字资源也在不断递增,因此,首先需要保证大数据平台下的数据的可靠性和准确性。为保证数字档案资源的质量,保证来源数据的安全可靠,需要按规范采集和组织档案数据资源,为档案工作人员进行档案的加工处理和利用检索提供有力的数据支撑,通过对这些海量的结构、非结构或半结构化数据的标准化存储和管理,实现数据管理的高容错性和扩展性,使数据得到高效利用。
当今语义网和知识经济的大背景下,档案信息以内容和形式特征为基本组织模式已经不能适应档案资源搜索的新需求,因此,用最便捷的方式提供信息和知识的高校档案知识库是本平台的另一个十分重要的数据资源库。档案知识化的整个过程就是对档案数字资源的知识提炼过程,通过对知识层面的概念和逻辑关系的提炼,知识库提供给用户的不是单独的档案文件的内容,而是一个完整、结构化的知识链网,有利于对档案的准确定位,提高档案利用的效率。档案知识库以知识的特点和结构为存储方式,可以为用户提供便捷的知识搜索和发现,并且通过档案知识库和基础数据资源库的互联和数据传输,充分挖掘档案的内在价值,为档案的利用提供精准、智能和高效的服务。
2.档案数据资源挖掘平台
对于档案数据资源的挖掘,主要目标是要对基础数据资源库进行信息抽取、信息融合和加強,确定数字档案资源这一专门领域的大量的实体、实体属性和实体之间的关系,并在此基础上形成本体化的知识表达,构成高校档案这一特定领域的知识模型。通过模型的构建,可以有效地对档案资源进行开发,深度挖掘语义本体的组织结构和关系,为用户提供准确有效的知识或信息。本平台主要采用基于本体模型的知识单元分析技术,按照知识组织的规则和要求,解析档案资源中的各类实体(知识单元),并发掘蕴藏其中各类隐性因子,将数字档案资源中的知识关系更加显化,实现知识的聚合,使档案知识的层次结构更加清晰,从而为档案资源的智能化搜索建立全面的“知识网”基础。
在档案数据资源挖掘中引入知识提取等大数据挖掘技术,能快速定位档案资源搜索目标。而知识模型可以通过档案资源实体和之间的关系为实际应用中的推理提供基本规则和依据,实现信息浏览及检索等功能。通过知识模型,还可以“通过计算概念之间的相关度,来量化概念间的语义距离,以选取最相近的概念;或者在语义模型中预先定义的一些关系上进行推理检索”。通过各个档案本体的显性和隐性联系和关联,将教职员工和学生的多维信息进行聚合,全面展现多视角全方位的个人“画像”信息资源,从大数据的角度对行为信息进行挖掘处理和分析,通过探究校园行为规律,准确掌握思想行为动向,为学校的管理提供决策和依据。
3.档案数据资源可视化平台
档案数据资源可视化平台是借助图形、图像处理、计算机视觉等技术,将知识模型等语义概念通过图像或者图形的方式在计算机、手机等终端的页面上展现的过程。档案知识模型的可视化可以提供清晰的沟通方式,使用户可以能够更快地理解和处理相关信息,提高档案资源的服务效率和精确性,同时,随着时间的变化,知识的实时信息也随之变化,使信息能得到更快的传递和识别;通过收集到的行为习惯的数据信息,可以提供一些管理和监控的关键性指标,可以使学校的管理人员更容易发现各种大数据集的变化趋势。
五、结论
在当今大数据的背景下,随着技术发展的不断深化,对档案数据资源进行大数据管理和深度挖掘将成为档案学的发展方向之一。通过知识图谱构建、知识融合、可视化等大数据技术的引入,为高校档案信息资源的科学管理,以及档案数据精细化的进一步发展提供了可能。通过知识抽取,将档案资源从传统档案的文件级数据粒度降低到数据级,构建结构化的语义模型,从而来描述高校档案领域中的概念及其相互关系。高校档案资源的知识化,能实现知识的快速响应,及时跟进个人档案资源的变化,能提供对个人习惯和方式精准推理和分析,提高档案的利用效率和服务水平,为高校教学、科研等业务的有效管理提供有力保障,同时也能为领导决策和管理提供全面深入的数据支持。
参考文献:
[1]Terry Cook. Electronic Records,Paper Minds:The Revolution in Information Management and Archives in the Post-Custodial and Post-Modernist Era[J].Archives and Manuscripts,1994
[2]Electronic Records Archives.[EB/OL].[2019-8-22].http://www.archives.gov/era/.
[3]The Federal Big Data Research And Development Strategic Plan.[EB/OL].[2019-8-22].https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/NSTC/bigdatardstrategicplan-nitrd_final-051916.pdf.
[4] Tang J, Zhang J, Yao L M, et al. AMiner: Extraction and Mining of Academic Social Networks[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD2008). 2008
[5]杨茜雅.中国联通电子档案数据挖掘与智能利用的研究[J].档案学通讯,2018
基金项目:本文系上海市档案局科技项目《基于知识图谱的高校数字档案资源数据挖掘实现研究》(项目编号:沪档科1914)的研究成果之一。
作者简介:李菁(1975-),女,汉族,浙江平湖人,馆员,硕士,单位:上海师范大学档案馆,研究方向:数字档案管理,声像档案管理;黄仁彦(1982-),男,汉族,上海人,工程师,硕士,单位:上海师范大学档案馆,研究方向:档案管理;徐鸿飞(1985-),男,汉族,山东人,工程师,硕士,单位:上海师范大学档案馆,研究方向:档案管理。