城建档案领域知识图谱构建方法研究

2022-05-27 23:42高大伟韩瑞雪
档案管理 2022年3期
关键词:档案服务城建档案知识图谱

高大伟 韩瑞雪

摘  要:领域知识图谱构建是实现城建档案资源深度关联,提升资源建设与服务效能的重要方法。城建档案领域知识图谱构建应完善实施条件,明确实施原则。在构建流程上,城建档案领域知识图谱构建流程包括数据获取、本体构建、知识抽取、知识融合、知识更新与存储应用。

关键词:知识图谱;本体;城建档案;档案资源建设;档案服务

Abstract: The construction of domain knowledge graph is an important method to realize the deep correlation of urban construction Archives resources and improve the efficiency of resource construction and service. The construction of knowledge map in the field of urban construction Archives should improve the implementation conditions and clarify the implementation principles. In the construction process, the construction of knowledge map in the field of urban construction Archives includes data acquisition, ontology construction, knowledge extraction, knowledge fusion, knowledge update, storage and utilization.

Keywords: Knowledge graph; Ontology; Urban construction archives; Archives resource construction; Archives service.

1 引言

当前,知识图谱前沿技术和领域实践快速发展,网络本体描述语言(Ontology Web Language,OWL)、资源描述框架(Resource Description Framework,RDF)、图数据库(Graph Database)等应用基础不断丰富,《信息与文献 文化遗产信息交换的参考本体》(GB/T 37965)和《知识管理 第7部分:知识分类通用要求》(GB/T 23703.7)等相关标准陆续发布,在名人档案、科研档案和文化遗产档案等领域的知识图谱研究逐渐增多。本文围绕知识图谱在城建档案领域的通用应用路径,探讨了城建档案领域知识图谱构建准备与实施方法,以期为相关研究提供借鉴。

2 城建档案领域知识图谱构建准备

2.1 完善实施条件。第一,组织保障。完善城建档案管理协作机制,促进城建档案领域知识图谱构建的对象、价值、技术和业务认同,建立具备“矩阵式协作联盟结构”[1]的组织体系,凝聚共识,健全组织保障。第二,标准规范。以现有城建档案采集、描述和存储规则为基础,加强相关数据规则的衔接、定制和城乡建设标准化术语、编码引用,形成有包容性的相对统一的标准规范体系。第三,其他条件。准备必要的资金,做好知识产权管理和档案开放鉴定,建立具有相关知识处理经验、技术能力的业务和专家团隊,并配备相关软硬件设施设备,加强安全防控等。

2.2 明确实施原则。第一,项目建设原则。一是问题导向、应用牵引。在规划阶段应聚焦城建档案资源特色优势和发展瓶颈,挖掘应用场景,明确技术需求,同时从档案机构技术能力和现有数字档案馆平台条件出发,适配应用需求。二是资源整合、集成管控。在实施过程中,既应做好多源异构档案资源的规范化整合,消弭机构内外部“信息孤岛”,还应注意城建档案管理与趋势性知识管理的差异及协同策略,明确以“卷/件”和以“知识”为单元的组织利用在效率提升、合规审计、互操作权限上的优势与风险,建立科学的集成管理模式。三是循序渐进、人机协同。在实施过程中,既要秉承循序渐进原则,加强成熟度评价,根据先易后难、由点及面、由粗到细的思路分步建设,又要在机器自动处理、知识计算和人工概念分类、标准设置、样本标注、反馈控制等方面,加强数据驱动和人为干预的协同。

第二,本体构建原则。形成领域本体是城建档案领域知识图谱构建的中心工作,根据学界对本体构建原则的一般认识,[2]城建档案领域知识本体构建应遵循以下原则:一是明确性原则,即在构建知识本体时,应尽可能使用领域专业术语,对所获取档案数据中的概念及概念关系给出明确定义和描述。二是完整性原则,即提升本体构建过程中城建档案资源对象来源、数量和种类的丰度,提升知识关联关系的多样性。三是一致性原则,指在领域知识本体构建过程中要保证其定义与本体推理结果的一致。四是可扩展性原则,即向领域知识本体中添加通用或专用的术语时,可适当丰富和扩展,而不需要修改其已有的内容。五是最小编码偏好原则,即本体的概念体系应建立在知识层面,而不过于依赖符号层面的处理。六是最小本体承诺原则,即本体构建过程中尽可能减少约束声明,允许各方相对自由地根据需要专门化和实例化本体,方便未来跨领域、跨专业共享。七是可管理性,即对构建的本体应建立知识产权、使用权限等必要的管理机制。

3 城建档案领域知识图谱构建实施

根据知识图谱构建通用方法,城建档案领域知识图谱构建流程包括数据获取、本体构建、知识抽取、知识融合、知识更新与存储应用。

3.1 城建档案领域数据获取。城建档案领域知识图谱构建包括数字档案馆系统数据,工程审批、国土空间规划、地理信息、建筑市场监管等外部平台数据,知识样本较多的维基百科、百度百科等外部知识库、网络动态数据,以及城乡政策法规、实景信息、口述史料、研究资料等数据源。982FCBB3-2C17-4A65-A177-1A1E918B77F0

在具体管理中,一是做好数据源调查研究,摸清资源特色内容、利用情况、开放程度和使用权限,掌握资源结构化、半结构化、非结构化等数据特点及存储媒介、数据格式等;二是应以PDCA循环思路,边获取边检查边调整,把握数据源的数据特征和时空分布,不断调整来源范围,提升数据获取质量。

在数据获取过程中,应根据不同数据源,选择针对性数据采集方法。一是通过API接口、中间数据库等方式获取数字档案馆系统数据及外部相关平台数据;二是通过python爬虫等技术工具采集外部知识库、网络动态数据;三是通过三维扫描、多媒体采集、模型轻量化等方式获取城市实景信息、口述史料、声像档案及BIM、CIM模型数据。此外,数据采集时还应注重数据预设的知识结构、处理规则等获取,在真实性、一致性、可靠性、可用性和知识产权等方面做好交叉验证和合规审查,并丰富接下来本体构建的思路。

3.2 城建档案领域本体构建。领域本体是指以基本词汇表对领域现象的形式化表达,是知识图谱模式层构建的主要对象。

城建档案种类繁多,所涉领域方向和专业类别较为复杂,城建档案管理机构也有服务工程建设维护、城乡数智治理、文化保护传承等多元任务。因此,在本体构建思路上,应按照循序渐进、人机协同的原则,运用“骨架法”“七步法”等方法,对本体来源和范围进行分析处理,揭示、定义城建档案领域实体、实体属性及相互关系,优化知识结构,建立侧重档案凭证价值描述的档案本体,及偏向档案情报价值描述的学科本体,并在知识融合阶段形成完整的城建档案领域本体。

在档案本体设计上,应以城建档案有关术语和资源描述规范为基础,梳理知识要素,建立术语概念和编码集合,形成城建档案本体模型。以城建档案的核心组成建设工程档案为例,以《城市建设档案著录规范》(GB/T 50323)、《建设工程档案信息数据采集标准》(T/CECS 707)、《建设电子档案元数据标准》(CJJ/T 187)、《建设电子文件与电子档案管理规范》(CJJ/T 117)、《建设工程文件归档整理规范》(GB/T 50328)为依据,形成包含文件实体、业务实体、责任者实体和关系实体的4类档案实体,拥有联合、包含、控制、建立、拥有和前后等实体关系及相关元数据项的建设工程档案本体模型。

在学科本体设计上,应根据《中国档案主题词表》《城建档案主题词表》及《建筑和设施管理部门元数据的应用》(ISO 82045 -5)和《基础地理信息本体模型》(GB/T 40765)等城建领域术语编码和知识规范,结合外部知识库,建立城建学科本体。

在具体建设中,可根据任务目标,调整细化学科本体内容。以郑州国棉三厂历史文化街区改造项目为例,可根据项目内容和工程特点,借鉴《信息与文献 文化遗产信息交换的参考本体》(GB/T 37965)和《智慧城市领域知识模型 核心概念模型》(GB/T 36332),通过网络数据检索和关键词分析,结合自顶向下和自底向上两种方式,建立城建项目、地理位置、相关机构、相关人员或团体、重大事件等领域实体概念,明确实体属性和关系,最后使用Protégé编辑器形成该领域学科本体模型,如图1和图2所示。

3.3 城建档案领域知识抽取。知识抽取指根据领域本体,抽取数据源的实体、关系和属性,并将其存储于城建档案领域知识库。

实体抽取强调综合人工提取和命名实体识别技术,识别数据源特定实体。如抽取历史文化街区改造项目中的项目、地理、机构和人物名称等。

关系抽取是识别两个或多個实体之间的语义关系,如“机构-参与-项目改造”,针对自然语言的歧义性和模糊性,关系抽取通常先由人工预先设置一定的实体关系类型作为训练集,再使用监督、半监督等机器学习方法提升召回率。

属性抽取指采集特定实体的属性信息,如人物的性别、职业等,可采用基于规则或启发式算法等属性抽取方法实现。[3]

针对城建档案中大量存在的照片、声像等非结构化数据,可应用文字识别、图像特征提取、音视频词汇提取等识别技术,进行格式转换、机器识读、人工校正及人机协同标引,将其转化为结构化数据,再实施知识抽取。此外,还应关注隐性知识抽取,如以结构化知识模板记录对历史文化街区居民的访谈,并提炼RDF三元组元素。

3.4 城建档案领域知识融合。根据城建档案领域本体构建思路,本体匹配是两类方法的结合,即将从不同数据源、兴趣点而来的各类档案本体、学科本体充分集成,并建立映射关系,形成一个更趋完整的城建档案领域本体模型。实例匹配包括实例链接和消歧等任务,如规范“工程策划、筹备文件”对多个实例的链接,消歧同一个地理坐标对两个不同工程项目的标识,将相同解释的“工程文件”“项目文件”进行对齐。实例匹配主要通过基于相似度计算、基于规则或学习的匹配方法及人工抽检实现。

3.5 城建档案领域知识更新与存储应用。模式层更新指城建档案本体更新,通过删减、增加或重新定义有关概念及概念关系实现。如根据工程审批制度改革对档案验收程序的调整,重新定义档案验收,增加联合验收、容缺验收定义。数据层更新指调整城建档案领域本体所存储的实体、关系和属性值。如根据机构改革结果,更新某个城建档案管理机构的隶属关系;为响应历史文化街区改造项目的工业文化遗产内涵,新增某个城建档案管理机构的服务属性区间。在知识更新中,应使用准确率、精确率、召回率等指标对已构建的知识图谱进行评价,调整更新策略。

最后阶段是进行存储和应用,城建档案领域知识图谱的可选存储手段包括面向RDF的三元组数据库,及Neo4j、JanusGraph等图数据库。在应用上,根据不同任务目标的构建成果,知识图谱可被用于城建档案利用服务中的智能搜索、个性化推荐和知识问答,也可借助页面级、数据级的关联发现,实现城建档案质量要素的智能合规检查,支撑可视化业务指导和验收移交。

*本文系国家社科基金青年项目“国家建设工程档案资源保障体系研究”(编号:17CTQ049)的阶段性成果之一。982FCBB3-2C17-4A65-A177-1A1E918B77F0

参考文献:

[1]赵生辉,胡莹,黄依涵.打造“时光机器”:城市逆向记忆工程理论与实践初探[J].档案学研究,2021(06):120.

[2]GRUBER T.Towards principles for the design of ontologies used for knowledge sharing[J].International Journal of Human-Computer Studies,1995(05):907-928.

[3]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016 (03):588-591.

(作者单位:郑州航空工业管理学院 来稿日期:2022-02-20)

[15][16][18](后晋)刘昫.旧唐书[M].北京:中华书局,1975:1867,1868,1838.

[17](宋)欧阳修.新唐书[M].北京:商务印书馆,1928:939.

[19](元)脱脱.宋史[M].北京:中华书局,1977:3842-3845.

[20](宋)李心传.建炎以来系年要录.[M].清文渊阁四库全书本.

[21](明)宋濂.元史[M].北京:中华书局,1976:2190.

[23][25][26][27](清)张廷玉.明史[M].北京:中华书局,1974:1829,1787,1789,1791.

[24](明)郑晓.今言[M].刻本.嘉兴:项笃寿,1566(明嘉靖四十五年).

[28](清)佚名.钦定大清会典则例[M].刻本.清文渊阁四库全书本.

[29](清)王闿运.湘军志[M].长沙:岳麓书社,1983.163.

[30](清)朱彝尊.曝书亭集[M].上海:世界书局,1931:874.

(作者单位:河南省疾病预防控制中心 来稿日期:2021-12-21)

[12]塞缪尔·P·亨廷顿.难以抉择——发展中国家的政治参与[M].1989.

[13]格里·斯托克,华夏风.作为理论的治理:五个论点[J].国际社会科学杂志(中文版),1999(01):19-30.

[15]韦忻伶,安小米.开放政府背景下的档案开放准备度评估体系研究[J].图书情报知识,2019(03):72-80.

[17]赵静.在“度”与“量”中寻求平衡——城建档案开放窘状分析与建议[J].兰台世界,2019(10):77-79.

[18]郝伟斌.机构改革背景下城建档案管理的转型[J].档案学通讯,2019(05):105-107.

[19]ARNSTEIN S R.A ladder of citizen participation[J].Journal of the American Institute of planners,1969,35 (04):216-224.

[20]CADDY J,GRAMBERGER M,VERGEZ C.Citizens as partners:Information,consultation and public participation in policy-making[M].Organisation for Economic Co-operation and Development PUMA Working Group on Strengthening.

Government-Citizen Connections,2001.

[21]王会粉,刘永,张硕.新基建:建设项目档案治理研究的新视域[J].档案管理,2021(04):62-64+66.

[22]郝伟斌,周昊,李璐璐.“互联网+”环境下建设项目档案新型监管机制研究[J].档案管理,2020(06):48-51.

[23]胡荣.社会资本与城市居民的政治参与[J].社会学研究,2008(05):142-159+245.

[24]曾凡斌.论网络政治参与的九种方式[J].中州学刊,2013(03):19-22.

[25]肖唐镖,易申波.当代我国大陆公民政治参与的变迁与类型学特点——基于2002与2011年两波全国抽样调查的分析[J].政治学研究,2016(05):97-111+127-128.

[26]深圳市住房和建设局.深圳市住房和建设局关于公开征求《关于加强我市城建档案管理工作的通知(征求意见稿)》意见的公告[EB/OL].[2021-6-18]http://zjj.sz.gov.cn/hdjlpt/yjzj/result/12673.

[27]上海市规划和自然资源局.上海市城市建设档案馆通过微信公众号提供档案利用咨询服务[EB/OL].[2020-8-5]https://ghzyj.sh.gov.cn/gzdt/20200805/56e7d4779353464682524f160002c9bd.html.

[28]托马斯·R·戴伊.理解公共政策[M].北京:中国人民大学出版社,2010.

(作者单位:魏楠,郑州航空工业管理学院信息管理学院;张笑涵,爱丁堡大学社会与政治科学学院 来稿日期:2022-02-20 )

Sociology,1990,13(01):6-7.

[12]习近平.用好红色资源,传承好红色基因把红色江山世世代代传下去[J].当代广西,2021(10):4-8.

[13][24]刘廷智.河池东兰:打造黨史学习教育“红色熔炉”[J].当代广西,2021(07):41.

[14]徐拥军,熊文景.用“档案之制”筑牢“档案之治”[J].中国档案,2020(01):72-73.

[15]李颖,魏歌.阿联酋国家档案馆档案资源建设分析及思考[J].档案学通讯,2020(01):94-100.

[16]王向女,姚婧.长三角地区红色档案资源整合探析[J].浙江档案,2020(02):30-32.

[17]韦礼富.且看东兰老区如何光荣脱贫摘帽[EB/OL].[2021-06-01].http://www.donglan.gov.cn/gddt/t7323076.shtml.

[18]本刊讯.中办国办印发《“十四五”全国档案事业发展规划》[J].中国档案,2021(06):18-23.

[20][23]周林兴,崔云萍.区域性红色档案资源的协同开发利用探析——以长三角区域为分析对象[J].档案学通讯,2021(05):4-13.

[21]梁文华.左右江革命根据地红色歌谣[M].南宁:广西美术出版社.2009:74.

[22]冯向阳.红色档案助力党史宣传的内在机理与实现路径研究[J].档案管理,2021(05):12-13.

[25]王向女,姚婧.“互联网+”时代长三角地区红色档案资源开发与利用的新方向[J].档案与建设,2020(08):4-8.

[26]王阮,邓君,钟楚依等.我国口述历史建设可持续发展保障机制研究[J].图书情报工作,2020(17):49-57.

[27][19]刘芸.解读《国家重点档案保护与开发项目管理办法》[J].中国档案,2016(09):21-22.

(作者单位:广西民族大学来稿日期:2021-10-982FCBB3-2C17-4A65-A177-1A1E918B77F0

猜你喜欢
档案服务城建档案知识图谱
浅析信息化背景下高校档案服务策略
如何做好城建档案的保密与利用
大数据时代的城建档案信息系统构建问题研究
大数据时代建立高校档案服务新模式探索
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
浅析城建档案管理工作的重要性
基于知识图谱的智慧教育研究热点与趋势分析
档案管理和档案服务
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展