基于《本草纲目》的多模态知识图谱的构建研究

2022-09-07 05:05李荣耀吴雨璐刘秀峰
现代计算机 2022年13期
关键词:本草纲目模态图谱

李荣耀,徐 倩,吴雨璐,刘秀峰

(广州中医药大学医学信息工程学院,广州 510006)

0 引言

中医经典博大精深,源远流长,历代医家在数千年的实践中总结了丰富的临床经验,形成了完整的知识体系。其不仅传承了中医药学理论知识,而且记载了历代医药学家防病治病的医理医术和方药研究成果,有着宝贵的科研价值和临床价值。其中,《本草纲目》作为中国传统医药学的集大成者,被誉为“东方医学巨典”。它不仅仅是一部医药巨著,全面系统地总结了明朝中期以前药物学的成就,影响了后世中医、中药学的发展,还是一部世界性的博物学著作,书中涉及内容广泛,囊括了天文、地理、生物、化学、地质、采矿乃至历史方面,把我国医药科学提高到了一个新的水平,具有划时代的意义。

随着知识的爆炸式增长,知识图谱悄然兴起,成为知识管理领域中的一项新兴技术,知识图谱在知识管理、语义搜索、问答等领域得到了广泛的应用。知识图谱作为一种知识表示、存储的手段,因其表达能力强、扩展性好,并能够兼顾人类认知与机器自动处理,被认为是解决深度学习可解释性和认知智能长期挑战等困境的一种手段。不仅便于知识的管理和保存,同时还能通过可视化的方式直观地展示相关知识架构及其依赖关系,帮助人们理解和学习知识。因此,充分利用知识图谱技术将《本草纲目》结构化存储与展示是时代的选择。此外,《本草纲目》中的草药等实体具有大量的图片资源,若能将其一并融合到知识图谱中,将大大扩展知识图谱的可视化结构,具有一定的研究意义。

1 多模态知识图谱的研究进展

知识图谱的早期理念是万维网之父Tim Berners-Lee 关于语义网的超级设想,目的在于采用图结构来建模和记录世界万物之间的知识和关联,以便实现更加精准的对象级搜索。知识图谱从语义角度出发,以事实三元组的形式描述客观世界中的实体及其关系,将实体抽象为节点,将关系抽象为边,通过结构化的形式对知识进行建模,是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱的数据来源不仅可以是文本,也可以是图片、视频、音频等视觉或听觉等多模态显示的数据。模态,是一种生物学概念,指感官条件下事物发生或存在的方式。这里的多模态就是指语言、视觉、听觉等不同模态通道的融合,能够充分融合利用多种模态数据的知识图谱就叫做多模态知识图谱。

作为一种表示和存储知识的手段,知识图谱本身的可推理、可解释性表现较好。结合多模态的知识图谱不仅可以提高视觉和听觉识别的性能,而且视觉、听觉等多模态信息可以用来扩展知识图谱,具有实物演示、消除歧义、补充细节的作用,两者相辅相成。作为承载底层海量知识并支持上层智能应用的重要载体,知识图谱实现多模态融合的重要性不言而喻。

现有多模态知识图谱的研究统计,多模态知识图谱的构建在传统知识图谱构建基础上,经历了早期的图数据库时代和近期数据规模更加庞大、关系更加复杂的图谱资源库时代。表1为部分现有可视化数据资源和多模态知识图谱。目前国内外有学者围绕多模态构建开展研究,譬如多模态信息提取、表示学习等方面。如李直旭等以教材、大纲、网络资源等为依据,对知识点进行分类汇总,构建了多模态教学知识图谱。刘昱然面向党建领域,从第三方平台获取了文本、图片、视频数据,构造了多模态数据集,提出了标签对齐的多模态数据融合方法(LCSMMF)。司徒凌云等提出了基于多模态知识图谱的南海疆维权证据链系统构建技术体系。Li提出了一种基于教育词典的微调双向编码器表示(BERT)模型,添加了双向长短期记忆条件随机场(BiLSTM-CRF),用以识别教育实体,同时重点收集了教师语音,构建了多模态知识图谱。综上,领域内多模态知识图谱的构建研究已经初见雏形。

表1 部分现有可视化数据资源和多模态知识图谱

目前,在中医药领域,知识图谱主要被用于处理结构化的文本数据,而对半结构化或非结构化的文本、图像、音频、视频等多模态数据的研究和应用则相对较少,对中医经典《本草纲目》以及相关图像等多模态信息的整理和研究比较少见,因此,如何构建《本草纲目》的多模态知识图谱是一个急需探索和挖掘的问题。

2 《本草纲目》的多模态知识图谱构建

2.1 总体流程

多模态知识图谱的构建通常有两种方法:用文字标记图像或者将图像定位到实体。本文基于中医经典《本草纲目》和权威标准,通过数据清洗、实体抽取等自然语言处理方法从文本数据中抽取实体,参考《中医药学语言系统语义网络框架》中的语义关系和相关文献对《本草纲目》中的关系进行归纳,得到“实体-属性-属性内容”和“实体-关系-实体”的三元组模型,利用模糊查找等方法在项目组自建的基本中药、症状等图片库中得到对应图片,进而通过知识融合将知识导入neo4j 图数据库,形成了《本草纲目》的多模态知识图谱,总体流程见图1。为控制实体、关系及其图片的相对准确性,起初的数据清洗和最终的数据融合均进行了必要的人工审查工作。

图1 《本草纲目》多模态知识图谱构建总体流程

2.2 数据来源及预处理

本研究的数据处理对象为.txt 格式的中医经典古籍《本草纲目》。《本草纲目》共52 卷,载药1892 种,分为16 部,部之下又分为60 类,类中许多同科草药通常排列在一起。一药名下列8 个项目,具体介绍如表2 所示。此书采用“目随纲举”编写体例,同时以《证类本草》为蓝本加以变革。

表2 《本草纲目》各药下8个项目的介绍

此书不仅继承和总结了以前的本草学成就,还考证了过去本草学中的若干错误,综合大量科学资料,结合丰富的临床实践经验,提出了较科学的药物分类方法,融入了先进的生物进化思想,对科研、临床、教学有重要的参考价值。

在文本处理的过程中,本研究使用微软的Visual Studio Code 编辑工具。与其他工具相比,Visual Studio Code 属于轻量级的编辑器,启动速度快,插件丰富,便于观察文本规律,进行文本的高级处理。在获取草药、疾病等图片过程中,本研究以PyCharm为编程环境,在构建多模态知识图谱过程中,本研究使用图数据库neo4j。图数据库(graph database)并非指存储图片的数据库,而是以“图”这种数据结构存储和查询数据,目前图数据库中比较典型的产品便是neo4j。

《本草纲目》中每一味中药的药名、释名、气味以及主治疾病均较为结构化,格式较为固定,不同数据均以特定的标点符号分隔。虽然疾病名称、药物用法、服用剂量和方剂名称的文本较为分散,格式较为不一致,但也是半结构化的数据。其部分原文如图2所示。

图2 《本草纲目》部分原文

本文依据“释名”、“气味”等特定名称及“冒号”、“句号”等在特定位置的标点符号来匹配目标,使用Visual Studio Code 工具中的“正则表达式替换”和“更改所有匹配项”等方法对原文进行整理,如图3所示。

图3 《本草纲目》的整理环境

再用类似方法格式化文本,同时利用Visual Studio Code 右侧预览中的黄色提示人工审查文本的数据缺失、部分标点符号不规范、数据不整齐等问题,据此对文本进行人工补全、规范化等操作,得到处理后的文本,部分如图4所示。

图4 部分规范化后的《本草纲目》

2.3 实体与关系构建

实体与关系构建是一个比较复杂的过程,最终任务是实现实体抽取和关系抽取。实体抽取是指从非结构化的文本数据集中提取有意义的实体,并将其归类。现代较为自动化的抽取方法,最常用的是有监督的抽取方法,尤其是面向深度学习的神经网络模型,虽然其自动化水平较高,但一般较难得到准确的结果,通常需要人工对其抽取结果进行评估和审查修改,加之前期的数据集整理,仍需要耗费大量人力。本文认为,对于专业性强且较为结构化的中医典籍的实体抽取仍需基于文本规则的方法,于是本文参考《中医药学语言系统语义网络框架》,基于文本规律构建抽取规则,使用正则表达式替换、字段分割等方法,抽取《本草纲目》的实体和关系。

《中医药学语言系统语义网络框架》(GB/T 38324-2019)是一项国际标准,该标准是由中国中医科学院中医药信息研究所研究员崔蒙团队历时3 年制成。其规定了中医药学语言系统的语义概念、语义类型和语义关系,并对其进行了详细定义。本文在参考该标准中实体类型和关系类型的基础上,查阅了《本草纲目》的相关文献,同时联系实际应用,得到了《本草纲目》的5 个实体类型、5 种关系和6 个中药实体属性,如表3所示。

表3 《本草纲目》实体、属性、关系列表

实体和关系的三元组字典的构建是形成知识图谱的先决条件,这项任务决定着知识图谱的最终形态。文本处理后的《本草纲目》数据规整,便于通过程序处理得到实体、属性和关系。本研究主要通过Python 中的字符串分割和正则表达式匹配方法,构建“实体-属性-值内容”的三元组字典,举例如表4所示。其中,部分中药的属性又各不相同,但最终都是为各中药的信息作补充。同时,构建了“实体-关系-实体”的三元组字典,举例如表5所示。

表4 “实体-属性-值内容”的三元组字典举例

表5 “实体-关系-实体”的三元组字典举例

2.4 图片获取与融合

多模态知识图谱实现了多种模态数据的融合。在上文整理得出实体类型中,中药、疾病等实体均可在网络上找到相关图片。本研究根据分离出的实体在项目组自建的基本中药、症状图片网络数据库中设计模糊查询程序找到相关图片实体和链接,构建具有文本、图片两种模态的《本草纲目》的多模态知识图谱。对于一些相对少见且难以使用程序寻找的实体图片,通过人工查找的方法对数据进行补全,最后通过人工审查与修正,以保证实体与图片的对应与准确。最终共计得到770张中药实体图片,25张中药产物实体图片,3881张症状实体。

本文使用实体图片对应的网络链接,更新实体字典,在基于已经结构化表示的实体基础上,为其添加图片信息,整合、扩充构建的实体字典,通过程序一并导入到neo4j 图数据库中,实现《本草纲目》知识图谱的多模态。其中,通过网络链接存储的实体图片占用数据库空间小,偏于大量导入,有利于多模态知识图谱的进一步分享与扩展。导入neo4j 图数据库的关键方法是利用py2neo 库构建导入实体与关系的类与函数。

2.5 结果展示与分析

本文最终构建得到共10799 个实体和14686条关系,其中中药实体、中药产物实体和疾病实体为多模态数据,具体《本草纲目》的多模态知识图谱(部分)如图5所示。

图5 《本草纲目》的多模态知识图谱(部分)

相比传统的连续式文本,以结构化、多模态的形式展示数据,可以更直观地观察实体间的关系,进而发现隐含的规律。例如,我们想知道治疗“小便不通”的中药有哪些,通过Cypher 查询语句即可快速检索得到答案。进而我们可以分析相关的中药及其功效等,试图挖掘其围绕症状——“小便不通”的临床应用。

从图6可以看到,在《本草纲目》中车前和栀子均治疗“小便不通”。车前的药用记载见于《神农本草经》,药用种子,列为上品,载:“车前子,味甘,寒。主气癃,止痛,利水道小便,除湿痹。久服轻身耐老。一名当道”。车前子来源于车前科植物车前PlantagoasiaticaL。或平车前P.depressaWilld。的干燥成熟种子,具有清热、利尿通淋、渗湿止泻、明目、祛痰的作用。栀子始载于《神农本草经》,是我国传统的常用中药材,具有泻火除烦、清热利尿、凉血解毒、外用消肿止痛等功效。栀子仁是栀子的仁,《雷公炮炙论》云:“凡使栀子,先去皮须了,取仁,以甘草水浸一宿,漉出焙干,捣筛如赤金末用”。由这两个药物组成的方剂中,八正散主治热淋,证见尿频尿急,溺时涩痛,淋沥不畅等。方中滑石和木通为君药;萹蓄、瞿麦、车前子同为臣药;山栀子仁和大黄俱为佐药;甘草调和诸药。《太平惠民和剂局方》卷6:“治大人、小儿心经邪热,一切蕴毒,咽干口燥,大渴引饮,心忡面热,烦躁不宁,目赤睛疼,唇焦鼻衄,口舌生疮,咽喉肿痛。又治小便赤涩,或癃闭不通,及热淋、血淋,并宜服之。”相关研究表明,改良八正散结合微波照射治疗慢性前列腺炎的临床疗效优于盐酸坦洛新缓释胶囊,值得进一步推广应用。

图6 “小便不通”的实体与关系

3 讨论与展望

知识图谱及其多模态化是发展迅速的交叉技术领域,并在不断地与其他领域进一步融合。目前在中医领域的研究还十分有限,相关技术的运用也比较初级,大规模中医药多模态知识图谱的构建与应用仍面临较大挑战,本文从以下三个方面对中医药多模态知识图谱总体研究作以下讨论与展望:

(1)中医药知识的数据来源。中医药是中华民族上下五千年优秀文化历史沉淀的结晶,迄今为止,其数据类别多种多样,从计算机视角去看,可将其分为非结构化数据、半结构化数据和结构化数据三类。非结构化数据一般包括中医经典、领域书籍、科研论文、专家讲课视频等,此类数据容易获取。目前完全使用中医领域非结构化数据构建的知识图谱体量较小,更大规模的是中医方剂知识图谱、中医养生知识图谱等。半结构化数据一般包括中医临床病历、中医医案、中医药图片、网络知识、行业网站数据、制药工程数据,半结构化的词典、行业标准、百科数据、药品说明书等,这些数据具有一定的结构性,且容易发现文本规律,便于利用计算机技术使其结构化,从而构建知识图谱。此类数据可通过购买、爬取收集等一些技术手段获取。结构化数据一般包括中医药的术语系统、专业机构整理的数据库数据等,可直接用于构建知识图谱,但一般难以直接获取。基于以上分析,本文认为,面向非结构化和半结构化中医药数据的研究处理将是未来发展的主要方向之一,这方面的研究也急需加快脚步。

(2)中医药多模态知识图谱的构建方法。知识图谱的构建流程一般包括知识获取、知识抽取、知识存储和知识融合。知识获取即知识的数据来源,这里的数据应是多模态的,此外,还应包括数据的预处理。知识抽取依据任务不同可以分为实体识别、关系抽取和事件抽取等。一般研究者要依据文本结构,选择合适的抽取方法。对于较为结构化的文本,大多采用基于规则的方法;对于非结构化的文本,近期流行使用深度学习等自动化抽取方法,但当前仍处于技术探索阶段,研究趋向分化,趋于不同数据对应不同处理方法的发展方向。知识存储,即数据的存储方式,目前业内存储知识的方式有三种,分别是RDF 存储、传统关系型数据库存储和图数据库存储。多模态知识图谱的存储方式主要以图数据存储为主。知识融合一般指将不同的知识图谱进行融合,但还应包括不同模态数据的融合。知识融合需要处理两个层面的问题:其一是模式层的融合,主要任务是新旧本体的融合;其二是数据层的融合,包括实体的属性、关系以及相应图片、音频等多模态数据的融合,主要的问题是如何避免实例以及关系的冲突问题,以免造成不必要的冗余。

(3)中医药多模态知识图谱的应用。知识图谱的应用一般包括知识图谱补全与推理、知识检索与知识分析和智能问答等。本文基于多模态知识图谱的技术背景构建了《本草纲目》的多模态实体与关系,若能将类似工作继续下去,对中医药概念体系进行系统梳理,相信不久便能实现大量中医药知识的关联与融合,构建规模化、扩展性强的中医领域多模态知识图谱。同时,随着语言预训练的兴起,利用知识图谱来拓展训练模型从而处理复杂问题的能力不断提升,多种模态的数据可被用来增强知识图谱中实体对齐、链接预测和关系推理的效果,若能将中医领域的多模态知识图谱体系应用于中医知识跨模态检索、中医知识智能问答、临床诊疗的辅助推理与判断等领域,将大大提升搜索、推荐和问答中知识提供的准确度,有效提高计算机分析症状与药物对应关系的性能,辅助医生制定诊疗方案,提高中医临床的工作效率,为患者提供更好的就医体验。

4 结语

本文聚焦于中医药领域,立足于中医经典从“藏”到“用”的转变,以半结构化和非结构化的中医经典——《本草纲目》为数据源,以中医药概念间的实体构建关系类型,抽取文本以及相关图像等多模态信息,对数据进行整理、归纳与研究,阐述了实体、关系抽取、知识融合等知识图谱构建和应用中的相关技术和工作,最后利用4图数据库进行规范且统一的存储表示,形成了具有特色的多模态的《本草纲目》的知识图谱。同时,本文还对多模态知识图谱的研究进展进行了介绍,并讨论了中医药多模态知识图谱的主要研究方向。在大数据时代利用现代先进技术对中医经典进行高效的知识获取、知识存储和知识管理有着极其重要的意义,希望本文能为相关领域的研究者提供研究思路。

猜你喜欢
本草纲目模态图谱
“植物界大熊猫”完整基因组图谱首次发布
精武门的武术图谱与徐悲鸿
联合仿真在某车型LGF/PP尾门模态仿真上的应用
《本草纲目》享誉欧洲,靠的竟是“博物”
模态可精确化方向的含糊性研究
图表
本草纲目
基于滑动拟合阶次和统计方法的模态阻尼比辨识技术
《本草纲目》曾经没人要?
基于CAE的模态综合法误差分析