朱 彦 徐静雯
(中国中医科学院中医药信息研究所 北京 100700) (长春中医药大学医药信息学院 长春 130117)
如何从海量数据中获取高价值的知识是当前生物医学大数据研究领域最大挑战之一。语义标准化是打破“信息孤岛”,实现多源数据的无歧义融合,确保数据用户群体有效共享、使用的有效途径,也是当前研究难点和热点之一。本体作为支持异构信息语义层面的标准化和互操作、实现智能分析处理的有效手段[1],已经在生物医学数据分析、检索、整合、共享与再利用等场景中发挥越来越重要的作用[2]。目前中医药信息标准化尤其是术语标准化工作已取得一定成效,陆续发布各级术语、编码、范畴框架等标准,并开发词表、术语集等知识组织系统。以此为基础,关于中医药领域本体的研究与开发逐渐成为中医药语义标准化研究的热点之一。笔者对近10年来中医药领域本体研究进行文献调研、筛选和统计,梳理中医药领域内现有本体研究进展、本体主题分布情况,对当前中医药本体研究仍存在的不足进行回顾和思考。在此基础上提出现有本体研究的关键问题和重点方向,结合生物医学本体研究最新进展和趋势,提出“中医药本体集”的倡议,以期形成开放、共享的中医药领域基础资源,为中医药多源数据整合和智能分析处理提供支持。
2.1.1 知识组织系统内涵 目前在中医药标准化领域已构建和发布涵盖各子领域的术语标准、语义分类框架,开发了一些术语集产品。这些不同结构和受控程度的研究成果,在知识组织系统(Knowledge Organization Systems, KOS)视角下会更清晰。知识组织系统是对人类知识结构进行表达和有组织阐述的各种语义工具的统称,是对重复性术语和概念的统一规定,包括分类法、叙词表、语义网络、概念本体及其他情报检索语言与标引语言[3]。而本体作为知识组织系统的新兴高级形式,用人和计算机分别可以理解的自然语言和逻辑语言描述某一领域内的实体及实体之间的相互关系,从而提供对某领域内事物本质的统一认识[4],见图1。
图1 知识组织系统类型分布情况[3]
2.1.2 中医药领域内现有典型知识组织系统分类 这些传统的知识组织系统为中医药领域本体构建提供了丰富的术语资源和模型参考,研究者以此为基础开展诸多子领域的本体建设及应用研究工作。对中医药领域内现有典型的知识组织系统进行分类梳理,见表1。
表1 中医药和现代生物医学领域典型的KOS统计
续表1
当前科学数据开放共享已成为全球共识,其对于减少重复建设、提升科学数据应用价值具有重要意义[24]。由于版权等利益因素影响,传统标准大多以收费纸质出版物形式发布。中医药信息标准主要是由计算机使用,纸质版信息标准尤其是术语标准给术语推广应用带来阻力。针对此问题,术语标准发布格式逐步改善,近期发布的中医病证分类等国家标准采用Word和Excel格式,能极大方便标准的推广使用。如果以纸质版配合数据库格式或者万维网本体语言(Web Ontology Language,OWL)等本体开放格式进行发布,将进一步方便使用与共享[25]。
2.3.1 概述 FAIR原则已成为科学数据管理的国际准则[26],该原则倡导科研活动产出的数据在开放共享过程中努力实现数据可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)和可复用(Reusable)。这4个目标层层递进,其中可互操作最为关键。本体作为一种特殊数据也需要实现可互操作,尤其是语义层面的互操作,才能充分发挥对异构知识与数据整合分析的关键作用。
2.3.2 与已有标准、术语集或领域本体的复用和协调 本体提供对某领域内事物本质的统一认识,其本质决定需要对领域内现有语义标准、术语集或其他权威领域本体进行协调、复用或映射,强大的语义表达能力可支持其实现这一目标。《中华人民共和国药典》和国家标准因面向需求不同,同样的术语其概念的粒度和内涵可能存在差异,本体模型通过不同层级的概念模型,能有效协调此类语义差异,支持不同来源和标准下的数据集成与分析,见图2。术语集或本体之间实现语义层面互操作最高效的方法是直接引用或复用。在构建本体过程中应首先考虑参考复用相应周围本体以实现知识的复用和共享,尽量确保同一术语不出现在多个本体中,即确保正交性(orthogonality)[27]。未来科学大数据发展方向是实现不同领域不同电子信息的互通互用。在本体方面需要以一致方式开发,尽量使用通用顶层本体并复用周围领域本体,这也是本体构建的原则之一。
图2 使用本体模型协调不同标准示例
2.3.3 顶层本体或框架研究 在本体构建过程中顶层本体提供领域本体所需的先辈术语,进而提供公共总体框架。中医药领域顶层本体是在语义层面总结中医药知识的基本概念框架,是中医药领域本体与通用顶层本体连接的基础[28]。高成勉、包含飞和周强[29]提出一系列本体构建原则,并对中医顶层本体构建以及应用进行初步探索,以期实现中医、西医及其他领域知识的共享互通。参照统一医学语言系统(Unified Medical Language System,UMLS)中医药学语言系统语义网络框架国际标准化组织(International Organization for Standardization,ISO)标准技术规范[30]为中医药顶层实体及关系提供上层框架。龙海、贾李蓉和朱玲等[31]尝试将中医临床术语系统顶层分类与基本形式化本体(Basic Formal Ontology,BFO)进行比较和映射。Long H、Zhu Y和 Jia L等[32]将中医药语言系统(Traditional Chinese Medicinc Language System,TCUMLS)语义网络框架基于通用形式化本体(General Formal Ontology,GFO)进行映射和本体化。基于本体论领域顶层概念梳理辨析研究方面,主要在中药子领域有少量研究。如刘丽红、贾李蓉和朱彦等[33]基于本体论的概念建模方法明确中药子领域核心概念内涵和关系,初步完成中药子领域核心概念语义框架构建。上述研究为后续研究带来重要启示。一方面,领域中的顶层本体能对中医药领域本体构建提供参考和指导,但同时需要对其哲学基础进行深入研究和辨别,考察其与中医药概念的适用性,尤其是涉及阴阳、五行等哲学层面的相关概念;另一方面,还需要加强基于本体论对中医药领域内顶层概念的梳理研究,现有教材和国家标准中的中医药顶层概念往往是复合性的,需要仔细梳理辨析,借助本体论和逻辑学等工具将其拆解并明晰其间的区别和关系,形成初步语义框架,进而支持中医药领域顶层本体的最终形成。
现有主流本体语义OWL基于描述逻辑(Description Logics,DLs)进行形式化语义表达,实现知识的可计算性,从而支持本体逻辑推理和数据验证等功能[34]。如使用OWL语言对药典附录中的“黑老虎根”和“广西海风藤”不同概念的内涵进行形式化表达,计算机能自动推断出两者的层级关系,见图3。现有研究对形式化定义的技术实现进行了一些探索,然而中医药核心概念的形式化定义尤其是全等关系的定义工作仍处于探索阶段。现有ICD-11在传统医学中医疾病和证候部分未见其特征属性和扩展定义的规则。究其原因,一方面由于缺少顶层本体的指导以及中医药领域顶层概念的梳理和定义,直接影响下层概念准确定义;另一方面,制定基于描述逻辑的定义,需要中医药领域专家以及计算机、逻辑学等交叉背景的专家协作。
图3 形式化定义支持自动推理示例
以最成功的本体——基因本体(Gene Ontology, GO)为例,其最宝贵的组成部分在于基于GO的注释数据库和与之配套的分析方法和工具[14,35-36]。现有本体应用研究在针对临床应用方面主要聚焦基于专病的临床诊疗知识表达,以支持辅助决策;文献数据应用主要是利用本体进行知识分类和映射,增强检索功能。从本体构建到应用主要还是使用成熟技术栈,包括本体编辑工具Protégé、SWRL规则语言、本体操作框架Jena、RACER和Pellet推理机等,二次开发应用系统。后续还要面向实际应用需求加强类似支持本体的语料注释系统[37]、诊断系统[38]、副作用预测方法[39]等相关应用研究,构建注释数据库、分析算法和应用工具系列集合,在实践中验证所构建本体的合理性和完备性,不断驱动其更新和完善。
3.1.1 国外 开放式生物与生物医学本体工场(The Open Biological and Biomedical Ontologies (OBO) Foundry)[40]作为当前影响力最大的生物医学本体开发国际社区提出一系列本体开发原则,全面支持开发具有互操作性并可以方便应用于大数据标准化的本体体系[41]。目前OBO Foundry库中已有两百多个本体,术语总量超过200万。
3.1.2 国内 为加速国内生物医学本体研究,完善本体共享和使用,国家人口与健康科学数据中心于2017年牵头成立“中国生物医学信息本体联合工作组(OntoChina)”[42],希望通过广泛协作将先进的本体构建理念和模式引入国内,建设服务于国内生物医学信息相关领域的本体资源,促进生物医学本体在科学研究和健康产业的应用。OntoChina引入并翻译基本形式化本体[43]、科学研究本体(Ontology for Biomedical Investigations,OBI)、关系本体(Relation Ontology,RO)、通用医学本体(Ontology for General Medical Science,OGMS)、人类表型本体(Human Phenotype Ontology,HPO)等,并通过MedPortal平台供免费浏览和下载使用。笔者牵头组织并翻译了麻省理工学院(Massachusetts Institute of Technology,MIT)出版社Barry Smith等撰写的BFO本体著作。该著作是国内第1部系统介绍BFO及其本体构建理论、方法和技术的书籍。笔者团队借鉴OBO Foundry本体开发原则和可扩展互操作性本体的方法尝试构建第1个基于顶层本体BFO的传统中药本体(Traditional Chinese Drug Ontology,TCDO)[5],并通过复用物种分类本体和植物解剖本体,实现与现代生物医学知识体系的互联互通。
为了更好地推动中医药领域内本体研究与落地应用,对近年来中医药领域本体的研究进行回顾和思考,总结学习成功经验,针对不足和问题,提出共同构建中医药本体集(TCM Ontology Set,TCM-OS)的倡议。最终目标是成为中医药信息化领域语义标准化的基础资源。借鉴OBO Foundry等先进的本体理论、方法和技术,构建可互操作、语义表达规范的中医药领域本体集合。该本体集具有统一的中医药领域顶层本体,模块化的子领域本体,并兼顾生物医学知识融合。共同研究、开发和推广基于本体的数据库和算法工具,以开放共享模式联合相关领域(中医药、计算机、哲学、逻辑学等)学者、专家共同参与研发,企业参与验证和推广应用。学术应用免费开放使用,商业应用灵活授权以支持持续的学术研究。依托OntoChina和行业学会推动中医药领域本体研究社区建设。
随着科学研究进入“大数据+大科学=大发现”的数据驱动时代,中医药研究呈现出多源异构数据、多学科、多层次、多环节的整合研究趋势。高质量、可互操作的本体能提供人机可读的规范语义标准共识,被认为是实现异构知识与数据整合分析解决方案的关键性环节之一。当前生物医学本体研究发展迅速,中医药领域本体研究更是方兴未艾,机遇与挑战并存,应广泛开展国内与国际合作,共同研究开发中医药本体集,以期为提升中医药领域本体的整体研究水平,推动中医药信息化建设和科学研究提供更有力支持。