王大禹 李园白 杨阳 崔蒙
摘要:目的 对利用新的知识源自动扩展中文中医本体进行定量研究。方法 基于中医医疗术语及术语间的关系构建实验用的本体,利用中医药学术论文中提及的病例作为知识源扩展本体,并用作测试集来评测本体扩展前后的质量。结果 包含41 652个实例的本体可以通过3000个诊次的医疗信息扩展,对真实临床应用出现的疾病名称的覆盖率由52.3%增至72.4%,证候名称覆盖率由14.8%增至55.8%,药物名称覆盖率由13.7%增至54.8%,治法名称覆盖率由25.8%增至77.2%。结论 利用学术论文中提及的病例作为新知识源来自动扩展本体可以显著增加本体的覆盖率。
关键词:本体扩展;中医药本体;中医药术语集
中图分类号:R2-03 文献标识码:A 文章编号:2095-5707(2016)05-0009-05
A Quantitative Study on Automatic Expansion of Chinese TCM Ontology
WANG Da-yu, LI Yuan-bai, YANG Yang, CUI Meng*
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medicine Science, Beijing 100700, China)
Abstract: Objective To conduct a quantitative study on the automatic expansion of Chinese TCM ontology with new knowledge sources. Methods The experimental Chinese TCM ontology was built based on TCM terms and relationships among different terms. Medical cases in TCM academic papers were set as knowledge sources for expansion of ontology. These cases were used as testing sets to evaluate the quality of the ontology before and after expansion. Results Ontology with 41,652 cases could be expanded through information in 3000 clinical visits. The coverage of this ontology on disease names in real clinical application increased from 52.3% to 72.4%, syndrome names from 14.8% to 55.8%, medicine names from 13.7% to 54.8%, and TCM therapy names from 25.8% into 77.2%. Conclusion Using medical cases in TCM acajemic papers as the new knowledge sources for automatic expansion of ontology can significantly increase ontology coverage.
Key words: ontology expansion; TCM ontology; TCM terminology set
基金项目:国家科技部重大专项(2012ZX09304003-001);国家中医药管理局行业专项(201207001-21);科技部科技基础性工作专项(2009FY120300);中国中医科学院创新团队项目(PY1306);福建省2011中医健康管理协同创新中心
第一作者:王大禹,博士后研究人员,研究方向为医学信息学。E-mail: sywdy@qq.com
*通讯作者:崔蒙,研究员,研究方向为中医药信息学。 E-mail: cm@mail.cintcm.ac.cn
一个本体包含的概念、实例及关系的数量决定了这个本体可以支持的智能算法的广度和深度。如果一个实例在本体中找不到,那么本体对于这个实例的处理和计算就无法提供准确支持。当然,也可以考虑利用相似度计算找到本体中与被查询实例最接近的实例,但是这种方法会引入其他知识资源(如同义词词典)或计算模型(如向量空间模型等相似度计算模型),本体无法独立工作,产生依赖关系;同时也降低了准确度,因为相似度计算本身可能是不够完善和准确的。所以,构建一个概念丰富、关系完整的本体对于解决复杂问题是必备的。
本体的构建需要领域专家的参与,并需要大量的手工工作,难以大规模构建。在具有基本框架和内容的本体上利用人工智能技术进行扩展是扩建本体的一种办法。中医领域的本体扩展对于医学领域及其他领域的本体扩展都具有指导意义。
1 形式化定义
本体的常用形式化定义有很多种,例如,本体可以形式化为五元组
一个从带标语料库、结构化文本或其他资源中抽取出的二元关系可用于本体扩展,它与本体的关系取决于这个二元关系中的2个实例和关系是否在原本体中。表1显示了6种情况,除了“不支持扩展”这种情况,我们对其他5种情况(概念扩展I、概念扩展II、单纯关系扩展、关系及概念扩展I、关系及概念扩展II)逐一进行定义。
1.1 概念扩展Ⅰ
在这种情况下,新的二元关系(ELn, ERn, Rn)中有一个概念在本体中,假设概念ELn在本体中,同时关系Rn也在本体中。新的二元关系把原本体中的某一个实例相关的一个关系扩展到了一个新的实例。例如,“治疗”关系是中医本体中最基本的关系之一,对于一种常见的疾病,如果新的二元关系是一种新的药物或组方可以治疗这种疾病,就可以利用概念扩展Ⅰ的方式对本体进行扩展。
1.2 概念扩展Ⅱ
在这种情况下,新的三元组中的2个实例ELn、ERn均不在本体中,而关系Rn在本体中,我们把这个二元关系加入本体。加入本体后如果不对本体内部进行操作,这个新的三元组中的2个实例就是孤立的。仍以“治疗”关系为例,如果发现某种新的药物可以治疗新的疾病,则符合概念扩展Ⅱ的方式。
1.3 单纯关系扩展
在这种情况下,新的三元组中的2个实例ELn、ERn均在本体中,而关系Rn不在本体中,这意味着新三元组为本体中2个已经存在的实例发现了新的关系,我们需要判断新的关系和原有关系是否存在从属关系。如果存在从属关系,例如,直接上位词或相邻层级的上位词关系是上位词关系的子集。在这种条件下,如果新发现的关系没有为本体提供新的信息,则不作扩展。例如,本体中已经是直接上位词关系,新发现的是上位词关系,则不做扩展。如果新发现的关系提供了更准确的信息,例如本体中是上位词关系,而新发现的是直接上位词关系,则用新的关系代替原有关系。如果不存在从属关系,则要检查新关系和原有关系是否矛盾,或有条件限制。例如,2个人的关系可能在某个日期前是上下级关系,而在某个日期之后是汇报给同一个上司的同事关系。“上下级”和“同级”这2个关系在同一时间点是矛盾的,因此需要加入日期这个信息。很多情况下,2个关系是不矛盾的。例如,2个人的生物学父子关系会一直延续,但在某个日期之后2个人增加了“同事”关系。这种情况下,增加日期信息会让本体包含更多有用的信息。
1.4 关系及概念扩展Ⅰ和Ⅱ
在这种情况下,新的三元组中的关系Rn不在本体中,同时至少有1个实例不在本体中,这时需要把新的三元组所表示的关系加入到本体中。
1.5 本体的自完善
本体扩展应尊重并符合原本体的建立标准。我们提出一些衡量本体内部一致性的评测指标,并定义在我们的研究中本体需要达到的标准。如果原本体已经达到了这样的标准,新添加的部分应符合同样的标准。如果原本体没有达到这样的标准,则可以将原本体做自完善,使其符合定义的标准;然后再保证新添加的部分符合同样的标准。
2 实验设计
2.1 本体的构建
本研究使用中国中医科学院中医药信息研究所的病症、临床发现和处方三个分支结构的术语集[1]及术语之间的二元关系来构建本体。构建后的本体包含41 652个实例,这些实例之间存在的二元关系及数量如表2所示。
例如,“被…治疗”和“治疗”是一对反向的关系,本体中包含“被…治疗”的二元关系有57 170个,“治疗”关系也有同样的数量。“治疗”关系的EL有31 879个,“被…治疗”关系的EL有2293个,就是说这个本体中“治疗”关系左侧的药物或方法有31 879个,而右侧被治疗的疾病或者证候有2293个。31 879个EL到2293个ER上的二元关系共有57 170个。
2.2 带标语料库情况
本研究使用本所对近年中医领域中文学术论文中病案的标注[2],随机抽取4000个诊次,抽取条件是每个诊次包含如下完整的信息:疾病名称、证候、治法和用药。例如,下面是一个诊次的例子:
疾病名称:'咳嗽'
证候:'风热之邪侵袭肺卫$肺失清肃$卫表失宣'
治法:'祛风$疏表$宣肺$止咳'
用药:'止嗽散加减'
本研究把4000个诊次信息随机分成4组,每组1000个诊次。对4000个诊次中疾病名称进行统计,并按照出现频率由高到低排序,统计信息见表3。可见“眩晕”和“咳嗽”是出现频率最高的2个疾病名称,分别出现116次和92次。有两个疾病名称分别出现53、51次,疾病种类数为2。
3 本体评测
为了定量评估扩展前和扩展后本体的质量,我们定义了一些适合评测研究中所使用的本体的指标,这些评估指标也可以为其他本体质量的评测提供一些帮助。
3.1 实例术语覆盖率
这类指标包括可重复覆盖率(RC)和不重复覆盖率(UC),它们反映一个本体对测试集中的疾病名称的覆盖情况,即给出一个实例名称,例如疾病名称或证候名称,在本体中是否可以查询到这个名称及相关知识。为了更好地呈现一个本体对真实应用的支持程度,测试集中的疾病名称应直接来源于各种应用,例如医案、病案或电子病历。如果测试集中的疾病名称是真实的随机采样,疾病名称在测试集中是可以重复的,其所占比例代表实践中的真实情况。有一些疾病是非常常见的,例如表3中使用的病案中“眩晕”和“咳嗽”就是出现频率最高的疾病名称。当测试集中的疾病名称是可以重复的,一个本体包含这个测试集中的疾病的百分比被称为RC;如果一个测试集中的疾病名称都是不可重复的,则一个本体包含这个测试集中的疾病百分比被称为UC。显然,“可重复覆盖率”给常见疾病增加了对结果的影响;而“不重复覆盖率”把所有疾病都赋予相同的权重。
3.2 关系覆盖率
这类指标也包括可重复覆盖率(RC)和不重复覆盖率(UC),它们反映一个本体对测试集中的二元关系的覆盖情况。只有测试集中某一个二元关系的2个实例及关系都能在本体中找到,我们才确定本体覆盖这样一个二元关系。如果测试集中的二元关系来源于真实应用,则可以有重复的,本体称这种测试集的覆盖为RC;如果测试集中的二元关系都是不相同的,本体称这种测试集的覆盖为UC。
3.3 本体扩展效果评测
我们对构建的本体分别使用1组、2组、3组诊次中抽取的信息进行扩展,然后使用第4组诊次中抽取的信息作为测试集进行评测。同时和原本体进行比较。为了减少不同诊次对实验结果的影响,我们借用N重交叉验证方法,把未扩展的本体在4组诊次上的疾病名称覆盖率的平均值作为基准,即表4中“0”所在列。使用1000个诊次扩展本体时,如果用A组诊次作为知识源扩展本体,会分别使用BCD其他3个组作为测试集,然后求平均值;再换B组作为知识源扩展本体,用ACD其他3个组作为测试集。这样把12个实验结果求平均值作为最终结果,即表4中“1000”所在列。使用2000个诊次扩展时,也用任意2个组扩展本体后,分别在剩余的2个组上做测试,然后求平均值,也是12个实验结果求平均值,即表4中“2000”所在列。使用3000个诊次扩展本体时,取3个组诊次扩展本体,然后在第四组上做测试,为4个实验结果的平均值,即“3000”所在列。为了衡量覆盖率随诊次增加的变化关系,使用最小二乘法对已知数据进行最佳线性拟合,把使用的诊次数量视为自变量,疾病名称覆盖率视为函数值,把拟合后的直线斜率k放大10 000倍后呈现在表4中“k×104”所在列中。
4 结论
本研究通过构建本体和新知识源,并通过构建测试集来定量研究本体扩展后性能的提升。实验表明,包含41 652个实例的本体通过3000个诊次(另有1000个诊次是测试集,不使用)的医疗信息扩展后,对真实临床应用出现的疾病名称的覆盖率由52.3%增至72.4%,证候名称的覆盖率由14.8%增至55.8%,药物名称的覆盖率由13.7%增至54.8%,治法名称的覆盖率由25.8%增至77.2%。随着用于扩充本体的诊次数量的增加,治法名称的覆盖率增加最快,平均每增加1000诊次,覆盖率增加16%;疾病名称增加最慢,平均每增加1000诊次增加6.5%。
目前研究仅为初步工作,因此包含很多简化。例如,治疗中药物名称的匹配,只考虑药物名称,而且方剂名称后如果有“加味”及“加减”视为同一名称。另外,治法的匹配只考虑了精确匹配,没有做进一步的分析,如四字词仅和自身做精确匹配,没有和包含的二字术语匹配或计算相似度。例如“活血化瘀”在4000个诊次中出现了81次,查找时没有考虑“活血”或“化瘀”。而“活血”出现了389次,“化瘀”出现207次。如果考虑模糊匹配或相似度计算,可以更好地反映本体的质量。
5 讨论与未来工作计划
本体的自动、半自动构建和扩展一直是国际上人工智能、知识管理领域的重要研究课题。很多智能的方法已经出现,例如基于语义的方法从语料中抽取概念来扩展已有的本体的研究,其核心在于如何识别出候选的概念,这种方法已经应用于中医领域的本体扩展[3]。有的研究从网上的百科全书中抽取概念来构建本体,例如使用维基百科的方法[4],在没有标注的语料库中概念和实例是难以区分的,因此上述研究借助维基百科的定义和种类标记,借助N元组统计及自然语言处理的方法。也有一些研究尝试使用原有本体,从中抽取概念再构成新的本体[5]。因为结构化数据需要大量人工的工作,有研究人员[6]从文本中通过无指导的方式构建特殊领域的本体,包含了同义词、从属、作用、属性等语义及结构明显的关系。还有在已经存在的本体上进行计算,构建新的本体。例如,有的研究在已经存在的本体中自动生成映射关系,通过抽取、匹配、合并技术来半自动地构建本体[7];有的研究利用术语在特殊领域及一般领域出现频次的比较来抽取概念和关系,进行半自动的本体构建[8]。国内也有一些通用领域的研究[9-12]和特定领域的研究,例如生物医学领域[13]、气象领域[14]、农业领域[15]等,这些研究使用了维基百科、科技文献等资源来扩展本体。
上述研究的普遍不足之处在于缺少对扩展前后或新构建的本体的评测,有的研究即使有评测,却没有使用来源于实际应用的测试集。本研究弥补了本体测评的问题,并使用了来自真实应用的诊次信息构建测试集。从UC和RC的差值上,我们发现药物名称的差距最小而治法名称的差距最大,说明绝大部分治法名称的术语容易反复出现,而药物名称不容易反复出现。从斜率k上看,随着诊次的增加,治法名称覆盖率最容易增加,而疾病名称不容易增加。说明实际就诊中常见病会经常出现,而中医治法多元化的形势明显,与疾病名称相比,同样的疾病在中医诊治中会使用不同的治法。通过药物名称的RC和UC差异看,二者差异远大于疾病名称、治法和证候,说明实际治疗中医生倾向于使用常用药物。
参考文献
[1] 于彤,贾李蓉,刘静,等.中医药学语言系统研究综述[J].中国中医药图书情报杂志,2015,39(6):56-60.
[2] 李园白,杨阳,朱晓博,等.基于文献的“病-药”关联关系分析[J].中华中医药杂志,2014,29(1):253-255.
[3] ZHOU LP, ZHANG DZ, CHEN X, et al. A method for semantics-based conceptual expansion of ontology[C]// Association for Computing Machinery(ACM). Proceedings of the 2008 ACM symposium on Applied computing. New York,2008:1583-1587.
[4] CUI GY, LU Q, LI WJ, et al. Mining Concepts from Wikipedia for Ontology Construction[C]// IEEE Computer Society. Proceedings of the 2009 IEEE/WIC/ACM international Joint Conference on Web intelligence and intelligent Agent Technology. Washington,2009:287-290.
[5] BANU A, FATIMA SS, KHAN KUR. A re-usability approach to ontology construction[C]// Association for Computing Machinery(ACM). Proceedings of the Second International Conference on Computational Science, Engineering and Information Technology. New York,2012:189-193.
[6] MUKHERJEE S, AJMERA J, JOSHI S. Unsupervised approach for shallow domain ontology construction from corpus[C]// Association for Computing Machinery(ACM). Proceedings of the 23rd International Conference on World Wide Web. New York,2014:349-350.
[7] TOUMA R, ROMERO O, JOVANOVIC P. Supporting Data Integration Tasks with Semi-Automatic Ontology Construction[C]// Association for Computing Machinery(ACM). Proceedings of the ACM Eighteenth International Workshop on Data Warehousing and OLAP. New York,2015:89-98.
[8] CARVALHEIRA LCC, GOMI ES. A method for semi-automatic creation of ontologies based on texts[C]// Proceedings of the 2007 conference on Advances in conceptual modeling: foundations and applications. Auckland,2007:150-159.
[9] 侯鑫,张旭堂,金天国,等.面向知识与信息管理的领域本体自动构建算法[J].计算机集成制造系统,2011,17(1):159-170.
[10] 杨靖.领域本体自动构建的关键技术研究[D].哈尔滨:哈尔滨工业大学,2008.
[11] 程晓.面向半结构化文本的领域本体自动构建研究[D].哈尔滨:哈尔滨工业大学,2009.
[12] 卢文兴,陈黎,朱洪波,等.基于本体翻译的领域本体自动构建[J].计算机工程与设计,2011,32(9):3203-3207,3230.
[13] 孙锐.生物医学领域本体自动构建系统的设计与实现[D].杭州:浙江大学,2013.
[14] 王磊,顾大权,侯太平,等.基于维基百科的气象本体的自动构建[J].计算机与现代化,2014(6):129-131,136.
[15] 王超,李书琴,肖红.基于文献的农业领域本体自动构建方法研究[J].计算机应用与软件,2014,31(8):71-74.
(收稿日期:2016-08-19)
(修回日期:2016-09-08;编辑:魏民)