蓝昊慧
摘要: 中药复方数据挖掘研究是将我国丰富的中药信息资源和现代最新信息技术相结合的重要内容,它意味着基于中医理论,利用知识发现技术,对传统中药新药、中医组方理论及规律、中药作用机制、有效成分构效关系等多个方面进行全面、系统的研究。图作为一种经典的数据结构,被广泛用于复杂数据结构分析与建模。文章探讨了图建模技术并实现了中医方剂与图集的转换。
关键词: 中医方剂; 中医药方; 图集; 数据结构; 领域本体; 数据库
中图分类号:TP39文献标志码:A 文章编号:1006-8228(2012)11-26-02
Conversion method of traditional Chinese medicine prescriptions and atlas
Lan Haohui
(Zhejiang Songyang County financial local taxation Bureau, Lishui, Zhejiang 323400, China)
Abstract: Research on data mining of Chinese medicine is a vital combination of abundant Chinese medicine information resources and modern information technology. It is based on TCM theory, using knowledge discovery technology to make a comprehensive, systematic research on traditional Chinese medicine prescription, theory and rule of Chinese medicine effective component, mechanism, structure-activity relationships. Atlas, as a classic data structure, is used in analysis and modeling of complex data structure. The modeling technology of atlas is discussed and the conversion of traditional Chinese medicine and atlas is implemented.
Key words: the prescription of traditional Chinese medicine; traditional Chinese medicine prescription; atlas; data structure; domain ontology; database
0 引言
本文主要研究如何将中医的相关知识合理地转换为图结构,从而为进一步利用图结构对中医的潜在知识挖掘做好准备。本文内容涉及到对中医方剂的提取方法和提取后的数据在数据库中存储的方式,以及这些存储内容中的关系计算和图结构的建立。
1 中医数据
在取得中医医案后,先对文本进行初步的处理(主要是应用最大匹配算法(正向和反向)对中医医案进行初步的分词),然后对处理过的句子进行自底向上的句法分析,利用中医领域本体进行排歧处理、同义词识别和未登录词的识别,得到最优分词序列。分词框架如图1所示。
1.1 分词算法
最大匹配算法(正向和反向)从左到右,或从右到左,每次取最长词,得到切分结果。正向匹配算法可分成五个步骤。
⑴ 待切分的汉字符串s1,已切分的汉字符串s2(s2初始串为空)。
⑵ s1如果为空串,转⑹。
⑶ 从s1的左边复制一个子串w作为候选词,w尽可能长,但长度不超过最大词长(一般为7个字长)。
⑷ 如果在词表中能找到w,或w的长度为2,那么将w和一个词界标记(“/”)一起加到s2的右边,并且从s1的左边去掉w,转⑵。
⑸ 去掉w中最后一个汉字,转⑷。
⑹ 结束。
[开始] [最大匹配算法][自底向上句法][优化后的词语][同义词识别][歧义处理][未登录词识别][结束][词库][本体库]
图1分词框架图
算法包含两重循环:外循环是从输入串中复制后选词w,内循环是用候选词w去匹配词表中的词。
反向最大匹配的是:每次从汉字符串的右边取一个候选词,候选词不止一个汉字而且在词表中查不到时,将它最前面的一个汉字去掉。
1.2 本体的应用
本体是共享可重用的概念集合,利用本体捕获自然语言的语法知识,确定该领域内共同认可的术语(概念),提供人和机器对该领域知识的共同理解,并给出这些概念之间相互关系的明确定义。所以,本系统分析和建立了分词阶段所需要的定义。
中医领域本体是指应用本体论的基本方法,通过中医概念提取、关系提取,把中医知识体系中的名词术语抽象为一组概念与概念之间的关系的理论和方法。中医领域本体是主要用于描述中医领域知识的专门本体。它给出了中医领域实体概念及相互关系、领域活动以及该领域所具有的特性和规律的一种形式化描述。
中医领域本体的构建是由中医领域专家通过分析中医概念术语间的语义关系和中医辨证论治的层次关系,完成中医辨证论治基础本体的构建,并给出中医知识的共享模型的明确的形式化规范说明。中医领域本体 (本系统中的中医领域本体雏形) 的构建过程如下:
⑴ 确定概念,添加本体中的概念;
⑵ 建立概念之间的关系。
1.3 数据库的设计
据中医药方剂的特点,同时考虑了以后的关系计算,我们按照病人就诊的过程设计了数据库。其中包括一诊、二诊等过程,以及望、闻、问、切等诊疗手段;同时,还包括方剂的组成,症状,证型等方剂本身的特点和数据,如图2所示。
图2数据库结构图
2 关系计算
通过概念提取过程找到了领域内的概念,那么如何将这些概念联系起来,还需要我们分析这些概念间的关系。概念间存在各种各样的关系对于我们来说,完完全全地自动分析这千万种关系是没有必要的,同时对于系统来说,也是很难实现的。在我们的系统中,我们主要考虑相连和同义关系。我们可以通过关联规则、语义相似度判断等方式寻找这两种关系。
关系计算的主要目的就是发现中医药不同属性之间,不同元素的关联程度以及它们之间可能存在的关系,通过在数据库中寻找,根据它们的关系计算出它们的相互信息量和条件相互信息量,为下一步的应用PIBLO算法自动生成图结构做好必要的数据方面的准备。
3 图模型的生成
图模型是进行图挖掘理论研究的基础,将现实世界中各种各样的图抽象出来归纳总结为图模型,便于分析和研究,也有利于在各领域实现研究思路和方法的统一。图模型可以帮助模拟研究现实中的图,将现实中的大图缩小成与其相匹配的小图便于研究、分析和计算。但要将现实中千差万别的图抽象在无向图中,需通过描述结点之间是否有边相连来确定节点间的关系;类似地,在一个多元概率分布中,我们可以通过独立性和条件独立性来描述变量之间的关系。利用概率分布的马氏性(Markov Property)把两者对应起来,这就产生了图模型。
图模型结构学习的关键在于识别数据中蕴含的独立及条件独立关系。我们主要依据相互信息量(mutual information)和条件相互信息量(conditions mutual information)来度量独立性及条件独立性。
定义1 令X和Y为两组互不相交的随机向量,f(x)和f(y)分别为它们的密度函数,而f(x,y)为(X,Y)的联合密度函数,则X和Y之间的相互信息量为:
令X,Y和Z为三组互不相交的随机向量,f(x|z),f(y|z)和f(x,y|z)分别为Z给定时,X,Y的边缘条件密度和联合条件密度,而f(x,y,z)为(X,Y,Z)的联合密度。则尤和y在Z给定时的条件相互信息量为:
Penalized Information-Based Local Optimization(PIBLO):以从表示在算法t层循环时Xi的邻居集,对于所有的i∈V重复如下步骤:
步骤1:初始化,令t=0,;
步骤2:令,找到使得S(Xi,X*∪)最大,即
;
步骤3:如果,则,并回到步骤2执行第t+1层循环;否则,并转入步骤4;
步骤4:对任意的,如果,则将Y从对中除去,即以来更新。最终得到的即为Xi邻居集Ni。
在实际应用中,我们可以用重抽样(bootstrap)技术来评价算法所找到各个边的稳健性。通过对观测数据进行重抽样并对每一个重抽样数据集重复上述算法,我们可以得到一组图,从而可以得出每一条边的出现频率。通过设定阀值,我们就可以剔除掉部分不够稳健的边。
4 实验结果
经过上述的处理过程,已经形成了基本的图结构。以下是针对本系统数据库中两万多份与中风相关的中医医案提取的药物的图集结果,如图3所示。
图3结果图
参考文献:
[1] 杨晓恝,蒋维,郝文宁.基于本体和句法分析的领域分词的实现[J].解
放军理工大学工程兵工程学院,2008:26-28
[2] 方鸷飞.中文文本体裁的自动分类机制[D].大连理工大学计算机应用
技术系,2005:32-70
[3] 张晓淼.基于神经网络的中文分词算法的研究[D].大连理工大学控制
理论与控制工程系,2005:26-68
[4] 邓柯.图和词典模型在统计方法和应用[D].北京大学,2008:7-11