中药方剂数据挖掘中的数据预处理研究

2011-12-31 00:00:00
电脑知识与技术 2011年17期


  摘要:中药方剂的数据挖掘是在中国传统中药方剂中,应用数据挖掘方法,在中医理论指导下,探寻药物之间的相互联系和整体用药规律。对中药方剂的数据预处理研究,是将药物的四气五味、功效、归经、有无毒性等信息转化为数字信息,从而在进行中药方剂数据挖掘中更为精确,为中药方剂研究和临床实践研究提供理论参考。
  关键词: 数据挖掘;中药方剂;数据预处理
  中文分类号:TP315文献标识码:A文章编号:1009-3044(2011)17-4016-02
  1 绪言
  中国悠久的中医药文化,是我国璀璨的文化瑰宝。随着现在社会的发展,人们越来越重视到中医药的强身保健作用。中药方剂是中医药文化的重要组成部分,如何对数目庞大的手工汇总的中药方剂进行定量和分析,已经成为实现中药现代化的重要工作。中药方剂的数据挖掘研究,就要将我国丰富的中药资源和信息技术相结合,通过整理庞大的中药文献资料,为中药信息处理、转化及传播现代化做好准备工作。
  中药方剂的数据挖掘研究,是将知识发现理论运用在中药的作用机制、中药方剂配伍规律、中药的药性功效关系等方面。在中药方剂的数据挖掘工作中,数据预处理是重要的数据准备与处理过程,工作量将占到50%以上。由于中药方剂多为手工记录和汇总,同时我国地域广大,中医药文化带有地域性差别,这也给中药方剂的数据预处理工作带来了难度。
  2 中药方剂数据挖掘的发展
  目前我国尚未建立比较完整的中药方剂数据挖掘系统,现有数据库只能提供检索、统计等一般性服务,其包涵的大量隐含知识并未得到充分的挖掘和利用。由于国外使用数据挖掘技术较早,西药的新药开发研究已经大量利用数据挖掘技术。
  随着在世界范围内,中药的功效越来越受到人们的重视,中药产业的发展前景也更加广阔。因此,加快中药方剂的数据挖掘工作,不仅可以提高我国现有中药数据库的利用价值,缩短我国中药新药开发的周期,还可以避免中药信息资源的流失,真正提高我国中药产业在国际上的竞争力。
  经过多年的努力,我国中医药界已经有一批科研院所及大专院校建成了一定数量的中医药文献型和事实型数据库,初步满足了中医药界文献检索的需要。如国家中医药管理局建立的“中医药期刊文献数据库”、“中医药报刊文献数据库”,北京中医药大学建立的“中药方剂数据库”, 北京中医研究院建立的“中国中药数据库”,浙江大建立的中医药科技数据库群等。
  但是目前建立的大多数中药方剂数据库,只能提供检索和统计的服务,而没有对隐含在数据中的大量隐藏信息进行有效的利用。如何进一步深入将数据挖掘技术应用在中药方剂的研制和中药配伍的过程中,将为我国的中医药理论研究提供新的思路和方法,为新药的研制带来更大的发展契机。
  3 中药方剂的数据预处理
  对中药方剂数据挖掘进行预处理,目的是初步将中药方剂转化为便于处理的数据。中国几千年的中医药发展历史,积累了大量的文献资料,但是由于其中包含的大多为医药实践的原始记录和经验,没有经过系统的整理,规范化程度比较低,所以对方剂信息进行预处理是非常必要的。而且由于数据挖掘工作对数据的要求比较高,数据预处理在整个数据挖掘过程中占有超过一半的时间,这也给中药方剂的数据预处理带来了更大的难度和更多的工作量。
  为解决以上问题,模糊集理论、数据规约技术等提高了很好的适合中医药数据挖掘的预处理方法。通过对中药方剂进行预处理以后,可以更好的发现各种药物之间的关联和功效之间的影响关系,为中成药的新药研制提供理论支持。
  数据预处理主要是对数据进行规格化操作。在正式进行数据挖掘之前,尤其是使用基于对象距离(distance一based)的挖掘算法时,如神经网络、k一最近邻分类(nearestneighborclassifier)等,必须进行数据规格化。也就是将中药数据信息转化为可操作信息并缩至特定的范围内。中药本身具有相当丰富的信息,包括药物的四气五味、功效、归经、有无毒性等方面。四性和五味不仅反映了药性特征,通过气味和合,又进一步决定方剂之性能,因此是重要的方剂信息。但中医对四性的认识是比较模糊的,为了在对方剂中的药物进行数据挖掘分析更为精确,研究中对上述信息转换为数字化形式。
  在中药方剂数据库中,对于方剂表、症状表由于历史的传承以及方剂多为手工记录的原因,存在着空白字段、重复数据、中药名称和症状描述不规范等现象,经过预处理流程的修正和过滤,可以建立符合数据挖掘的规范标准。
  1)对噪声数据的处理
  由于中药方剂的历史跨度很大,有的药物命名和症状的表述,在不同的朝代都是不一致的,而且多为人工记录,这样造成了噪声数据很多。如果对于这些噪声数据处理的不好,会直接影响到后期的数据挖掘效果。首先应该对数据库中的缺损数据、重复数据进行筛选和过滤,同时对错误数据进行修改。
  在中药方剂描述中,常出现一词多义、词义模糊、语义重叠等现象。如“眩晕”一词,在《中国中医药主题词表》中解释为“眩是眼花,晕是头晕,统称为眩晕”。但是使用这个词描述单独出现的症状是不合适的,也不便于后期进一步进行症状的数据分析。因此对于“眩晕”可以用“头晕”和“目眩”两个词来代替,这样对症状的描述更合理。
  2) 不完整数据
  不完整数据是指对象的属性没有值。产生不完整数据的原因主要有:有的数据由于历史的原因没有保留下来;由于设备的故障或者是误解致使没有记录;有些方剂的属性数据在传承过程中,被认为没有必要而被人为的删除等。
  中药方剂数据中很多存在不完整数据,如药名、药物剂量、症状等都存在缺损的现象。其中,由于方剂多为手工记录的原因,造成剂量数据的缺损最为突出。对于这些问题的解决方法,可以采用回归分析、贝叶斯算法来推断出属性的最大可能值,这是采用的解决办法。
  3)中药名称规范化
  建国以后,我国中医药名词术语规范化的工作取得不少成绩,但和现代术语学的标准,还有相当大的差距。在实际工作中,不规范的名词术语常常见诸书刊,造成混乱。比如胸痹、心痛、真心痛、胸痛、厥心痛、卒心痛、暴心痛,临床上使用混乱。至于药名,则更为杂乱。如金银花,又称银花、双花;淫羊藿,又称仙灵脾。随着计算机在中医药领域的应用越来越广泛,也出现了一些问题。特别是名老专家诊疗系统、方药数据库等应用中,中药名称不规范是出现问题的重要原因之一。
  中医药学历史悠久,加上我国地域辽阔,方言从多,中国传统文化特色浓厚,以及少数民族医学、外来医学的影响,使得中医药名词术语规范化工作的任务尤其艰巨。
  4)数据转换
  数据转换是对数据进行规格化处理,将数据转换为可操作的信息,并将其值控制在指定的范围里。
  在中药表述中,反映药物特性的四气五味、功效、有无毒性等信息,多是用文字形式表达,为了在对方剂中的数据进行挖掘的时候,保证结果更加精准,需要将这些文字信息转化为数字形式的数据。如将寒热温凉四性采用编码的形式表示,将五味酸甘苦咸辛分别用1、2、3、4、5编码表示,将药物的毒性大小用浮点形式的数据表示等。
  在中药方剂的表达方式中,剂量的表述很不规范。由于历史的原因,剂量多以“斤、两、钱”表示。由于不同的历史朝代,对于重量的计量单位都是不一致的,所以要根据方剂的年代,换算出统一的重量数据,最终要将其转化为现代的“克”来表示。
  4 总结
  由于方剂中的药物不仅关联而且大量药物之间存在在相互的药性作用,所以进行数据的预处理,能够很好的降低后期数据挖掘过程中的数据噪声度。在此基础上,进一步利用数据挖掘算法,找出药物之间的关联规则,探寻到具有更好疗效的中药组合,从而真正的将现代信息技术和传统中医药理论更好的结合在一起。
  参考文献:
  [1] 王欣.基于数据挖掘技术的医药信息整合进程研究[J].齐齐哈尔医学