数据挖掘技术在中医药研究中的应用

2019-12-01 11:24甘枥元郭超峰
电子技术与软件工程 2019年16期
关键词:方剂数据挖掘证候

文/甘枥元 郭超峰

1 数据挖掘技术的过程与方法

数据挖掘归属于计算机科学的范畴,是数据库知识发现中不可或缺的重要步骤之一,具体而言,数据挖掘就是从海量的数据中,依托相关的算法,对隐藏在这些数据中的信息进行搜索的过程。数据挖掘技术的提出有其必然性,在进行数据挖掘的过程中,对诸多先进的思想进行了借鉴和利用,如统计学的抽样与假设、AI中的搜索算法及学习理论等等,由此使数据挖掘日渐成熟和完善,应用领域也随之拓宽。

1.1 过程

对于数据挖掘而言,由于需要从海量的数据中找出有利用价值的信息,从而使得整个挖掘过程相对比较复杂。常规的数据挖掘步骤如下:

Step1:问题分析。这是数据挖掘的开始,具体是指对数据及相关的业务问题进行理解,在此基础上提出问题,并对目标进行定义;

Step2:准备数据。这是数据挖掘中较为重要的步骤之一,包括对数据的提取及校验。需要先获得原始数据,从中抽取子集,并将这些数据子集放在数据模型兼容的数据库当中,再以清洗的方法,将不兼容的数据剔除掉,利用剩余的数据创建挖掘库;

Step3:建立模型。将相关的算法在模型上进行应用后,能够得到一个与实际问题相关联的结构,通过对该结构中的数据进行浏览,对源数据进行确认,据此生成模型,该模型中包含一些重要的特征;

Step4:编写查询程序。当数据模型建好之后,可使用相应的编程语言和工具,如VB等,对前端查询程序进行编写;

Step5:模型维护。因数据模型中初始数据的一些特征可能在使用的过程中发生改变,所以需要对模型进行定期维护,以此来确保数据挖掘精度。

1.2 方法

数据挖掘方法的种类较多,比较常见的有以下几种:统计、机器学习、神经网络、数据库等等。

1.2.1 统计

这是数据挖掘中较为经典的一种方法,包括抽样技术、多元化统计分析以及预测等。

1.2.2 机器学习

这种数据挖掘方法中,较具代表性的有归纳学习,如决策树;范例学习;遗传算法以及粗糙集等等。其中遗传算法能够获取全局最优解,而粗糙集可以有效处理完整程度低以及不确定的问题。

1.2.3 神经网络

这是一种通过模拟人的神经元,按照人脑的思维方式解决相关问题的方法,最终获得的结果可用于分类与回归。神经网络突出的特点在于能够对含有噪声的数据进行处理,并且还可以对一些非线性数据进行处理。

1.2.4 数据库

这里的数据库是一种分析方法,可对多维数据进行分析,其存储结构的主要作用是对数据进行高效检索,适用于聚合数据。

2 中医药研究中数据挖掘技术的具体应用

中医药是涵盖内容极为丰富的医药学体系,其除了具有悠久的历史之外,还有着独特的理论与技法,是我国医药卫生事业的重要组成部分之一,与现代西方国家的医学体系并立。中医药信息的特点体现在如下几个方面:信息既多且杂,并且形式多种多样;专业数据不规范,信息较为模糊;中医药的方法论具有传承性。为促进我国中医药事业的稳定、持续发展,可在中医药研究领域中,对数据挖掘技术进行合理运用,以此来实现中医药特色研究不断突破的目标。下面对数据挖掘技术在中医药研究中的具体应用进行分析。

2.1 在中药方剂研究中的应用

中药方剂即治病的药方,是中医药研究的重点领域之一,较具代表性的药方有《神农本草经》、《金匮要略》、《千金要方》等等。方剂是中医治法实现的前提和基础,不同的方剂在治疗各种疾病中所能起到的作用均不相同。大部分的方剂是由四个部分组成:君药、臣药、佐药和使药,通过对中药的选择及配伍,能够配制出各种药物,从而满足治病救人的需要。在中药方剂研究中,对数据挖掘技术的合理运用,能够找到方剂中各类中药的配伍规律,进而发现方剂与病症之间的内在联系,揭示方剂的功效,为临床医师开具处方及合理用药提供指导。

如,可运用数据挖掘中的频繁项集与关联规则,对治疗呼吸疾病的中医方剂中的中药成分及规律进行研究分析,由此可得出如下结论:在选取的500个方剂中,甘草的使用频率最高,置信度达到52.5%,苦杏仁、五味子、麻黄及人参这四味中药次之;在500个方剂中,苦杏仁与麻黄同时出现的比例为92.5%,说明二者适宜配对使用。在治疗呼吸困难的方剂中,甘草和麻黄配对使用的较多,而在清热化痰的方剂中,配对使用的中药有甘草与半夏、苦杏仁与半夏。又如,可以利用双向关联规则挖掘算法,将支持度小且对方剂意义不大的药对排除掉,再通过聚类分析法,对挖掘出来的药对进行功效总结,进而得出治疗脾胃类方剂中,药对的配伍规律,其中使用频率较高的药对为白术与茯苓、陈皮与茯苓、白术与人参,配以甘淡、苦温等方面的中药,可以起到化湿、健脾、理气的功效。在中医方剂的研究中,数据挖掘最终获得的结果,与药物的配伍规律相符,可为医师开具处方提供指导。

2.2 在中医诊断中的应用

2.2.1 四诊客观化

中医诊断是中医药研究的重点领域,具体是指在中医基础理论的指导下,对诊察病情、辨别病症的方法和技能进行研究。中医诊断是基础理论与临床的桥梁,其重要性不言而喻。中医四诊包括望、闻、问、切四种诊断方法,四诊客观化是实现中医诊断客观化的前提和基础,而数据挖掘技术则是四诊客观化对相关文献处理的有效途径之一。例如,可将中医的病案与脉诊和舌诊理论进行有机结合,据此构建OLAP系统,即中医病案联机分析处理系统,依托该系统对实际案例进行研究,从而了解当代名医对脉诊和舌诊的认识,掌握脉象、舌象与患者病症之间的相关性。

2.2.2 临床诊断

对于中医临床而言,诊断的主要作用是对治疗方案进行确定,对方剂的使用进行指导,从而达到调理康复的目标。因此,中医诊断的正确性尤为重要。由于中医临床的部分疾病具有错综复杂的特点,为此,可在中医临床诊断中,对数据挖掘技术进行合理运用,借助分析分类的方法进行疾病诊断。例如,可以利用数据挖掘中的贝叶斯学习分类法,对男女患者的CT图像进行自动诊断;借助机器学习的方法,对重症患者的呼吸压力进行分析。在中医药研究中,数据挖掘技术的应用越来越广泛,由此使得中医药海量数据信息的处理成为可能,对于促进中医诊断学研究水平的提升具有重要的现实意义。

2.3 在证候研究中的应用

在中医学中,证候是一个专业术语,是具有关联性的症状总称,即通过四诊获得的疾病在机体上的反应状态及变化情况。对中医证候进行研究的过程中,需要使用方法学,而数据挖掘技术的出现,为证候研究水平的提升提供了技术支撑。目前,基于数据挖掘的中医证候研究呈现出逐步增多的态势,并且其中部分研究取得了突破性进展,通过各种数据方法的联合运用,能够对中医证候的特点进行区分与归纳,从而为辩证治疗提供支持。例如,可以采用样本聚类分析的方法,找出胃脘痛的证候特点,再通过回归分析的OR值,可对胃脘痛证候的量化诊断进行深入探讨,从而为临床辩证治疗提供依据。又如,可利用决策树C4.5算法,构建中医辩证模型,对慢性胃炎的中医证候进行鉴别诊断。

2.4 在中医针灸中的应用

针灸是一种治疗疾病的方法,分为针法和灸法。目前,针灸已经被正式列入国家级非物质文化遗产名录当中。针灸是一种内病外治的传统医术,是中国医学遗产的一部分,通过针灸能够疏通经络、调和阴阳,很多疑难杂症都可以采用针灸进行治疗,并且疗效显著。尽管现代医学快速发展,但中医针灸却仍然在医学界中占据一席之地,这种治疗方法的传承与发展有其重要性和必要性。利用数据挖掘技术,对针灸治疗各种疾病时的用穴特点进行研究分析,能够帮助医师更快地掌握针灸的方法,对于促进该医疗手段的发展具有重要作用。例如,借助数据挖掘技术中的多层关联规则,可对针灸治疗心绞痛的用穴特点及规律进行分析,从而得出中医针灸在治疗心绞痛方面使用频率较高的经络和穴位为心包经、膀胱经以及任脉。内关则是使用频率最高的腧穴,膻中穴和心俞次之。从中发现,在针灸治疗心绞痛时,有8个特定的穴位,配伍则是以这些穴位为主。该研究结果对于促进针灸疗法的改进和发展意义重大。

3 结论

综上所述,中医药研究是一项非常重要的工作,尤其是在医疗技术快速发展的今天,中医药仍然占据一席之地。由于中医药有着悠久的历史传承,在这一过程中形成大量的数据信息,为从这些数据中发现更多有价值的信息,可对数据挖掘技术进行合理运用,由此能够推动我国中医药事业的持续发展。

猜你喜欢
方剂数据挖掘证候
肥胖中医证候动物模型研究进展
中药方剂在治疗黄褐斑中的应用
《金匮要略》黄芪类方剂探析
论方剂的配伍环境
基于并行计算的大数据挖掘在电网中的应用
甘草在方剂中的作用及配伍规律
一种基于Hadoop的大数据挖掘云服务及应用
昆明地区儿童OSAHS中医证候聚类分析
基于GPGPU的离散数据挖掘研究
慢性乙型肝炎的中医证候与辨证论治