基于机器学习的现代中医药成分分析

2018-01-31 16:46刘祯
中国科技纵横 2018年1期
关键词:机器学习人工神经网络数据挖掘

刘祯

摘 要:中医药学已经有三千多年的历史了,在当代科技突飞猛进的过程中,中医药又焕发出了新的生机,在科研投入与成果、临床研究与效益、国内人才培养与国际化等方面都取得了不菲的成绩。而机器学习作为21世纪的新兴科技,在数据挖掘、大量数据处理等方向具有得天独厚的优越性。本文将机器学习与现代中医药理论结合,从中医文化精髓进行分析,介绍了中药指纹图谱数据处理技术,结合机器学习与神经网络,设计了一种利用机器学习进行中医药成分分析的方法,最后,对于人工智能与中医药的结合进行了总结与展望。

关键词:中医药;机器学习;人工神经网络;数据挖掘

中图分类号:TP301 文献标识码:A 文章编号:1671-2064(2018)01-0196-02

1 引言

中医药是一门发源于中国黄河流域的经验学科,很早之前就形成了一门具有特色的学术体系。而在当时的条件下,还没有进行农业生产,当时的主要情况就是“饥则求食,饱既弃余”,人们在采摘不同的食物时候,会发现有些食物好吃,有些不好吃,有些甚至有毒,有些却可以解毒。例如,吃了大量的大黄,会引起腹泻;吃了瓜蒂,可导致呕吐;而吃了,或者涂抹了薄荷,却可以去除蚊虫之患。这样,人们就渐渐懂得了应该吃什么样的东西,什么样的东西却不能碰,甚至,可以有意识地寻找某些能治病的植物。这样,经过一个人的长时间的实践,甚至经过一个部落长时间的总结,药物也就渐渐被发现了。这样看来,药知识的累积就是一个十分长久,长达几千年,并且自主应用“机器学习”的方法的过程。在漫长的历史过程中,人们对药物的应用越来越成熟,逐渐出现了许多中医药领域的名医,并且出现了不同的学派,各个朝代和中医从业者编著了大量相关的名著,并流傳下了不断被后人研究的基础中医配方。中国历史上有人人皆知的“神农尝百草”的传说,这反映了历史中各个时期的人民群众在与病痛、与大自然的不断反抗过程中发现中医药物、累积经验的漫长历程,也真实描写了中医药的起源。由此可看出,中医药是几千年中国劳动人民的智慧结晶。大量的经典书籍、历代积累的方剂及现代人们在实践中产生的中医药数据很难依靠人工处理的方法进行中医药理论基础的研究。中医药的积累是我们人类进行机器学习的过程,当机器出现之后,我们让机器人完成这个过程,进行机器学习,大大缩短了这个学习过程。

认识中药及方剂的药效物质及其作用机制在20年前是一件很难实现的事情,但是随着HPLC、质谱、光谱、核磁等先进仪器和分析技术不断进步,给中药化学成分的认识、药效/毒性物质的分析、作用机制的探究、体内过程的解读、质量标准的建立等提供了技术保障,今天的科学家已经可以在较短的时间内基本解析复方的药效物质及作用机制,许多研究成果转化为药典标准和行业标准。现在,我们就可以利用机器学习,来进行更细致的成分药理的分析,甚至逆向推断病症所需要的药方。

2 中药指纹图谱数据处理技术简介

在进行中药的分析过程中,我们一般采用模式识别的方法,因为中药的指纹图谱数据是非常复杂的。利用指纹图谱技术,我们可以获得一味中药其中所含的复杂化学成分的情况,而根据相关的文献来看,在相似度的评价过程中,有很多种数学算法可以利用,例如峰重叠率法也叫,Nei系数法;共有峰强度结合法,也名改进的Nei系数法;相关系数法也是一种比较常用的计算方法,其通过图谱间的相似性评价相似度;另外还可以使用差异评价的距离系数法和向量夹角余弦法等方法。根据文献报道,相似度的评价主要这些方法都有各自的特点和应用范围。

各种的计算方法都有其优缺点,在实际的计算中,最重要的任务是如何在不同的情况下使用不同的相似度评价方法。由于在在中药品种的使用过程中,很多都是非线性相关的,并且很多和药物的量关系不大,这时候在鉴定中常用的方法有Nei系数、夹角余弦与相关系数法,但是如果碰到药物的量与质量会对结果产生较大影响的时候,使用改进的Nei系数法和距离系数法可以解决这样的问题。

另外,很多方式还可以对于其中的指纹图谱还可以进行相似度的评价改进,例如Nei系数法、距离系数法、相关系数法,在这几种方法中,容易探测出大峰的差别的为相关系数和夹角余弦法,而小峰探测Nei系数有很大的优势。距离系数一直对于各种峰都能达到波动的探测。除此之外,在进行这些图谱分析与相关性分析时候,也要进行数据的标准化处理。

3 机器学习与神经网络

机器学习,也叫machine learning,是伴随着计算机的出现而出现的人工智能化的新概念,机器学习有很多的定义,我们选取其中的一种:“机器学习是用已有的数据或以往的对应关系,以此自动改进计算机程序的性能标准。”机器学习已经有了十分广泛的应用,例如:安防,医疗健康,教育,电商零售,金融,智能汽车,机器人等领域。

机器学习有很多种分类方法,我们在这里进行了基于学习策略的分类,也就是通过学习过程中的推理策略的不同来进行的分类。不同的学习策略有不同的难易程度,我们主要分为以下几个基本类型,其难易程度是递增的。首先是机械学习,然后是示教学习进而是演绎学习,难度更高的是类比学习紧跟其后为基于解释的学习,最后,难度最大的机器学习方式为归纳学习。

另外,在机器学习的领域,经常会用到人工神经网络这个工具。人工神经网络,英文名为Artificial Neural Network,简写为ANN,是在现代神经学研究的成果的基础上发展起来的可以完成学习、记忆、识别和推理等功能,来模仿人脑进行信息处理的网络系统。目前,神经网络的理论研究已经非常深入了,但是还是有很大的发展空间,向量机等新的概念也不断出现,我们在进行神经网络的训练后,可以得到输入与输出之间中间层的权重矩阵,从而进行很多非线性对应关系的分析计算。

4 利用机器学习进行中医药成分分析的设计

在中医药数据挖掘的研究上,可以建立BP神经网络来反应各个药物之间以及药物和病症之间的关系。BP神经网络是采用误差反向传播算法进行误差校正的多层前馈网络。这种神经网络所采用的误差反向传播算法(Error Back Propagation Training),也叫做BP算法,它的优点在于可以系统解决多层神经网络隐含层链接权学习问题,并给出完整的数学推导。用这种算法校正的神经网络,可以解决简单感知器所不能解决的异或(Exclusive OR,XOR)和一些其他问题。endprint

BP算法的计算方式是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。应用到中医数据挖掘的研究中时,先通过现代化学手段建立药品成分指纹库,再通过临床建立症状解决库,然后与中药药品库相联系,通过BP神经网络,使用模糊算法可以得到药方与中间层,也就是反应方剂的矢量关系,另外也可以通过中间层与症状库之间的矢量矩阵得到反应方剂与病症的关系,从而可以得到药物中哪些成分可以解决哪些病症,从而实现中药的“化学化”,另外,我们还可以对已有的矢量进行逆推,从而得到药剂的配置和获得新的可能的药方。但因为新药方是通过模糊算法得到的理论上成立的药方,并不能代表此药方在实际情况下适用,因此要经过多次试验以后,才能投入临床治疗,如图1。

5 结语和展望

我们在进行现代中医药成分分析时,需要进行大量的计算来完成分析,这些中医药数据在计算时,需要处理模糊、不完整及非线性特征,而数据挖掘技术在这方面有着巨大的优势,可以准确,完善,且快捷的处理这些数据。因此,数据挖掘与人工神经网络在现代中医药成分的分析过程中起着积极有效的作用,我们就是前文中提出的模型期望获得中医药成分的药理结果和可能药方的调配。但是,此项技术目前仍处于初步发展的阶段,并不完善,不能适用于大部分领域,我们仍需要进一步的探索,去投入更多此领域的研究。

参考文献

[1]李红.基于机器学习的中医药配方评估研究[D].南京大学,2016.

[2]岳振宇.基于机器学习的天然产物抗肿瘤和免疫调节活性研究[D].安徽大学,2016.

[3]秦延斌.基于中医核心思维的机器学习医用诊疗系统设计[J].中华中医药学刊,2015,(09):2188-2191.

[4]张伯礼,张俊华.中医药现代化研究20年回顾与展望[J].中国中药杂志,2015,(17):3331-3334.

[5]邓宏勇,许吉,张洋,袁敏,施毅.中医药数据挖掘研究现状分析[J].中国中医药信息杂志,2012,(10):21-23.

[6]任廷革,刘晓峰,张帆,孙燕,汤尔群.计算技术对中医方剂知识的挖掘[J].科技导报,2010,(15):31-35.

[7]马丽伟.关联规则算法研究及其在中医药数据挖掘中的应用[D].南京理工大学,2009.

[8]麦乔智.数据挖掘模型的创建及其在中医药文献中的应用研究[D].南京中医药大学,2009.

[9]刘建平,张柯欣,杨钧.数据挖掘技术及其在中医药领域中的应用[J].辽宁中医药大学学报,2007,(06):203-204.

[10]孫燕.基于机器学习技术的《伤寒论》方证分析方法研究[D].北京中医药大学,2007.

[11]尹耀慧,金益强,易振佳.人工神经网络在中医药现代化研究中的应用[J].中医药导报,2006,(09):83-85.

[12]李运贤,杜瑞卿.生物信息学中机器学习方法对中医药复杂系统的研究[J].中医药学刊,2006,(07):1296-1297.

[13]蔡越君.数据挖掘技术及其在中药配伍系统中的应用研究[D].浙江大学,2003.endprint

猜你喜欢
机器学习人工神经网络数据挖掘
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
基于并行计算的大数据挖掘在电网中的应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
基于声发射和人工神经网络的混凝土损伤程度识别
基于GPGPU的离散数据挖掘研究
波信号的解调和人工神经网络的损伤识别算法