杨巍,文小平,郭晶磊
论著·中医药信息学
以法统方结合机器学习探索中医温胆治法沿革
杨巍,文小平,郭晶磊
上海中医药大学基础医学院,上海 201203
以温胆治法的清温倾向沿革为例,探索以法统方结合机器学习的中医治法研究方法。根据以法统方原理,将中医治法比较转化为方剂集合的比较,通过方剂药物组成变化研究治法的变化。建立并应用随机森林模型,量化比较2组或多组方剂集合的相似性,即不同治法之间的相似性。在《三因方》之前,温胆治法与温法的相似性为75%;在《三因方》之后,温胆治法与温法的相似性为19%。中医温胆治法在《三因方》之前以温法为主,之后则倾向于清法。以法统方结合机器学习方法建立模型可用于中医治法领域的量化研究。
方剂学;中医治法;机器学习;随机森林;温胆治法
以往中医治法研究多为回溯性研究,总结某个治法筛选出的方剂集合内部的规律;其更多作为一个分类工具,依附于其他研究对象如专病或特定医家的组方用药等。不同治法之间的关系一直是中医方剂研究的盲点。
以法统方是对治法和方剂关系的高度概括,包括依法遣方、以法组方、以法释方和以法类方四方面[1]。其数据挖掘领域的本质是对于治法与方剂组成关联数据集的研究。通过以法统方,在给定样本总体范围内,可以将2种治法的比较问题转化为其所代表的2个方剂集合的比较。随机森林是机器学习中一种高级分类技术,通过随机放回抽样,削弱数据间的相关性,构建大量的规则树,进而通过简单投票判断类别,实现对学习样本集合规则的较优拟合[2]。与其他常见基于连续数据的算法比较,随机森林有适用性广泛的特点,尤其是对离散数据的拟合[3]。方剂集合的组成数据为离散型,适合运用随机森林算法。
温胆是针对胆寒病机的治法,源自《备急千金要方》“治大病后,虚烦不得眠,此胆寒故也,宜服温胆汤方”[4],学术界对于温胆治法是温胆还是清胆有诸多讨论[5-8]。本研究基于以法统方理论,将治法的比较转化为方剂集合的比较,再通过机器学习模型对方剂集合进行量化比较,从而量化“温胆治法”与温法、清法的相似程度,厘清温胆治法清温倾向的沿革,以更好地继承和理解历代医家的认识。
针对温胆治法的温清倾向,“温胆治法”与“温法”的比较可以转化为温胆治法的方剂集合与温法方剂集合的比较(V温胆/V温法),“温胆治法”与“清法”的比较可以转化为温胆治法的方剂集合与清法方剂集合的比较(V温胆/V清法)。在给定样本总体范围内比较2个方剂集合的问题,可通过随机森林算法转化为以一个方剂集合建模,另一方剂集合应用模型的形式,量化比较2个方剂集合的相似性。以“温胆治法”方剂集合(V温胆)与“温法”方剂集合(V温法)比较为例:先由V温法和“清法”方剂集合(V清法)生成研究范围内的温法辨别模型(F温法),则V温胆/V温法=F温法(V温胆)/F温法(V温法)=F温法(V温胆)。也就是近似地建立一个含有几百个方剂学专家的辨别模型系统,通过投票来量化V温胆与V温法的相似性,即“温胆治法”与“温法”的相似性(见图1)。同理,V温胆与V清法的比较即F清法(V温胆)。
图1 温胆治法与温法相似性辨别基本逻辑图
采用《中医方剂大辞典》(第一版)[9]的清法和温法方剂组成数据,基于随机森林算法构建温法辨别模型F温法(见图2),运用模型判别温胆治法对应方剂是否属于温法,通过其被判别为温法的比例F温法(V温胆)分析温胆治法与温法的相似性(见图3)。同理可获得温胆治法与清法的相似性。
图2 温法辨别模型训练图
图3 温法辨别模型应用图
将《中医方剂大辞典》(第一版)共15 163首具有功用字段的方剂导入数据库。以“清热”等50个治法关键词检索获得清法方剂2110首,以“散寒”等39个治法关键词检索获得温法方剂968首,两者构成学习集;以“胆寒”“胆冷”“胆虚冷”“温胆”为关键词检索获得温胆治法方剂48首,构成应用集。
排除清温并用的方剂25首、与胆有关的治法方剂1首。提取方剂组成字段的中药,剔除剂量、炮制和服法等信息,根据《中华人民共和国药典》[10]、《中华本草》[11]、《中药大辞典》[12]、《中药学》[13]、《中药别名速查大辞典》[14]对药名进行规范。
从随机森林调参效率角度,将学习集中出现30次以上的中药(共192味)作为随机森林的构成参数。
袋外错误率是一种取代测试集的误差泛估计[15]。使用R语言,调用randomForest包,通过不断人工调整参数,以较低袋外错误、较高学习集正确率,选定参数try=19、nodesizes=15、ntree=1500,其他参数使用默认值。通过set.seed保证随机模型的可重复性,不断人工调整参数,以袋外错误率0.09、学习集正确率0.96,选择为“温法辨别模型”。同理获得相同袋外错误率和学习集正确率的清法辨别模型。
使用温法辨别模型对应用集(温胆治法方剂集)进行判断,获得温胆治法的总体温法相似性为31%。同理获得温胆治法的总体清法相似性为69%。
在温法辨别模型、清法辨别模型判断应用产生的数据结果基础上,以《中医方剂大辞典》(第一版)为数据来源,补充方剂出处(方书)的成书年代,作为该方剂的出现时间。历代温胆治法方剂增长趋势图见图4。在1174年以前,即《三因方》出现之前,新增加的温胆治法方剂多倾向于温法,温胆治法与温法的相似性为75%,与清法的相似性为25%,组方多为含有肉桂、附子、乌头的温补之剂,可见温胆治法早期主要为温法;在1174年及以后,即《三因方》出现后,温胆治法方剂多倾向于清法,与温法的相似性为19%,与清法的相似性为81%,尤其在明代方书整理过程中,温胆的清法特性被加强,甚至将温胆默认为清法,其源头为《千金》温胆汤[16],可见温胆治法后期倾向于清法。
图4 历代温胆治法方剂增长趋势图
随机森林相对其他简单分类方法难以解释,只能从结果进行逆向推测,且调参困难,对失衡分布学习集效果不佳,故本研究在构建学习集时,尽量平衡数据,采用样本加倍的方式构建清法学习集。随机森林结果具有随机性,本研究通过set.seed保证可重复性。针对不同模型结果不稳定问题,改进为建立5个同参数不同随机数(不同seed)的模型,各模型结果基本与原模型结果分析无差异。
对于单个方剂,剂量、味数、炮制和服法都是影响其清温倾向的重要属性。但对于方剂集合来说,其中某个方剂的特殊剂量等信息对整体属性影响有限。从大数据角度,个别偏差会被排除,药物组成是方剂集合最主要的属性特点,因此,本研究虽然仅采用药物组成建模进行研究,仍可大致反映方剂集合的整体属性。如将药物剂量、味数、炮制和服法也纳入分析,数据模型分析结果会更加全面和准确。
本研究建立的方法可运用于各种治法相似性研究,以及基于治法相似性的古方、古法的传承脉络探索研究。经过一定变化,可以运用于中医疾病的异名准确性研究(如消渴各种异名的相对准确性),以及现代病名与古代病名的对应关系研究(如骨质疏松症对应的古代病名)。本方法变换后可应用于基于对应方剂的各种中医基本概念量化比较,如以五脏方剂集构成学习集,三焦方剂集构成应用集,可以从方剂组成角度量化判断三焦与各脏的相关性。
综上所述,本研究以探索温胆治法的清温倾向历史沿革为例,结合以法统方和机器学习,将方剂集合量化比较问题转换为随机森林的建模和应用,进而反映与方剂集合关联的中医治法间的量化关系,提供了一种新的中医治法量化研究方法。本方法尚不十分成熟,对于将中医各种治法转化为方剂集合、方剂集合变换为随机森林模型的过程中,如何更好地进行数据信息的取舍,最终结果的参数评估,以及在不同研究范围内的有效性,尚需通过大量实践进一步积累经验。
[1] 邓中甲.方剂学[M].北京:中国中医药出版社,2003:11.
[2] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1):5-32.
[3] 洪燕珠,周昌乐,张志枫,等.基于随机森林法的慢性疲劳证候要素特征症状的选择[J].中医杂志,2010,51(7):634-638.
[4] 孙思邈.备急千金要方[M].北京:中医古籍出版社,1997:371.
[5] 侯志明,王艳荣.胆寒症浅析[J].内蒙古中医药,2008,27(3):21-22.
[6] 于东林,丁然.温胆汤“清胆”质疑[J].河北中医,2013,35(7):1013- 1014.
[7] 张春晓,丁春明,桑希生.胆寒证与温胆汤解析[J].中医药学报,2016, 44(3):113-115.
[8] 施国善,王有鹏.温胆汤源流及方名探析[J].辽宁中医杂志,2016, 43(8):1635-1637.
[9] 彭怀仁.中医方剂大辞典[M].北京:人民卫生出版社,1993.
[10] 国家药典委员会.中华人民共和国药典:一部[M].北京:中国医药科技出版社,2015.
[11] 国家中医药管理局《中华本草》编委会.中华本草[M].上海:上海科学技术出版社,1999.
[12] 南京中医药大学.中药大辞典[M].上海:上海科学技术出版社,2006.
[13] 高学敏.中药学[M].北京:中国中医药出版社,2002.
[14] 李顺保.中药别名速查大辞典[M].北京:学苑出版社,1997.
[15] JAMES G, WITTEN D, HASTIE T, et al. An introduction to statistical learning[M]. Berlin:Springer,2013:316-321.
[16] 吴元洁,王正.温胆汤源流及历代应用考略[J].中成药,2012,34(1):130-132.
Exploration of Evolution of Gallbladder Warming Therapy Through Therapy Guiding Prescription Combined with Machine Learning
YANG Wei, WEN Xiaoping, GUO Jinglei
To explore a research method of TCM treatment based on therapy guiding prescription combined with machine learning by taking the evolution of gallbladder warming therapy as an example.According to therapy guiding prescription, a comparative study was conducted by transforming TCM treatment into composition of prescriptions. The changes in treatment were studied through changes in the composition of prescriptions. Through the establishment and application of a random forest model, the similarity of two or more sets of prescriptions was quantified and compared, that was, the similarity between different treatments.Prior to, gallbladder warming therapy had 75% similarity with warming therapy; while it had 19% similarity with warming therapy after.Gallbladder warming therapy was mainly warming therapy before, and became clearing therapy after that. This research method which combines therapy guiding prescription with machine learning method to establish models can be applied to the quantitative research in the fields of TCM therapy.
prescription science; TCM treatment; machine learning; random forest; gallbladder warming therapy
R243;R2-05
A
1005-5304(2020)11-0096-03
10.19879/j.cnki.1005-5304.201909317
上海市卫生和计划生育委员会中医药科技创新项目(ZYKC201601003)
郭晶磊,E-mail:guojinglei@aliyun.com
(2019-09-23)
(2019-11-07;编辑:陈静)