陈泽锴,黄良辉,张民权,周良良,李阳彪,陈振华
(江西科技师范大学药学院 江西省药物分子设计与评价重点实验室,江西 南昌 330013)
近年来,科学技术飞速发展,信息数据快速增长,社会进入大数据时代。大数据蕴含着巨大的经济、社会、科学价值,已经成为社会各界关注的焦点。从大数据中快速收集有用的信息,并分析得出隐藏在其中的价值和规律对社会及科学的发展具有至关重要的作用[1]。数据挖掘(Data Mining)是指从大量数据中,利用算法挖掘隐藏在数据中具有有效、新颖、有潜在应用价值信息,并可从挖掘到的信息中获取知识,揭示反映事物内在规律以及预测发展趋势的规则。数据挖掘通常与计算机科学和人工智能密切联系,并通过统计学、机器学习、数据可视化、神经网络、模式识别等诸多方法来实现。在大数据背景下,数据挖掘在金融[2]、网络安全[3]、食品与药品[4]、医疗[5]等各个领域都有着广泛的应用。
中药作为我国独特的传统文化瑰宝,其在诸多疾病的治疗中应用且效果显著。但随着社会与科技的发展,中药正处于向现代化与国际化发展的关键时期,但其发展过程中出现的问题难以解决,一方面多数中药成分复杂,其有效活性成分及药理作用机制尚未明确;另一方面,将传统中药按国际认可的GMP、GCP、GLP 等标准规范进行研发、生产与管理并适应当今社会发展需求的过程中仍有许多问题亟待解决[6]。基于大数据背景下,通过数据挖掘对中药进行研究是推进中药现代化和国际化的有效途径。近年来,有关数据挖掘在中药鉴定识别、中药药性以及方剂用药规律、中药制剂研究等多个中药研究领域的研究层出不穷[7](图1、表1),本文对此有关的研究进展进行了综述。
表1 数据挖掘在中药领域中的研究进展
图1 数据挖掘在中药领域中的应用
中药基源具有复杂性、成分多样性的特点,对中药及其复方制剂进行全面的质量控制及质量评估是推动中药现代化的关键。目前,中药及其制剂的质量标准与评估不再是性状鉴别、显微鉴别等传统方法的真伪性鉴别,而是主要以光谱、色谱技术手段来对中药进行整体质量的控制[8]。然而,中药图谱极为复杂,全方位、多角度地对中药图谱进行研究是展现中药独有特征的关键。运用数据挖掘技术与指纹图谱相结合可为中药鉴定及质量控制提供一个有效可行的方法。在不同基源的石菖蒲GC 指纹图谱基础上[9],利用主成分分析(PCA)可实现不同基源石菖蒲药材的区分。由于不同算法优缺点不同且其在应用上具有一定局限性,这难免会造成中药鉴别整体预测性能较差的缺陷。若要提高数据挖掘对中药鉴定的作用,还需选择最实用的算法及对不同算法进行结合联用。有学者[10]通过比较PCA、最小二乘-判别分析(PLS-DA)、最小二乘回归(PLS)、最小二乘-支持向量机(LS-SVM)四种算法对葛根、葛根茎及其两者掺杂物的NIR 图谱进行建模分析,结果表明LS-SVM 可以高性能地定量掺假的葛根样品,实现了快速无损的葛根真伪辨识。也有学者采用主成分分析-判别分析(PCA-DA)、PLS-DA、LSSVM 对川贝母NIR 图谱数据建立真伪辨识及商品规格辨识模型并进行交互验证,结果表明川贝母真伪辨识以PCA-DA、PLS-DA 模型为最优,商品规格分类以PCA-DA、LS-SVM 模型为最优[11]。数据挖掘应用于中药鉴定中从单一算法的运用到多种算法联合运用能很好地解决中药指纹图谱的复杂性及多维性问题,同时还能提高鉴定的准确性。但要高精度地对中药进行鉴定,还需要从多维指纹图谱上进行发展,基于卷积神经网络(CNN)算法与多元多息指纹图谱结合[12],有学者成功建立了针对50 种中药材的鉴定方法,准确率高达92%。但目前,有关中药多维指纹图谱上的数据挖掘分析研究甚少,仍需在这个方向作进一步努力。
药性是对中药的功效与药效物质基础形成及运用规律研究理论,主要涉及中药四气、五味、升降浮沉、归经、有毒无毒等研究。通过数据挖掘技术对中药药性研究,可对中药化学成分进行信息化,并揭示出中药属性、药性理论、化学成分之间的联系[13]。针对中药寒热性识别及寒热特征标记可视化研究中[14],通过SHAP(SHapley Additive exPlanations)算法对多种中药紫外光谱分析发现,相似药性的中药具有相似的紫外吸收光谱,寒性中药在400 和267 nm处的紫外吸光度相似,而热性中药在400、299、301 nm处紫外吸收也类同。亦有学者[15]针对唇形科中药亚类化学成分与药性之间相关性,采用二元Logistic模型进行分析发现唇形科中药寒热性与其含有的萜类及简单苯丙素类成分具有强关联性,单萜类化学成分间相互作用可使唇形科中药药性表现为寒性,而苯丙素化学成分相互作用则表现为热性。数据挖掘技术可客观地解释化学结构-药性间的关联,但若要进一步阐释“化学结构-药性-药效”间的联系及其规律,还需要结合生物学效应等方面进行分析,实现中药药性理论科学内涵的解释,从而促进中药现代化的发展进程。
中药方剂是根据疾病主治方向或主要特征,有目的地进行药物配伍,以达到协同治疗或是减毒增效的效果。单味中药原本就具备四气五味、升降浮沉等属性及现代药理作用机制,而多味中药的组合配伍无疑是一种复杂的体系。数据挖掘可直观地分析中药方剂用药规律并解释其药理作用机制。有学者[16]通过频次分析、关联规则、聚类分析等方法研究中药治疗溃疡性结肠炎(UC)用药规律,发现其用药以苦寒降泄为主,黄连-白头翁为核心药对,同时网络药理学研究表明核心药对可能是通过介导脂质代谢、TNF 信号、IL-17 信号和Th17 细胞分化等多个通路产生效应。亦有研究[17]采用相似的方法探究中药治疗肺结节用药规律及作用机制,结果表明,中药治疗肺结节主要以健脾益肺、行气化痰、活血祛瘀为主,核心药对为甘草-茯苓-半夏,治疗肺结节的潜在靶点和作用机制主要是参与炎症反应、免疫调控等过程。中药组方物质基础不明是中药配伍现代化阐述的难题,借助数据挖掘及现代药理学技术,可清晰详尽地总结中药复方用药规律并从分子层面上对核心药的药理作用机制及潜在作用靶点做出阐释,推动中药的二次开发[18]。
中药制剂的生产,由于涉及原料、制备工艺、设备、生产管理等多种因素,制剂质量差异明显的问题时有发生,严重影响中药制剂的临床疗效及其安全性[19-20]。运用数据挖掘技术探究影响中药制剂质量关键属性及其规律,可使其质量从原料及制备过程中进行控制。基于灰色关联分析算法[21],能够科学客观地找出热毒宁注射液生产过程中的关键工艺参数为萃取时平均体积流量、调酸后pH 值以及萃取浓缩出膏温度。通过建立PLS[22]和多区块-偏最小二乘(MB-PLS)[23]模型,可确定影响天舒片素片崩解时限和三七总皂苷缓释片溶出行为的关键物料属性。同时,通过数据挖掘算法构建预测模型对制剂工艺数据进行分析预测,可实现对中药制剂生产质量的优化。有学者在桂枝茯苓胶囊智能化生产研究中[24],分别利用PLS、分类回归树(CART)、多元自适应回归样条(MARS)和引导策略搜索(GPS)等数据挖掘算法构建预测模型进行预测分析,最终确定MARS 为最佳预测模型,为桂枝茯苓胶囊生产质量控制智能化提供技术支持。
虚拟筛选作为计算机药物筛选技术,在中药新药研发中的应用十分广泛,通过数据挖掘技术建立中药潜在药用分子数据库,并用虚拟筛选技术分析药物分子与靶标间的物理化学相互作用,同时对其进行吸收、分布、代谢、排泄及毒性(ADMET)的模拟预测,可实现新药的快速筛选。有学者[25]通过分子对接技术,针对中药中具有潜在Galectin-3 抑制作用的分子进行虚拟筛选,并结合XGBoost 等数据挖掘算法进行进一步筛选,最后运用分子动力学加以验证,从中药中筛选出山楂和长苞香蒲中的1,2-二甲苯和香蒲酸两种成分具有良好的Galectin-3 抑制作用,有可能成为神经性退行疾病的有效抑制剂。在Limk1 靶点抑制剂研究中[26],有学者采用分子对接技术结合三维卷积网络(3DGCN)建立模型并进行活性预测,从中药数据库中进行潜在Limk1 靶点抑制剂的筛选,并对其进行ADMET 的预测分析及分子动力学模拟验证,最后发现有两个先导化合物可能为Limk1 受体候选抑制剂。数据挖掘建立中药化学成分数据库同时采用分子模拟等技术进行活性成分筛选是一个精确有效的中药新药研发途径,可规避新药探索过程中的盲目性,对新药开发具指导和启发的作用。
目前,中药新药临床疗效评价体系研究仍停留在基于西医化学药随机对照试验等传统方式上,其并不能有效地体现出中药作用特点及疗效。运用数据挖掘技术可以构建一种适用于中药疗效评价的综合评价方法[27]。有研究[28]基于一种中药新药治疗冠心病心绞痛(血瘀证)临床数据为实例,同时采用西医和中医两种疗效指标,通过PLS-SLVM 的方法建立了适用于分析中药临床疗效的方法,既满足变量构建方法所需的全面性、目的性、可比性、层次性、科学性等基本原则,又兼顾了中医临床疗效数据的结构特征,为中药新药疗效评价提供了具有中医临床特色的综合评价方法。
本文主要从中药鉴定识别、中药药性及方剂用药规律研究、中药制剂研究、中药新药研发四个方面阐述了数据挖掘技术在中药领域中的应用。在大数据背景下,数据挖掘技术在中药领域中可探究中药多成分、多疗效、多靶点原理等传统研究方法难解决的问题,同时还有助于中药信息结构化,促进中药质量标准化,推动实现中药现代化。近年来,有关研究热潮迭起,彰显了数据挖掘技术在中药研究中的适用性和优越性。但是其应用也存在着一定局限性,一方面当前大多数研究仍停留在中药研究数据信息简单维度的处理分析,所得结果较为片面,有待进一步的探索及验证;另一方面,数据挖掘的算法具有一定局限性,并不能完全体现出中药作用的特点。因此,本方向还需要多领域、多学科专家共同合作以及深入的交叉研究。