C4.5算法在药物临床中的应用研究

2019-09-23 06:35杨晓露
智富时代 2019年8期
关键词:新药决策树数据挖掘

杨晓露

【摘 要】本文从国内外C4.5算法在药物临床中的应用研究现状出发,对C4.5在药物临床中的研究不足、研究建议做主要论述。有助于对药物临床数据挖掘的开发,具有一定的指导意义。

【关键词】C4.5;药物;开发;数据挖掘

一、C4..5及其临床应用现状

C4.5作为数据挖掘算法中成熟的算法之一,也早已被应用到医学大数据分析分类中。C4.5相比较ID3算法,作为它的升级版,采用信息增益率来选择属性的方式,成功解决了原本ID3算法中用信息增益选择属性的不足。信息增益率使用“分裂信息”,将信息增益桂规范化,其主要定义为:

C4.5算法采用构造决策树的形式,自上而下递归,在建造成决策树过程中进行剪枝,快速进行连续属性的离散化处理和对样本内部缺失数据的处理[1]。

我国相对于其他国家更晚的进入信息技术时代,这也让我国民众对大数据的深远影响的认识较晚。但是随着投身到大数据领域的人才越来越多,获得的成果也越来越丰盛,对C4.5的算法也越来越深入。在临床糖尿病应用领域,国内外学者采用人工神经网络、集成学习模型、灰色预测法、应用树等方法来研究,先随着C4.5模型的开发,C4.5也用在该领域,并拓展到其他临床、新药开发等领域。

在国外临床中,科學家针对发病率较高的六种疾病,建立了决策树。在每一颗决策树中,对疾病的影响因素单独分析,并通过决策树提取针对规则,最终能提供给年轻、缺少经验的医师有参考价值的信息。而对于药物试验,早在上个世纪九十年代,美国医疗机构和制药公司,早就已经将数据挖掘技术用到新药的开发试验当中,减少新药开发周期。

在国内,对于虽然国家在1999年5月,开始中药现代化研究与产业化开发,开启了现代化中医药业的发展路程。在我国医药机构的研发下,已经建立了相关的药物试验平台,用于新药的开发和数据监控管理,减少新药的开发周期与效率,最高可缩短30%。

临床使用方面,我国关红钧教授提出了构造Ⅱ型糖尿病的决策树,提高了诊断准确率,高达97%,为诊断该病提出了理论依据。其他Ⅱ型糖尿病决策模型,在选取的17例中使用C4.5算法建立模型,准确率比ID3算法高3%-4%。在乳腺癌诊断方面,我国学者翁天乐在癌症肿瘤方面做出了相关研究,建立了肿瘤诊断的决策树模型,改进了传统医疗诊断弊端,将机器学习运用到诊断过程中。南昌大学学者王卓也在临床分类中,运用粗糙集理论,整合并规范在临床病例中的糖尿病并发症数据,很好地实现对糖尿病并发症的辅助诊断。

二、研究中产生的问题

在利用C4.5构造决策树的过程中,只能将客观数据输入,具有很狭小的应用范围,对于新药临床应用中,不同药物要重新构造决策树,不具备通用性。对于药物的使用情况构造决策树,并且决策树中节点繁多,每一个节点都需要大量研究去证实,才能保证后期诊断过程中的诊断正确率。同时,药物临床应用过程中,对于不同的并发症也需要单独的决策树,对药物使用情况进行分析,从而增加了开发成本。

对于临床实验中,尤其是新药的开发需要有更多的数据支撑平台的合理性、通用性,但是在实际过程中数据达不到期望值。尽管病人数量达到一定值,但是与临床试验的匹配也是个巨大的工程,这是实际应用中的一大难点。

在决策树过程中,所有的数据都是客观数据,这些数据并不涵盖心理、天气等其他主观、复杂的因素,也并不能精确地判断药物试验后的人体的全面、真实、客观情况。所以在判断病人是否好转的时候,作为判断药物作用程度的依据,缺乏准确性。[2]同时,对于使用药物所出现的副作用并不能描述清楚,尤其是对人体数据采集的过程中,并不能对人体数据精确、全面的采集,只能依靠经验或后期市场投入反馈来获得,这也加大了新药投入市场的风险。在病人服药过程中,是否有潜在药效也不能很好地发现。在药物临床的试验过程中,受到成本、精力等因素的影响,往往只将测试点集中在试验关注点,对于病人其他病症是否产生药效的关注较少,这也是在对人体数据采集不够精确、全面的结果。

为此在C4.5算法决策树构建过程,各实验室、医药机构能够加强数据交流,对所实验的医药信息共享,让数据在流动过程中具备一定的通用性。这样也就能让试验人员对试验过程中的数据管理有效监控,能满足对数据的汇总统计的同时,减少不必要的试验和开发周期。能在数据互通的情况下,低成本地发现新药副作用、潜在药效,同时一个机构或一个国家的信息系统数据偏少,但是在全球建立大型数据信息分享系统,能够有效增加新药试验数据,且这一类试验数据是在计划成本、实际统计人数之外。这也扩大了医药数据的范围,无形中减少因数据采集较少而产生的准确度低得问题。

三、研究建议

在人工智能发展的潮流下,该研究也乘上了互联网的快车。对于医疗电子健康记录的建立也是一大研究课题,不少医院已经建立电子档案库,对患者一改传统手写档案为电子档案,对患者的患病记录、用药记录等采集。电子健康记录的普及,也为我国新药试验管理系统的开发提供了大量数据。虽然我国目前还没有任何新药试验管理系统,远远落后于发达国家。

在试验系统研发前夕,可以采用决策树对临床的数据采集、分析能够投入到应用。对不同患者信息的录入,后期可以依照特征信息对患者快速分类,并筛选出适合的患者,能降低寻找患者的周期、成本。在基于全国电子健康记录系统开放的前提下,收集与新药相关患者信息,并依据试验项目信息对实验者提取特征信息,对目标患者中受试者进行试验,对于预测患者酌情试验,最终得到足够的试验数据,并对临床试验后的受试者追踪、随访,完成对整个临床试验的报告。

四、结论

C4.5算法在新药临床实验中能够发挥巨大作用,国外在该领域的应用远远领先于我国。我国在这一方面还没有正式起步,但是未来也一定起步。不管是在新药试验系统开发中还是开发准备过程中,都具有不可忽略的作用。而本文也依据C4.5在新药临床试验应用研究现状,对其准备过程中提出了建议,对开发者具有一定的指导意义。

【参考文献】

[1]王卓.基于粗糙集和C4.5决策树的临床病例数据分类研究[J].软件导刊,2014,13(05):61-64.

[2]马尔丽. 决策树模型在2型糖尿病诊断中的应用[D].沈阳师范大学,2018.

[3]张大愚. 基于数据挖掘技术的新药临床试验综合平台的研究[D].电子科技大学,2008.

猜你喜欢
新药决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
丙型肝炎治疗新药 Simeprevir
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
鲁先平:一个新药的14年
新药来自何方
基于GPGPU的离散数据挖掘研究