滕辉,赵阿勐,滕迪,宁小美,何兰,宋运娜,马玉坤
(齐齐哈尔医学院,黑龙江 齐齐哈尔 161006)
医学中海量的异质性数据,含有很多尚未被人们发现认识的信息,需要对这些数据进行处理,并从中获得新发现。关联分析技术是目前数据挖掘领域比较热门的技术,它是从海量的潜在的数据中发现事物或因素间的有用的相互关系,而定量分析这种关系,则需要有算法或公式,即关联算法,它是数据挖掘中的一类非常重要的算法。近年来,关联规则算法被多方面改进[1-4],关联规则被广泛应用于各种数据库的挖掘中[5-8],并在生物医学与药学的研究中得到一种推广[9]。然而,通过利用关联规则建立抗精神疾病药物网络模型还鲜有研究。
关联规则的目的在于在一个数据集中找出项之间的关系,关联规则中有三个非常重要的指标:
衡量关联规则对出现频率影响的指标
由于药学相关文献中有含有大量的专业性名词,所以要从文献中提炼有用结论,首先要对数据进行清理。可以在药物名词间建立关联,从而确定两个药物名词间的联系。如果它们出现在同一篇文献中,那么我们就认为它们是相关的。目前,发现两者间的这种隐含关系的最重要的算法是ABC算法。它通过局部寻优,最终使全局最优值凸显出来,具有收敛速度较快的特点。其基本思想是:假设A和C都与B相关,那么A和C之间可能存在某种关系,而这种关系经常可能不会被发现。
在原始关联规则算法基础上,对度量生物医药关联时,支持度和置信度不能够完全过滤掉无用的关联规则,那么就可以利用关联度度量扩展关联规则框架。我们用作用度作为相关性的相关度量,以作用度评估一个预测模型是否有效。通过对网络模型和关联规则的改进,引入加速比和效率来分析算法的性能。其中,Q是字节点数,Kn是n个频繁集的时间,Km是每个节点发送和接收k个频繁集的时间。
在使用与药物相关的网络数据库规律得到的标准化术语。一部分可能仅在文献中提及或者比较性介绍,没有进行具体研究,因此在实际应用中,可将阈值设置为大于等于3。主要过程的统计资料见表1。
表1 改进基于网络模型的相关算法
从表1可以看出,随着字节点数的增加,算法的速度增快,总执行时间减少,效率略有降低,但降低幅度较小。因此,改进后的算法具有一定的可扩展性,提高了计算效率。
首先给定最小支持度阈值,计算所有大于或等于支持度的项集,得到单个项目的项集;然后根据相关度量,计算项集中各项目之间的相关性,筛选出不满足最小提升阈值的项目;最后根据筛选出的项目和 abc 理论生成新的项集及其关联,筛选出不满足最小提升值的项集,得到网络模型数据集。
从Pubmed数据库中抽取与精神疾病相关的医学文献,对数据进行清理得到治疗精神疾病类药物与药物之间的相关性,利用关联规则对抗精神疾病类药物之间是否存在关联进行量化,实现网络模型的可视化,对网络节点关联和模型结构进行分析,并采用经典ROC曲线方法进行验证算法的可靠性。
为了更好的分析具有高相关性的药物,依照上述关联规则算法,我们设定阈值为9,抽取得到32种药物以及54种药物的高相关性,建立抗精神疾病类疾病药物网络模型。对数据的多次处理,得到具有较高关联性价值的药物。
在图1药物网络模型中,绝大多数节点的度较小,极少数节点的度较大,这符合幂律分布规律的,属于无尺度网络,它具有对随机故障有较强承受能力,对有针对性攻击较脆弱的属性。在医学领域中,这个特征说明了关键节点的重要性。从上述研究中,我们得到关键节点有舒必利、硫必利、喹硫平等,这些关键节点是抗精神疾病药物研究的热点,可能与许多其他药物存在相互作用。剔除具有孤立节点的药物,发现阿司匹林和双氯芬酸这两种药物比较特殊,只有单一的相关性,与其他药物没有相关性。
图1 抗精神疾病药物的网络模型
利用roc曲线算法验证上述抗精神疾病药物之间的相关性结果。结果表明:ROC 曲线下面积为0.801,相关性较高,对应的标准误差为0.084,P值为0.95% 的置信区间为0.637,0.965。
图2 抗精神疾病类药物治疗的 roc 曲线性能评价
从ROC曲线的计算结果可以看出,改进的关联规则算法优于其他提取算法。这为研究人员未来对精神疾病症相关诊断和治疗、疾病候选基因筛选、靶向药物、药物重新定位和个体化医学提供了研究基础和研究思路。同样,该算法模型也可用于其他临床疾病的分析。
在大量的生物医学文献中,有大量的生物实体之间的联系。对这些异质数据的系统分析给生物学家带来了前所未有的机会,使他们能够推断不同生物实体之间在个体化医学和转译医学的背景下的联系程度。然而,这些关联是非常复杂和稀疏的,并且计算量的直接查询是非常具有挑战性的。网络模型的建立拓宽了药物再定位研究的思路。从传统的一种疾病对应一个目标,从整体的角度展现疾病发生的复杂生物学过程和药物在体内的作用规律。这是一个整体的、动态的、全面的系统分析。它在挖掘所获得的数据资源中的隐藏信息方面达到了一个新的高度。利用关联规则挖掘技术发现海量数据中不同集合之间的潜在相关性。它是数据挖掘中的一种重要算法。近年来在各行各业得到了广泛的应用。为此,基于网络模型的组合,提出了一种基于改进关联规则的药物相互作用算法,实现了药物相互作用、药物开发和药物使用信息的准确分析和决策。结果表明,基于本研究构建的网络模型的关联规则算法优于其他关联提取算法。它在改善药物-药物关系的决策过程中,具有高度的可靠性和智能性,促进了药物的合理使用,对药物研究具有一定的指导作用。这也为科研人员重新定位与疾病相关的诊断和治疗药物及个体化医学提供了研究基础和研究思路。