摘 要:本文将改进的Apriori关联规则算法应用于肝癌预后影响的预测中,通过20个具有代表性的样本数据,提取、化简得到一组规模合适的关联规则集,结合CBR技术对新案例诊断。最后,将关联规则集中的各个规则还原实际含义,从而对医生的诊断提供辅助方案。
关 键 词:数据挖掘;关联规则;CBR;肝癌
肝癌作为一种恶性肿瘤危害人类健康,治疗方案的选择极大影响肝癌患者的预后。目前对预后分析的方法有Logistic回归、Kaplan-Meier法、决策树法等,本文提出改进Apriori算法,不仅考虑预后影响,而且考虑各因素之间的影响,以期出现某一症状可预测下一症状,从而尽早预防。
数据预处理
对20组具有代表性的数据进行离散化处理,每一位都用布尔值去表示,“1”代表具有该种属性,“0”代表不具有该种属性。字母A—T作为区分20个样本号。数字1—30就是原有X1—X10细分后的原子属性,处理后结果如表1所示。
新案例的诊断
直接运用案例推理CBR[1]诊断新案例会使案例库冗余。因而,将其改进为:先遍历案例库,从中选择最为相似的数据作为判断依据,再判断相似度,若<<(是根据专家经验精度),则无需将新案例放入,否则加入到案例库。其中 可用欧式距离[1]量化,相似度越小表示案例越相似。
总结
与决策树方法[2]相比,改进Apriori方法[3]将Decision也视为同等的属性,不仅可以研究X1—X10属性对于Decision的影响,而且可以研究各个病症之间联系,达到某一前件病症出现时可以预防后件病症发生的效果,从而辅助医生为病人提供更加及时、有效的治疗,为病人免去了繁琐检查的痛苦,也减轻了病人的经济负担。在实际应用中,如果能够将专家决策与计算机辅助工具相结合,并将概率理论结合到本文模型中,相信会大大提高模型的实用型和准确度。
参考文献
[1] 施京华.基于数据挖掘的癌症诊疗决策优化研究[D].博士论文.上海:上海交通大学,2011.6.
[2] 陈燕,张振中.数据挖掘决策树在肝癌病人预后中的研究与应用[J].科学信息,2007(10):20-21.
[3] 陈燕.数据挖掘技术与应用[M].北京:清华大学出版社,2011.5.