王明星 田恬恬 吴邵平 翟临威 舒炫煜 张锦
摘要:癫痫是大脑功能失调引起的神经系统的常见多发疾病之一,患者人数多,死亡率高,因此对癫痫病的研究至关重要。对于此类高风险场合的分类识别,仅用传统的机器学习算法得到预测结果是不够的,因为在这类识别研究中不仅要关注整体判断的正确率,更要关注每一个个体的可信度,故引入置信机器,它既可以给出样本的预测结果,也能给定预测结果的可信度,避免误判,进而控制风险,这对癫痫疾病的识别研究起到一定的作用。
关键词:癫痫;K近邻算法;直推式置信机器
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)36-0185-02
Abstract: Epilepsy is one of the common multiple diseases of the nervous system caused by brain dysfunction. The number of patients is high and the mortality rate is high. Therefore, research on epilepsy is very important. For the classification and identification of such high-risk occasions, it is not enough to use the traditional machine learning algorithm to obtain the prediction results, because in this kind of identification research, not only the correct rate of the overall judgment, but also the credibility of each individual should be paid attention to. Therefore, a confidence machine, transductive confidence machine (TCM), is introduced, which can not only give the prediction result of the sample, but also give the credibility of the prediction result, avoid misjudgment, and then control the risk, which plays a certain role in the identification research of epilepsy disease.
Key words: Epilepsy; K nearest neighbor algorithm; Transductive confidence machine
大脑是整个人体最为复杂的系统。在大脑中,信息由神经元负责处理,通过突触连接来传递,进而突触连接又产生脑电信号(EEG)。如果在神经元之间信息传递发生不平衡,则会导致异常放电,称为癫痫发作。癫痫发作是大脑中电活动突然激增,通常会影响人们在短时间内的感觉或行为[1]。癫痫长期频繁发作会引起患者智力损伤, 严重者甚至会出现生活能力及认知功能下降[2]。因此,及时准确的检测和诊断,对癫痫病人的病情救治至关重要。随着机器学习的不断深入研究,在可信的机器学习方面也得到了迅速的发展。所谓可信的机器学习,就是要求机器学习算法不仅要给出判断结果,还要给出这种判断的可信度或可靠性程度。这种可信的机器学习是通过在机器学习算法中引入置信度机制来实现的,把引入置信度机制的机器学习法称为置信机器(ConfidenceMachine,CM)学习算法,置信机器不仅可以做出预测,还可以对每个样本预测产生定量的质量度量方法,即置信度和可信性。而直推式置信机[3,4](Transductive ConfidenceMachine,TCM)是 CM 中公认效果最佳的一类。在机器学习中引入置信度机制构造置信机器,对于高风险场合的分类识别算法是非常适合与必要的,如医疗诊断、大型复杂的故障诊断、网络入侵检测等。因为在这类识别判断中不仅要关注整体判断的正确率,更要关注每一个个体判断的可信度以便做出合理地针对个体的处理方法,避免误判。
1 TCM介紹
直推式置信度机制是基于算法随机性理论,先将待预测数据假定成所有可能的类别,然后分别与已知样本构成随机序列,计算构成新序列的随机性大小,哪个分类下的序列随机性越大,待预测样本就越有可能属于该分类,同时选取该随机性值作为置信度,实现置信判定[5]。
随机性的计算是通过随机性检测函数[t=t(z)]来实现,[z]是样本空间中[Z]的有限集,[t(z):Zn→[0,1]],[n]为样本序列的长度。然而该理论定义的随机性检测函数是不可计算的,因此必须建立满足随机性检测函数条件的可计算的随机性检测函数,即奇异函数。实现奇异函数有三种方法,分别是距离奇异描述函数,支持奇异描述函数和应变奇异描述函数,本实验因在KNN算法中嵌入直推式置信机,故采用距离奇异描述函数,对每一个样本[x]定义一个奇异值[ri]表示用该函数描述如下:
其中[ri]表样本[xi]到它的同类样本的距离和与它异类样本的距离和的比值。
根据样本的类别[y(y∈{-1,+1})],然后通过(1)式计算出每个样本类别中样本的奇异值[(ry1,ry2,…,ryl)]。加入新测试样本[xnew],再计算[xnew]的奇异值[xnew]。然后得到奇异值序列[(ry1,ry2,…,ryl,rnew)]测试样本的[P]值由随机性检测函数(2)式给出: