汤启友 赵漾 胡意诗
摘 要:随着生活节奏的加快,越来越多的人不同程度得有睡眠质量问题。如何根据匹兹堡睡眠质量指数量表(PSQI)确定自己的大致问题对于普通人来说还比较困难。文章将基于4885条已确诊病例进行数据挖掘,采用朴素贝叶斯分类方法,对常见睡眠质量进行诊断,已验证其准确性。
关键词:朴素贝叶斯;数据挖掘;睡眠诊断;PSQI
每年3月21日被世界睡眠医学协会定为世界睡眠日,这用来引起人们对睡眠的重要性以及睡眠质量的关注。一天的精神状态取决于前一晚的睡眠质量,高睡眠质量自然保证了人们第二天精力充沛。但据统计,中国成年人失眠率高达38.2%,青少年失眠率也在上升。总的来说,如果入睡时间超过30分钟,就属于失眠的范畴。长期失眠会使人整天感到疲劳,精力不足、注意力不集中、工作学习效率低下。严重的失眠甚至会导致神经功能紊乱、体内各种系统的不平衡等各种问题。
贝叶斯分类方法是机器学习和数据挖掘研究领域的重要数据处理方法之一。朴素贝叶斯分类方法具有简单、高效、分类效果稳定的优点,同时还具有坚实的理论基础,因此在实际应用中得到广泛的重视[1]。朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响[2]。
PSQI检测分为七个指标:睡眠质量、入睡时间、睡眠时间、睡眠效率、睡眠障碍、催眠药物、日间功能障碍。根据以上七个指标可以对睡眠障碍患者、精神障碍患者、普通人等进行睡眠质量的评估。
1 数据来源以及说明
本文对某医院原始数据进行异常樣本的剔除以及样本数量不足病症记录的剔除,最终得到4885条确诊为焦虑、抑郁、睡眠障碍的记录。每一条记录的指标包括:编号、年龄、性别、来源、确诊结果、睡眠质量、入睡时间、睡眠时间、睡眠效率、睡眠障碍、催眠药物、日间功能障碍。
本文将只对属于PSQI的七个指标进行分析,由于这些指标均为离散值,且每个指标均只有0,1,2,3四种结果,因此比较利于朴素贝叶斯分类。
2 朴素贝叶斯分类原理介绍
基于贝叶斯定理,且符合属性条件独立性假设:
P(c)是“类先验概率”,表示样本空间中各类样本所占的比例;d为属性数目,xi为x在第i个属性上的取值。
由于对所有类别来说P(x)相同,因此基于(2.1)的贝叶斯判定准则有
令Dc表示训练集D中第c类样本组成的集合,可以计算出类先验概率:
对于集散属性而言,令Dc,xi表示Dc中在第i个属性上取值为xi的样本组成的集合,则条件概率P(xi|c)可估计为:
但若某个属性在训练集中没有与某个同类同时出现过,则会出现P(xi|c)=0的情况,由于式(2.2)的连乘计算,最后的概率值也为零,因此无论该样本的其他属性是什么,结果必然出错。为避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”。本文采用“拉普拉斯修正”,令Ni表示第i个属性可能取值数,则(2.4)可修正为
3 模型的验证
从4885条样本数据中随机选取100条记录作为验证,剩下的4775条进行样本统计。通过MapReduce得到统计结果,再将统计模型结合朴素贝叶斯分类原理进行编程得出预测结果,最后把预测结果与实际结果进行比较。
4 结论
通过预测结果与实际结果的对比,可以发现该分类方法对于抑郁与睡眠障碍的成功预测率较高,而对于焦虑的预测结果偏低,合计正确率达到71%,属于较高水平。造成焦虑预测成功率偏低的原因可能为原训练样本中焦虑所占样本数过少。随着将训练样本扩大,该分类方法的成功预测率还将上升。
参考文献:
[1]阿曼.朴素贝叶斯分类算法的研究与应用[D].大连理工大学,2014.
[2]周志华.机器学习[M].北京:清华大学出版社,2016:150.
作者简介:汤启友(1996-),男,汉族,四川资阳人,本科,就读于成都信息工程大学软件工程学院。