睡眠对人体的影响

2018-06-07 07:46温佳颖李佳鑫冯万里
神州·下旬刊 2018年5期
关键词:聚类门诊样本

温佳颖 李佳鑫 冯万里

摘要:睡眠是人类生活中不可缺少的一部分。那么睡眠质量的好坏会对人体造成多大的影响呢?这便是本文讨论的主要问题。本文首先探究了睡眠质量与多项指标之间的相关性,然后以匹茨堡睡眠质量指数作为指标来判断睡眠质量的好坏,并探讨其与两大类、百余种精神疾病的相互关系。

关键词:匹兹堡睡眠质量指数;Sperman相关性分析;国际疾病分类编码ICD-10;无监督机器学习模型,K-means算法

模型假设

假设题目中所有数据均测量准确,没有误诊或数据丢失,题目所给数据均具有可靠性,且对疾病的检测原则一致。

分析

已有的数据的有儿童门诊、门诊、体检、科研测试与病房五个数据源,其中儿童门诊3例样本,门诊6325例样本,体检13例样本,科研测试1例样本,病房7例样本。为了避免由于数据来源的不同对分析结果造成影响,我们排除儿童门诊、体检、科研测试与病房这四个小众数据源,仅对来自门诊的6325例样本进行分析。

符号说明

K为预先设定的聚类数目Ci样本i与K个聚类中最近的类,即表示分组(i=1,2,3,4……)

Uj对同一个类的样本质心的猜测N样本是n维实数

K将样本聚类成k簇I第i个样例

模型的建立与求解

问题一

由Spearman相关系数的双变量相關性计算所得到的结论可知,Age、Sex、Psychoticism、Nervousness这四项参数与Sleepquality之间存在置信度为99%的相关性,但是相关系数较小,因此可以认为它们之间存在较弱的相关性。Reliability与Sleep quality之间存在置信度为95%的相关性,而Character与Sleepquality之间不存在相关性,应当除去。

问题二

由于数据量庞大,首先进行聚类分析,但效果不是很好,可能原因是小众疾病的干扰,先考虑无监督学习的情况,首选K-means聚类。将每一病人样本视为9维数组,在假设诊断结果与睡眠质量指标之间有联系的基础上,将睡眠质量指标分组,所得结果应当与实际诊断结果有较明显的对应关系。在聚类问题中,训练样本为{x(1),…, x(2)},其中每个x都是n维实数。随后K-means算法将样本聚类成K个簇。首先随机选取K个聚类质心点,然后对于每一个样例i,计算其应该属于的类:对于每个类j,重新计算质心,然后重复上述两步,直到结果收敛。是否收敛的判断方法为畸变函数。

按照上述思路,对附件中所提到的110种疾病进行分类,最终合并成精神类疾病与神经类疾病两大类。排除掉同时患有多种疾病的人群,统计得到两大类疾病患病人数的比例为2338:1703。用K-means算法聚类成2类,所得结果为1795:2226,其所的比例与实际情况吻合得非常好。通过现有对皮茨堡睡眠质量指数的研究,我们可知普通人正常水平下的7项指标。将样本指标和正常人指标对比得到以下结果:(如表1)

模型的优缺

K-means模型优点:解决聚类问题的一种经典算法,简单,快速。2.对处理大数据集,该算法保持可伸缩性和高效性。

K-means模型缺点:在簇的平均值可被定义的情况下才能使用。

参考文献:

[1]郑棒,李曼,王凯路,吕筠.匹兹堡睡眠质量指数在某高校医学生中的信度与效度评价[J].北京大学学报(医学版),2016,48(03):424-428.

[2]殷瑞刚,魏帅,李晗,于洪.深度学习中的无监督学习方法综述[J].计算机系统应用,2016,25(08):1-7

[3]韩雅雯.kmeans聚类算法的改进及其在信息检索系统中的应用[D].云南大学,2016

猜你喜欢
聚类门诊样本
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
基于密度的自适应搜索增量聚类法
汉字小门诊系列(四)
汉字小门诊系列(九)
汉字小门诊系列(八)
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
七年级数学下册期末检测题(B)