文/王梓民 周欣
碘缺乏病是世界范围的常见病,1970-1980年全国性普查结果显示:29 个省、市、自治区存在碘缺乏病,1762 个县有碘缺乏病,4.25 亿人口生活在碘缺乏病地区,3500 万人口患地方性甲状腺肿,25 万克汀病。基于流行病调查结果,环境因素中的碘营养状况是碘缺乏病发病因素之一,国际医学界公认:碘的摄入量与碘缺乏病的关系呈反比关系,即碘量摄入过少可使碘缺乏病的发病率升高。因此,摸清成人碘营养状况,有利于正确指导具有碘缺乏病患者科学用碘,以此降低碘缺乏病的患病率;本文以丹东地区碘缺乏病例2013年-2015年疾病预防控制机构(CDC)年度统计数据为依据,进行大数据分析、数据挖掘,得到全市碘缺乏病调查情况。
资料来源于丹东市疾病预防控制中心2013-2015年碘缺乏病防治工作年度调查表。
1.2.1 大数据
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。即巨量数据集合,将掌握的庞大数据信息进行专业化处理,通过“加工”实现数据的“增值”。
1.2.2 数据挖掘
数据挖掘方法利用了如下一些领域的思想:
(1)来自统计学的抽样、估计和假设检验。
(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
(3)最优化、进化计算、信息论、信号处理、可视化和信息检索。
数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的,分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
1.2.3 ID3 算法
ID3 算法是一种贪心算法,用来构造决策树。ID3 算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。ID3 决策树构造的相关理论如下:
信息熵:一个变量的变化情况可能越多,那么它携带的信息量就越大,信息熵值越大,该系统就越不稳定,存在的不定因素就越多。
表1:碘缺乏病决策表
表2:丹东市碘缺乏病防治工作调查表(2013年)
图1:2013-2015年丹东市各县区碘缺乏病发病柱状图(%)
式中x 是一个随机变量x={x1,x2,x3,...,xn},P 是每一种渠道的概率{p1,p2,p3,...pn},H(x)为x 的信息熵。
条件熵:用来解释信息增益而引入的概念。随机变量X 在给定条件下随机变量Y 的条件熵,X 给定条件下Y 的条件概率分布的熵对x 的数学期望,在机器学习中为选定某个特征后的熵,公式如下:
信息增益:在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。待分类的集合的熵和选定某个特征的条件熵之差,公式如下:
由表1中数据和(1)(2)(3)式可以计算出健康教育、专项投入、碘元素摄入量各自的信息增益,其中当是否患有碘缺乏病为作为目的节点时,碘元素摄入量是信息增益最高的,其次是健康教育。故碘元素的摄入量对是否患碘缺乏病影响最大。
如表2所示。
如图1,根据2013-2015年丹东市各县区碘缺乏病发病情况数据显示,元宝区、振兴区、东港市的碘缺乏病患者比例为零;振安区、凤城市的碘缺乏病患者比例几乎没有变化;宽甸满族自治县的碘缺乏病患者比例从2013年的0.2016%下降到2015年的0.1997%,人口基数虽然增加,但是碘缺乏病患者的数量并没有增加。
通过对上述数据的分析,我们可以发现,元宝区、振兴区、振安区以及东港市的碘缺乏病患者几乎为零,而凤城市患碘缺乏病患者数量尤为突出。丹东市的东港市、凤城市和宽甸县自2009年起是中央补助地方公共卫生专项地方病防治健康教育项目县市 ,国家每年对每个项目县市投入1.5 ~2 万,用以提高人民群众对碘缺乏病的认识。可见健康教育可以有效提高碘缺乏病的公众认知度。当前是“互联网+”的时代,计算机在数据处理、数据挖掘等方面的技术日趋成熟。本文从丹东市地方病——碘缺乏病入手,通过对2013-2015年数据的分析、挖掘;最后与国家标准对比,得出普遍结论,从而为政府推行加碘盐计划决策提供理论依据。