◆白玉祥 杨 喆 刘丹红 徐勇勇
白玉祥 杨 喆 刘丹红 徐勇勇*
第四军医大学卫生统计学教研室 陕西 西安 710032
统一、完整、清晰的数据元标准是卫生信息共享的必备条件。数据元标准化着眼于从底层逐一规范信息采集的数据项,建立数据元标准化应该遵守的元数据规范,并对数据元及其语境、数据元之间的相互关系等做出详细的描述。否则,数据元标准体系将无法在统一的元数据框架下开发,不利于标准的有序管理和有效应用。
2009年,我国居民前5 位主要死因转变为恶性肿瘤、心脏病、脑血管疾病、呼吸系统疾病和意外损伤或中毒[1],这与2005年美国国家生命统计报告死因顺位基本一致,而十大主要死因疾病中已不再包含传染病[2]。由此可知,慢性病已取代传染病成为我国卫生系统主要疾病负担。事实上,心脑血管等慢性疾病多数是可通过采取健康生活方式行为等进行预防的。影响慢性病的主要不良生活方式包括吸烟、饮酒、高盐饮食、体力活动不足等,但是这些与健康危险因素相关的数据在卫生信息标准化领域的研究相对较少。本研究主要依据WS 363.5-2011[3]健康危险因素数据元目录,针对卫生信息领域中影响健康的危险因素,构建健康危险因素的元数据框架以及在此框架下有关健康危险因素的数据元分类。
结合我国健康档案数据标准化需求,定义健康危险因素数据的类、类的属性以及类之间的关系,并与标准术语和编码体系(如WS 364.5- 2011[4])建立关联和对应关系,构建健康危险因素的语义模型。以WS 363.5-2011 健康危险因素数据元目录作为数据项,归纳语义模型框架下的数据项分类。
构建健康危险因素数据的元模型应遵循UML 规则,采用Rational Rose 2003 作为数据建模工具。
本模型的顶层类(Super Class)是健康危险因素,描述属性或元数据包括健康危险因素类别名称、健康危险因素类别代码等。类的划分呈树状层次结构,可从顶层的健康危险因素类直至单个危险因素的底层类,类的颗粒度逐渐细化。模型第一层可初步将健康危险因素划分为行为危险因素、环境危险因素、职业危险因素和其它危险因素4 个子类。每个子类还可根据需要继续细分,职业危险因素进一步分为放射性危险因素和非放射性危险因素;行为危险因素进一步分为饮食、饮酒、吸烟和运动等;环境危险因素没有进一步分类,如以后的研究中出现则可以对其进一步分类。类的颗粒度越细,其属性的约束越明确(可选属性越少)。图1为模型表示的框架,同一颜色代表同一层次的类。子类可以继承父类的属性,以健康危险因素中的职业危险因素为例,除了继承父类健康危险因素的属性外,还有其特有的描述属性,包括职业危险因素种类、从事职业工种描述、职业危险因素接触情况描述、职业防护措施标识等。
图1 健康危险因素元数据框架
表1 职业危险因素子类数据项归类
在模型框架下,对卫生部2011年颁发的WS 364.5-2011 卫生信息数据元目录中的健康危险因素所有单位数据元进行分类。依据模型的层次,形成职业危险因素子类、职业危险因素子子类、行为危险因素子类、行为危险因素子子类4 个数据项归类表,如表1、表2、表3 和表4 所示。表中包含每个类对应的属性、数据元和数据元标识符,每个子类和子子类的属性均继承上位类的属性。如职业危险因素这个子类对应的属性“健康危险因素类别”对应的数据元有职业病危害类别代码、职业暴露危险因素种类代码和受照类型代码。每个数据元均有其对象的数据元标识符。
表1 是“职业危险因素”子类数据项归类,属性包括健康危险因素类别、健康危险因素名称、危险因素暴露史标志、接触危险因素开始时间、职业危险因素种类、从事职业工种描述、职业危险因素接触情况描述、接触危险因素时长、职业防护措施标识、接触危险因素结束时间等,分别对应的数据元为职业病危害类别代码、职业暴露危险因素种类代码和受照类型代码等。
表2 是职业危险因素子子类数据元归类,包括放射性危险因素和非放射性危险因素。放射性危险因素自身的属性有接触放射性物质剂量、受照原因,对应的数据元为受照剂量(Gy)和受照原因代码;非放射性危险因素的属性有非放射工作职业史,对应的数据元为非放射工作职业史。
表2 职业危险因素子子类数据项归类
表3 是行为危险因素子类数据项归类,均继承健康危险因素类的属性,对应的数据元为食物种类代码、饮水类别代码、吸食烟草种类代码等。
表3 行为危险因素子类数据项归类
表4 是行为危险因素子子类数据项归类,每个子子类均有其对应的自身属性,分别对应的数据元有饮食频率分类代码、每天食用食物的频率、每周食用食物的频率、每月食用食物的频率、每年食用的食物食用频率代码、日主食量等。
表5 是环境危险因素子类数据项的归类,属性所对应的数据元为禽畜栏类别、厨房排风设施类别代码、厕所类别代码、燃料类型类别代码等。
还有一些数据项如孕早期服药类别代码、孕产期高危因素代码、艾滋病患者亲属感染状况代码、中毒农药名称代码、劳作情况代码等,由于其特殊性不能归入职业、行为、环境危险因素中,在本模型中归入其它的危险因素。
本研究在广泛参考国家及国际标准的基础上,构建了健康危险因素数据元数据框架。且元数据框架将健康危险因素逐步分解,形成类的树状层次结构。第一层可分为职业危险因素、环境危险因素等4 个子类,各自包含一组特定的属性。规范化的健康危险因素数据即为一组特定属性(数据元)的实例。元数据框架能够保证健康危险因素数据既有完整、清晰的语义,又有统一、规范的表示格式,可满足数据交换和共享的需要。
表4 行为危险因素子子类数据项归类
表5 环境危险因素子类数据项归类
元数据框架指导下的健康危险因素数据标准化有利于国家层面上健康危险因素数据标准的研发和维护。数据模型中的类及其属性经过专业论证预先设定,数据元的数量在可控的范围内。所有的数据项均在数据模型的框架下扩展,业务领域对产生的数据项无穷尽,且数量随着新方法、新技术不断涌现,因此不是数据元的膨胀,而是值域的扩充。
本研究结合我国的医学信息标准化实践,为健康危险因素数据的标准化提供了研究思路和方法。虽然初步确定了健康危险因素项目的一组属性,但是属性所对应的数据类型还未做相应的规定,结果尚未经过充分的论证,还有待于在进一步研究中改进和完善。
[1]Cancer now main cause of death in China.Retrived Mar 12[EB/OL].http://www.peopleandplanet.net.
[2] Deaths and percentage of total deaths for the 10 leading causes of death,by race:UnitedStates,2002[EB/OL].http://www.cdc.gov/nchs/products/pubs/pubd/nvsr/53/53-pre.htm.
[3]中华人民共和国卫生部.WS 363.5-2011 卫生信息数据元目录.第5 部分:健康危 险 因 素[EB/OL].http://www.moh.gov.cn/publicfiles//business/htmlfiles/zwgkzt/pwsbz/index.htm,2013-02-10.
[4]中华人民共和国卫生部.WS 364.5-2011 卫生信息数据元值域代码.第5 部分:健康危险因素[EB/OL].http://www.moh.gov.cn/publicfiles//business/htmlfiles/zwgkzt/pwsbz/index.htm,2013-02-10.