DiseasesTracer:疾病演化及就医选择分析系统

2018-04-11 06:57赵韦鑫沈明辉蒋宏宇吴亚东朱玉颖
西南科技大学学报 2018年1期
关键词:可视化医疗疾病

赵韦鑫 唐 楷 龙 虎 沈明辉 蒋宏宇 吴亚东,3 朱玉颖

(1.西南科技大学计算机科学与技术学院 四川绵阳 621010;2.四川省卫生和计划生育委员会 四川成都 610041;3.西南科技大学四川省军民融合研究院  四川绵阳 621010)

随着社会信息化程度的迅速提高,人类世界已经进入大数据时代,农林牧渔、医药卫生、建筑建材、冶金矿产、石油化工、水利水电、交通运输、信息产业、机械机电等各个行业与计算机技术紧密结合,所储存的数据量呈现爆发式增长。目前,人民生活水平日益提高,但人民所患疾病也逐渐增多,医院等卫生单位所接待的病人有增无减,这直接导致相关机构医疗数据呈现高速增长,此外,病历管理系统正在高速发展[1],产生了大量的病例数据[2-3]。蔡佳慧等[4]阐述了我国随着卫生信息化建设进程不断推进,医疗数据的类型和规模正在高速增长。这些宝贵的医疗信息资源对于疾病的管理、控制、预测和医疗研究都是非常有价值的。丁同勤[5]设计并开发了一套可动态扩展的医疗数据集成可视化系统,该系统通过文本、图表等方式展示单个病人全部的医疗数据,下一步希望能够在展示数据的同时将数据背后隐藏的知识以可视化的方式展现出来。王艺等[6]提出尽管医疗大数据信息类型繁多,但强大而灵活的可视化技术,可以增强医疗数据的可读性。

面对逐渐增加的医疗数据量,如何从这些数据中探索出有利信息是现阶段需要解决的一个问题。早日鉴定疾病爆发是有效干预的第一步,Allard[7]使用时间序列分析技术来提供对未来观察中预期的变异性的估计,有助于确定异常情况是否发展。Anderson等[8]也采用时间序列分析技术来检测传染病震荡的长期趋势。Eubank等[9]基于人口和地理数据,采用参数化模型仿真产生大规模个人城市交通来模拟宿主内部疾病进展情况,展示了宿主经常移动的地点之间的传播媒介。从大量数据中找到某种疾病的时间空间分布模式,能对地区防止这种疾病提供一定的支持。进一步,为了很好地展示疾病地演化过程,如何利用恰当的可视化方法来展示医疗数据,对研究疾病演化显得尤为重要。本文在病历数据的基础上,结合数据处理技术、信息可视化技术等,融合时空规律,开发了一套疾病演化分析及就医选择分析系统,将抽象的病例数据以图形图像的方式展现出来,帮助分析人员分析地区疾病态势,找出地区疾病演化,总结患者就医选择。该系统能够从时间和空间的角度得出疾病分布、演化过程,从医院患者分布总结患者就医选择并且实现对地区疾病发布规律等的挖掘分析。

1 研究动机

随着信息化医疗数据的大量爆发,如何从大量的医疗数据中挖掘出有利信息,是现在迫切需要解决的问题。传统信息分析方法效率低下,缺乏有效的加工分析能力和信息加工能力。如何通过一种直观明了的方法来描述、展示和分析疾病的时空信息,推测疾病的发展,总结患者就医选择,是值得研究的问题。

1.1 关注疾病的快速检索和浏览

医疗数据类型复杂、数量级大。比如,一条医疗数据里面可能包括就诊医院、就诊时间、住院时间、出院时间、手术名称、疾病名称、花费金额等数据项,通过逐条搜索的模式来查找关注的某个项目效率非常低。而在当今效率优先的工作理念下,如何通过合适的方法快速检索到关注的疾病,是一个待解决的问题。为解决这一问题,本系统使用ICD-10对疾病数据进行可视化编码,用户能够快速对关注疾病进行检索和浏览。

1.2 暴发疾病发作模式的可视化分析

很多疾病呈现爆发性、季节性、周期性等特征,如常见的爆发性疾病有食物中毒、伤寒、痢疾还有化学毒物中毒等。爆发性疾病常因许多人短期内接触同一致病因子而引起,所以可从发病高峰推算暴露日期,从而找出引起爆发的原因。季节性疾病中传染病尤为明显,如流行性乙型脑炎在我国北方8,9,10月为发病高峰季节,在此前后很少发生。周期性疾病呈现周期性流行发生,如甲型流行性感冒2~3年一次;乙型流行性感冒4~6年一次。对于如何通过可视分析方法挖掘某种疾病的时间发作模式问题,本系统使用时间线对患指定疾病的病人就医时间进行描述。

1.3 疾病地理分布与患者地理位置信息展示

医疗数据中往往包括病人的地理位置数据,对于如何通过地理数据获知疾病在地理上的分布的问题,本系统使用了地图加热力图或射线图的方式对患者地理信息进行展示。

2 疾病可视化编码

2.1 ICD-10

ICD-10(The International Statistical Classification of Diseases and Related Health Problems 10th Revision)是世界卫生组织(WHO)的国际疾病及相关健康问题统计分类(ICD)第10修订版,是医学分类清单。它包含疾病、体征和症状、异常发现、投诉、社会情况和外部伤害或疾病原因的代码。代码集允许超过14 400种不同的代码,并允许跟踪许多新的诊断。代码可以通过使用可选的子分类扩展到超过16 000个代码。

疾病分类可以被定义为根据既定标准指定病态实体的类别系统。ICD用于将疾病和其他健康问题的诊断从单词转换为字母数字代码,从而可以方便地存储、检索和分析数据。实际上,ICD已经成为所有一般流行病学和许多健康管理目的的国际标准诊断分类。包括分析人口群体的一般健康状况并监测与其他变量相关的疾病和其他健康问题的发生率和患病率,如受影响个人的特点和情况。ICD是既不依托也不适用于不同临床实体的索引。后来,其范围扩大到包括发病率诊断。值得注意的是,虽然ICD主要是为了对正常诊断的疾病和伤害进行分类而设计的,但并不是每一个接触卫生服务的问题或理由都可以这样分类,因此,ICD规定了各种各样的迹象、症状、异常发现、投诉和社会环境,可能代替对健康相关记录的诊断,可以用于分类记录在诸如“诊断”、“入院原因”、“治疗条件”和“咨询原因”之类的标题下的数据,这些数据出现在各种各样的健康记录、统计数据和其他导出健康状况信息中。

2.2 病例数据处理

病例数据处理的过程大致如下:输入病例数据→选取数据处理方案→执行对病例数据的清理→输出符合要求的数据。对于病例数据不同情况,采用不同的解决方案。如对于空缺的数据项可以采用统一填充方案;对于重复记录,采用SNM算法(Sorted-Neighborhood Method)[10-11]检测重复记录项,再对重复数据项进行处理,得到目标数据集,从而提高数据的可靠性。

2.3 可视化编码及交互设计

2.3.1ICD-10映射在Sunburst中

ICD-10是一个树形数据结构,通过疾病4个主要特征分类,即病因、部位、病理及临床表现,层层递进,具有良好的结构基础。由于Sunburst模型也能反应树形数据结构,所以考虑把ICD-10映射在Sunburst中,将病征部位映射在根节点,再将细化的病名映射到其子节点,以此类推。

2.3.2热力图颜色编码

为在热力图上准确生动展现出病人分布密度,本系统在绘制热力图时以三原色红黄蓝颜色为过渡,红色表示当前区域疾病数量Max值,黄色表示当前区域疾病数量Medium值,蓝色表示当前区域疾病数量Min值,再辅以灰白色地图瓦块,能够直观地看出疾病分布情况。

2.3.3Geohash系统

Geohash是由Gustavo Niemeyer构建的以紧凑形式编码/解码(lat,lon)对纬度/经度进行地理编码的系统[12]。对空间数据的分析经常要面临空间数据的误差等问题,数据的误差会在定位和属性数据的测量中产生[13]。本系统涉及到地理空间信息,为了加快访问地理空间信息数据的速度,所以采用Geohash系统编码对地理空间数据进行处理,且Geohash的数据精度高,对原本的空间数据影响不大。在数据库中使用时,Geohash数据的结构有两个优点:第一,由Geohash索引的数据将具有连续切片中给定矩形区域的所有点(切片数取决于所需的精度和geohash“fault lines”的存在)。这在数据库系统中特别有用,其中单个索引上的查询比多索引查询更容易或更快。第二,这个索引结构可以用于快速邻近搜索:最接近的点通常是最接近的Geohash。Geohash是运用于公共领域的地理编码系统,它是一种分层空间数据结构,能够将二维的点数据转换成一维的数据,将二维的经纬度转换成字符串,将二维空间转换成一维曲线,如图1,并且经纬度越精确,转换的字符串越长,表示的位置越精确。而本系统的经纬度精度大于0.000 01度,经度每隔0.000 01度时,距离相差约1 m,纬度每隔0.000 01度时,距离相差约1.1 m,使绘制地图精度得到保证。

图1 使用Geohash对地理维度进行转换Fig.1 Transform the geo-dimension with Geohash

3 系统设计

3.1 系统流程

本文提出的疾病演化分析系统流程图如图2。

通过数据处理技术对海量病例数据进行分析处理,利用信息可视化技术将处理后的数据直接转换成模型的方式呈现给用户,同时支持人性化的交互方式,方便用户的后期处理和分析。本系统使用Flask+D3作为系统框架,以Mysql作为后台数据库。本系统分为3大模块:数据处理模块、输入模块、疾病演化分析模块。数据处理模块主要实现数据预处理以及前后台病例数据处理流通的功能;输入模块分为两部分,第一部分是利用用户输入的关键词智能匹配搜索疾病并在sunburst模型高亮形式展现搜索结果的疾病搜索部分和直接在sunburst模型选中目标疾病的直接输入部分,如图3,A视图为搜索框、B视图为sunburst模型、C视图为ICD-10编码组成;疾病演化分析模块主要是利用可视化模型,结合可视化交互,通过数据可视化的方式来展示疾病信息,如图3,D视图为患者数量-时间Line-Chart模型、E视图为疾病分布图、F视图为年龄分布的Donut Chart模型。最后将3个模块嵌入疾病演化分析系统呈现给用户。

图2 疾病分析框架流程图Fig.2 The flow chart of disease analysis framework

图3 疾病演化分析系统概览Fig.3 Disease evolution analysis system

3.2 可视化模型

3.2.1Sunburst模型

在Sunburst模型中,用一系列圆环来表示层次结构,层次结构中的最高级别位于中心位置,较低级别则显示为中央外的环。 层次结构的最低级别是外部环。Sunburst模型可以清楚地表达分层结构,它采用环之间的相邻关系来表示数据项之间的层次关系。如图4所示,Sunburst模型由多层圆环组成,由内向外每层分别是父节点、子节点、子子节点。如图3所示,父节点为H,子节点为10,子子节点100,那么这就代表ICD-10编码为H10.100的疾病。每层圆环由多个环段组成,每个环段占整个圆环的大小表示该环段占整个圆环的比重。每个环段外部弧所对应的下一层环段表示其子节点。以此类推。

3.2.2Line Chart模型

Line Chart模型是一种图表,它将信息显示为一系列通过直线段连接的称为“标记”的数据点。它是许多领域中常见的基本类型图表。在图形学的表达中,经常使用Line Chart来显示数据在时间间隔上的趋势,展示时间序列,因此通常按时间顺序绘制,亦或称之为Run Charts。本文Line Chart模型横轴为时间轴,从左至右时间递增;纵轴为计数轴,从下到上数量递增。因为可能存在在一段时间内疾病数量急剧变化导致数据点过于密集而无法清楚地查看疾病的详细走势,我们改进了传统的Line Chart模型,把两个Line Chart模型结合在一起,并提供选区功能。模型第一部分用于展示选区内详细内容,模型第二部分用于提供选区功能。通过Line Chart模型可以清晰地看出疾病随着时间推移的走势。

图4 Sunburst 可视化模型Fig.4 Sunburst visualization model

3.2.3Donut Chart模型

Donut Chart是Pie Chart(饼图)的一个变体,空白中心允许包含整个数据的附加信息,这种类型的Pie Chart可以一次支持多个统计信息,并为标准Pie Chart提供更好的数据强度比。本文Donut Chart模型以辅助定位存在系统中,用于展示选中疾病患者的年龄分布,从而帮助分析者从另一个方面了解疾病的情况。

3.3 交互设计

(1)为了让用户选中自己感兴趣的疾病,本系统通过在sunburst模型上移动鼠标、模块高亮并计算出当前节点的ICD-10码、匹配相应的中文疾病名来表示用户选中的疾病。为了精确地了解到目标疾病在所有疾病中所占比例,本系统通过在sunburst模型上移动鼠标时计算并预览鼠标指定疾病在某段时间内在所有疾病中的占比。

(2)除了通过sunburst逐一检索疾病外,还可通过用户在搜索框输入关键字,使用模糊字符匹配技术智能计算出相匹配的对象,并且将搜索匹配到的相关结果在sunburst模型中以高亮形式呈现,以供用户的进一步操作。

(3)当用户移动鼠标在sunburst模型上选中目标疾病后,可通过点击当前节点查看该疾病的详细信息,包括根据获取该疾病的病人信息绘制的疾病分布图、患者数量-时间Line-Chart模型、年龄分布的Donut Chart模型。

(4)在患者数量-时间Line-Chart模型上移动鼠标可以获取鼠标位置在该模型中所代表日期,并且能够在疾病分布图上展示当前日期的疾病分布。通过在患者数量-时间Line-Chart模型上移动鼠标可以在疾病分布图上看出当前疾病的演化规律。

(5)疾病分布热力图模型展示病人地理位置分布,在疾病分布图模型上通过拖拽、放大、缩小地图操作可以探索病人分布情况。

4 案例分析

4.1 通过疾病演化推测

如图5,该图是以一定的时间跨度为度量的患者分布地理信息分布图。此图展示了急性支气管炎患者在该地区的分布情况。从3张地图上可以看出,绵阳市区、江油市区、武都镇、芦溪镇、潼川镇急性支气管炎的发病病例都在增加,其中武都镇患急性支气管炎的病例最多,推测是与环境等有关。经过调查,长治钢铁有限公司在武都镇有分厂长钢四厂,而钢铁工业在生产的过程中要排放废气,废气主要是从燃烧系统排出的。污染过程很复杂,污染也是多方面的,有毒成分主要有二氧化硫、一氧化碳、硫化氢、烃、粉尘等。附近居民受二氧化硫的影响易引起急性、慢性呼吸道系统的病症。另外,潼川镇,实施了招商引资“五心工程”,继续培育壮大化工、机械、家具、建材、食品、轻纺等支柱产业。而随着产业规模扩大,相应排放的废气等污染物也会相应增加,这对于当地居民的呼吸道健康有一定影响。其次,城市是一个复杂化的整体,随着经济的发展,机动车的数量急剧增加,机动车尾气排放量呈现逐年增长的发展趋势。在绵阳市区、江油市区中,机动车数量庞大,汽车尾气的排放是城市汽车污染的主要来源之一,而汽车尾气中的污染物主要有固体悬浮微粒、一氧化碳、碳氢化合物、氮氧化合物、铅及硫氧化合物等,吸入呼吸道后可以刺激腹部,发生急慢性支气管炎、肺气肿、支气管哮喘等疾病。由此可以证明本系统可以通过疾病演化推测相关地区的人口分布、环境等情况。

图5 地区疾病演化分析Fig.5 Evolution analysis of regional diseases

4.2 患者就医选择分析

如图6,该图展示的内容是接收老年性白内障患者最多的5个医院以及到每个医院就诊的患者地理位置分布。该图是由5张小图A,B,C,D,E组成,图片排列顺序反应了不同医院接收老年性白内障患者的个数不同,从左到右医院接收病人人数依次减少,分别是A:四川省绵阳市中心医院,B:绵阳富临医院,C:盐亭县人民医院,D:江油市人民医院,E:三台县人民医院。以医院位置为起始点,以病人位置为终止点,两点通过连线表示医院和患者的关系。通过聚合算法,把位置相近的患者聚合到一个点,患者的个数映射成线段的粗细,线段越粗,表示病人地点附近相同疾病的病人越多,线段越细,表示病人地点附近相同疾病的病人越少。

从医院情况来看,就医成本、外界声誉、地理位置、设备和药品、医护人员素质等都会影响患者的就医选择。从这几个医院等级来看,四川省绵阳市中心医院是三级甲等医院,医院的基本硬件配置高,外界声誉良好,是这5个医院中级别最高的医院,它所接收的患者范围是最广的,盐亭县人民医院是这5个医院中等级稍次的,它所接收的患者范围是最小的。另外,从医院的地理位置来看,多数患者都偏好去市中心的医院,如四川省绵阳市中心医院或绵阳富临医院。

从患者情况来看,人际关系、就医习惯、疾病情况、就医便利性等都会影响患者的就医选择。医院的地理位置很大程度上影响了患者的就医便利性。从图中可以看出,四川省绵阳市中心医院和绵阳富临医院都位于市中心交通非常便利的位置,其病人位置分布非常广泛,而盐亭县人民医院和三台县人民医院位于县级行政区,交通便利程度稍次,所以其病人分布大多位于附近的乡镇。医院位于交通越发达的地方,就医便利性越好;医院位于居住地附近越近的地方,就医便利性越好。从另一方面来说,大医院的患者分布范围广而散,且患者附近也有对于病症治疗效果良好的医院,但患者可能在追求良好的医疗效果,而放弃一定的医疗便利性去大医院进行治疗,这也间接上解释了为什么人们倾向去大医院就医。

图6 不同医院就诊患者地理位置分布Fig.6 Geographical distribution of patients in different hospitals

5 结语

本文在大量病例数据的基础上设计并开发了DiseasesTracer疾病演化分析系统,通过该系统实现了医疗数据的可视分析及初步的疾病演化分析和就医选择分析。结果表明,通过与该系统进行人机交互操作,用户可以利用该系统进行疾病演化分析,总结疾病的演化行为模式,并对疾病相关因素进行相应的判断。另外,通过分析患者的分布特征,可推断地区疾病特征,总结患者就医选择。接下来我们的工作会基于更大量的医疗数据进行分析,并且优化现有模型的展现方式,提高系统的交互性和信息直接性。

[1]GUPTILL J. Knowledge management in health care[J]. Journal of health care finance, 2005, 31(3): 10-14.

[2]DAWES M, SAMPSON U. Knowledge management in clinical practice: a systematic review of information seeking behavior in physicians[J]. International Journal of Medical Informatics, 2003, 71(1): 9-15.

[3]SUNDARAM A. Information Retrieval: A Health Care Perspective[J]. Bulletin of the Medical Library Association, 1996, 84(4): 591.

[4]蔡佳慧, 张涛, 宗文红. 医疗大数据面临的挑战及思考[J]. 中国卫生信息管理杂志, 2013 (4): 292-295.

[5]丁同勤. 可动态扩展的医疗数据集成可视化系统设计与开发[D]. 浙江杭州:浙江大学, 2016.

[6]王艺, 任淑霞. 医疗大数据可视化研究综述[J]. 计算机科学与探索, 2017, 11(5): 681-699.

[7]ALLARD R. Use of time-series analysis in infectious disease surveillance[J]. Bulletin of the World Health Organization, 1998, 76(4): 327.

[8]ANDERSON R M, GRENFELL B T, MAY R M. Oscillatory fluctuations in the incidence of infectious disease and the impact of vaccination: time series analysis[J]. Epidemiology & Infection, 1984, 93(3): 587-608.

[9]EUBANK S, GUCLU H, KUMAR V S A, et al. Modelling disease outbreaks in realistic urban social networks[J]. Nature, 2004, 429(6988): 180.

[13] 柏延臣, 李新, 冯学智. 空间数据分析与空间模型[J]. 地理研究, 1999, 18(2): 185-190.

猜你喜欢
可视化医疗疾病
基于CiteSpace的足三里穴研究可视化分析
思维可视化
进击的疾病
尿碘与甲状腺疾病的相关性
易与猪大肠杆菌病混淆的腹泻类疾病鉴别诊断
夏季养生之疾病篇
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
京张医疗联合的成功之路
我们怎样理解医疗创新