基于谷歌地图的传染病空间聚集性分析*

2014-03-10 05:25袁东方应莉娅2刘志芳罗旭红董长征
中国卫生统计 2014年3期
关键词:镇海区行政村结核病

袁东方应莉娅,2刘志芳罗旭红董长征△

基于谷歌地图的传染病空间聚集性分析*

袁东方1应莉娅1,2刘志芳1罗旭红1董长征1△

目的探讨谷歌地图在传染病空间聚集性分析中的应用,探索以社区(行政村)为单位进行空间聚集性分析。方法利用谷歌地图的地理译码技术和计算几何算法以及文本解析方法,将宁波市镇海区2005-2010年结核病的报告数据和模拟数据,转换成以社区(行政村)为单位的发病统计数据,以此为基础利用SaTScan进行扫描统计分析,比较以街道为单位和以社区(行政村)为单位进行空间聚集性分析的结果。结果无论是以街道为单位还是以行政村为单位的聚集性分析,均发现镇海区蛟川街道2005-2010年具有明显的结核病空间聚集性现象,而以行政村为单位的聚集性分析更精确地给出主要聚集区位于中官路村、五里牌村和俞范社区等行政村。对镇海区招宝山街道模拟数据的分析表明,以社区为单位进行聚集性分析能够在早期发现街道内部小范围的空间聚集性,这与以街道为单位进行聚集性分析着重发现较大范围的空间聚集性形成互补。结论谷歌地图及其地理译码技术在传染病空间聚集性分析中具有广阔的应用前景,以社区(行政村)为单位进行空间聚集性分析具有可行性和现实意义。

空间聚集性 谷歌地图 地理译码 扫描统计

为了及早探测到传染病的早期暴发从而发出预警信号和采取应对措施,中国疾病预防控制中心(CDC)在基于互联网的法定报告传染病监测信息报告管理系统(监测系统)的基础上开发了基于28种法定报告传染病的国家传染病自动预警系统(国家预警系统),分别于2008年和2009年将移动百分位数法预警模型(时间模型)和时间-空间聚集性探测预警模型(时空模型)投入了试运行[1-4]。目前国家预警系统中编码的最小行政区域为街道(镇/乡),即在运行时空模型时以街道为空间单位,分析一个或多个相邻街道在某段时间范围内传染病的分布是否具有空间聚集性。以街道为单位进行空间聚集性分析可能带来一些潜在的问题:预警范围过大导致空间分辨率不够,干预措施较难有针对性地开展;传染病早期暴发的小范围(街道内的局部)聚集性较难识别,延迟了预警信号的发出[1-4]。实际上国家预警系统中还储存了病例的具体地址信息,例如“宁波市镇海区招宝山街道城东路N号”和“宁波市镇海区蛟川街道俞范村”,但这样的文本地址信息无法直接用于预警分析。本研究以宁波市镇海区2005-2010年结核病报告数据和模拟数据为例,利用谷歌地图提供的地理译码技术将其转换成全球定位系统(global positioning system,GPS)的经纬度坐标数据,再结合计算几何算法判断病例所属社区(社区为街道下级行政区域),并利用文本解析方法判断病例所属行政村(行政村为镇和乡的下级行政区域),探讨以社区(行政村)为单位进行预警分析。

资料与方法

1.数据来源

本研究从监测系统中获取2005-2010年宁波市镇海区结核病报告数据,并在此基础上使用AEGISCCT软件[5]模拟镇海区招宝山街道结核病空间聚集性数据;各街道和社区的人口数据来源于镇海区统计局;各街道和社区的地理坐标信息来源于谷歌地图。

2.方法和内容

(1)以街道为单位的发病数据统计

直接根据报告数据中的街道编码统计各个街道的发病数。

(2)以社区为单位的发病数据统计

①病例地址地理译码 利用谷歌地图提供的地理译码技术应用程序接口(application programming interface,API)将结核病病例的具体地址信息转换成GPS坐标,从而实现文本信息数字化。

②社区边界地理译码 根据镇海区行政地图指示的社区边界,使用google earth 6.1软件(谷歌提供的免费卫星地图软件)的多边形图层功能勾画出社区边界,使得每个社区边界由不规则的32边形来表示(图1),然后导出每个多边形的顶点GPS坐标,以此来数字化代表社区边界。

图1 镇海区招宝山街道社区地图及2005-2010年结核病例分布

图2 利用计算几何算法判断患者所属社区

③判断病例所属社区 根据计算几何判断点位于多边形内外的算法,可以判断病例所属社区(图2)。从坐标点出发(如图中患者A、B和C 3个坐标点),向左侧无限远处作一水平线,可以证明,若点位于多边形内,则该点与多边形的边的交点数目为奇数,否则为偶数(如患者A、B和C与某社区边界的交点数目分别为1、0和2,前者属于该社区,而后两者不属于该社区)。该定理无论是对凸多边形还是凹多边形都成立,即无论社区边界为何种形状,都可以用交点数目来判断所属社区。利用C++Builder编程,我们实现了通过程序自动判别每个病例所属社区。

(3)以行政村为单位的发病数据统计

利用文本解析方法,通过程序自动判别每个病例所属行政村。

(4)模拟空间聚集性数据

基础数据采用2008年镇海区招宝山街道结核病报告数据(因为下文研究未发现该年有结核病空间聚集性现象),使用AEGIS-CCT软件按照设定的空间聚集性参数模拟病例,并将模拟病例注入到报告数据中。模拟聚集场景1、2、3、4分别为1个社区、2个相邻社区、3个相邻社区、所有10个社区出现结核病聚集病例,反映结核病空间聚集性随时间变化逐渐从单个社区扩展到多个相邻社区的过程。

模拟聚集场景1:聚集中心(北纬29°57′30″,东经121°42′30″),半径200米,病例数15,聚集区位于招宝山街道后大街社区。

模拟聚集场景2:聚集中心(北纬29°57′20″,东经121°42′38″),半径200米,病例数20,聚集区跨越招宝山街道后大街和总浦桥2个相邻社区。

模拟聚集场景3:聚集中心(北纬29°57′18″,东经121°42′25″),半径200米,病例数30,聚集区跨越招宝山街道后大街、总浦桥和顺隆3个相邻社区。

模拟聚集场景4:聚集中心(北纬29°57′24″,东经121°42′20″),半径1200米,病例数100,均匀的覆盖招宝山街道所有10个社区。

(5)空间聚集性分析

空间聚集性分析使用SaTScan 9.0软件(http://www.satscan.org),扫描统计量分别采用回顾性单纯空间模型(离散Poisson分布)和时空模型(离散Poisson分布)。参数设置主要采用软件默认值,最小时间单位为1年,最大时间单位为研究时限的50%(即3年),真实数据分析和模拟数据分析的最大空间半径分别为使50%和100%人口处于疾病风险中的半径,蒙特卡洛模拟次数为999次。

结 果

1.镇海区2005-2010年结核病报告数据的空间聚集性分析结果

镇海区6个街道(镇)2005-2010年结核病年平均发病率约为50/10万,低于浙江省的平均报告发病率(约为80/10万)。其中蛟川街道发病率最高,年平均发病率约为65.5/10万,而镇海区的中心城区招宝山街道发病率最低,约为40.3/10万。前者常住人口中本地人口与外来人口之比约为1∶1.5,而后者约为4.5∶1。

以街道为单位的单纯空间模型和时空模型分析,均发现蛟川街道2006年和2007年的空间聚集性分析结果有统计学意义(表1)。其中单纯空间模型发现蛟川街道在2006、2007、2009和2010年均有空间聚集性,相对风险(relative risk,RR)介于1.52和1.70之间(P值分别为<0.001、0.003、0.029和0.017);而时空模型给出2006-2007年这一时间区间内空间聚集性的RR为1.67(P=0.001)。以行政村为单位对镇海区蛟川街道的扫描统计分析验证了上述结果,并更精确指出了主要聚集区域:2005-2007年主要聚集在中官路村和五里牌村,2007-2008年主要聚集在俞范社区(表2)。

2.镇海区招宝山街道2005-2010年结核病报告数据的空间聚集性分析结果

通过病例所属社区自动判别程序,将招宝山街道2005-2010年的186个结核病报告病例自动分类到10个社区,以社区为单位统计发病数据。通过google earth将病例和社区边界的图层叠加在一起(图1),可以人工确认病例所属社区自动判别的效果,结果发现所有病例所属社区判别均正确。

招宝山街道2005-2010年结核病年平均发病率约为40.3/10万(29.9/10万~52.0/10万),低于整个镇海区平均发病率,186个结核病病例较为均匀的散布在10个社区中(图1)。与此相一致的是,无论是以街道为单位还是以社区为单位的扫描统计分析均未发现有统计学意义的空间聚集性分析结果。

表1 镇海区2005-2010年结核病空间聚集性分析结果(以街道为单位)

表2 镇海区蛟川街道2005-2010年结核病空间聚集性分析结果(以行政村为单位)

3.镇海区招宝山街道模拟空间聚集性数据的单纯空间模型分析结果

对于前3个模拟聚集场景,以社区为单位的单纯空间模型分析均给出了有统计学意义的聚集性分析结果,RR值分别为3.52、2.82和3.10(P值分别为0.014、0.013和<0.001),并且准确给出了空间聚集区域(表3);但对于模拟聚集场景4,却未能探测到有统计学意义的结果。以街道为单位的单纯空间模型分析,在模拟聚集场景1和2都没有探测到聚集性结果,只有在模拟聚集场景3和4也即招宝山街道病例数达到较高数目时,才在(招宝山街道)和(招宝山街道、蛟川街道)分别出现有统计学意义的一级(发病率为74.7/10万,P=0.011)和二级聚集区域(发病率为62.7/10万,P=0.020)。

表3 镇海区模拟空间聚集性数据单纯空间模型分析结果

讨 论

目前国家预警系统以街道(镇/乡)为单位进行预警分析,以宁波市镇海区为例,镇海区下辖招宝山街道(区政府所在地)、蛟川街道、庄市街道、骆驼街道、九龙湖镇和澥浦镇,那么空间模型或时空模型给出的预警信号的最小空间单位为一个街道或镇,所含常住人口约为10万,面积约20~60平方公里。为了提高空间分辨率,对城市可以考虑采取以社区为单位进行预警分析,而对农村采取以行政村为单位进行预警分析。在不改变现有国家预警系统信息采集方式的前提下,只能利用系统中储存的报告病例的具体地址信息,如“宁波市镇海区招宝山街道城东路N号”和“宁波市镇海区蛟川街道俞范村”。对于行政村的解析相对容易,只需要通过文本解析获得“俞范村”即可;而对于社区的解析,即通过“城东路N号”这样一个地址来判断病例所属社区则比较困难。

谷歌地图是由谷歌公司(Google)开发的已得到广泛使用的免费电子地图(国内服务器http://ditu.google.cn,国外服务器http://maps.google.com),通过其道路地图和卫星地图的API提供了诸如定位、指示、导航和测量等多种电子地图服务。

本研究利用其地理译码技术,将镇海区招宝山街道的患者地址信息和社区边界都转换成GPS坐标信息,再结合计算几何算法来自动判断每个病例所属社区。这种数字化处理方式,一方面比较高效、解析速度快;另一方面数字化的地址信息能够方便地用于多种分析处理,如地图定位和各种距离测量(患者之间的空间距离,患者与超市和车站等标识或传染源之间的空间距离),还能在估算出传染病暴发中心点之后进行反向地理译码,即将暴发中心点的坐标转换成文本地址信息并获得附近的地理标识。除此之外,通过程序控制还能把特定时间特定地点的患者展示在电子地图上,充分发挥谷歌地图作为地理信息系统平台的作用。例如,殷菲等曾利用google earth软件对扫描统计的预警结果进行三维可视化呈现,直观展示预警信息[6]。由于谷歌地图应用的最为广泛以及其API也比较成熟,故本研究把它作为工具和应用平台,实际上国内还有一些其他电子地图如百度地图(http://map.baidu.com)和图吧地图 (http://www.mapbar.com)也能提供类似功能,只需要将使用到的API做简单的修改即可轻松完成平台迁移。

国内近年来已有多项研究利用SaTScan提供的单纯空间模型、时空模型和时空重排模型进行预警分析,由于国家预警系统数据来源所限,目前几乎所有的预警分析采用的最小空间单位为街道(镇/乡)[7-12]。本研究尝试以镇海区招宝山街道下属的10个社区和蛟川街道下属的20个行政村为例,探索以社区(行政村)为单位进行空间聚集性分析。对镇海区2005-2010年结核病的报告数据分析发现,镇海区蛟川街道2005-2010年具有明显的结核病空间聚集性现象,而以行政村为单位的聚集性分析更精确地给出主要聚集区位于中官路村、五里牌村和俞范社区等行政村。对镇海区招宝山街道模拟数据的分析表明,一方面以社区为单位的聚集性分析能够比以街道为单位的聚集性分析更敏感地探测到小范围空间聚集性现象,同时缩小了聚集区域范围。同时由于模拟场景1~4代表了聚集性区域随时间扩展的过程,因此以社区为单位的聚集性分析能够更早地探测到聚集性区域的存在,从而更及时地给出预警信号。但另一方面,当聚集性区域已经扩展到整个街道所有社区的时候,以社区为单位的聚集性分析反而无法探测到聚集性现象,这与扫描统计的原理(探测发病“热点”)是相一致的;而此时以街道为单位的聚集性分析由于在更大范围的空间上进行分析,能够探测到这种聚集性。综上所述,我们的研究发现,不仅利用谷歌地图和计算几何算法将病例文本地址数字化处理在技术上是可行的,并且非常高效,而且以社区(行政村)为单位进行聚集性分析能够与以街道为单位进行分析形成互补,分别在小范围和大范围的空间上进行聚集性探测。

1.杨维中,李中杰,赖圣杰,等.国家传染病自动预警系统运行状况分析.中华流行病学杂志,2011,32(5):431-435.

2.余斐,张洪龙,赖圣杰,等.国家传染病自动预警系统在基层应用效果初步分析.中华流行病学杂志,2011,32(5):446-449.

3.徐旭卿,鲁琴宝,王臻,等.浙江省传染病自动预警系统暴发预警效果评价.中华流行病学杂志,2011,32(5):442-445.

4.李中杰,廖一兰,赖圣杰,等.传染病暴发探测时间模型和时空模型的应用效果比较.中华流行病学杂志,2011,32(5):436-441.

5.Cassa C,Iancu K,Olson K,et al.A software tool for creating simulated outbreaks to benchmark surveillance systems.BMCMedical Informatics and Decision Making.2005;5(1):22.

6.殷菲,冯子健,李晓松.Google Earch在传染病早期预警结果三维可视化中的应用.中华流行病学杂志,2011,32(4):396-399.

7.殷菲,李晓松,冯子健,等.前瞻性时空扫描统计量在传染病早期预警中的应用.中华预防医学杂志,2007,41(增刊):155-158.

8.李秀央,陈坤.扫描统计量的理论及其在空间流行病学中的应用.中华流行病学杂志,2008,29(8):828-831.

9.胡宇峰,孙振球,洪福昌,等.深圳市一期和二期梅毒时空分布分析.中华流行病学杂志,2010,31(8):876-879.

10.刘云霞,李士雪,王忠东,等.基于时空重排扫描统计量的结核病聚集性研究.山东大学学报,2009,47(12):122-125.

11.张文增,李长青,冀国强,等.空间扫描统计量在手足口病空间聚集性研究中的应用.中国卫生统计,2012,29(4):507-513.

12.彭志行,丁晓艳,陶红,等.地理信息系统分析技术在麻疹防治中的应用研究.中国卫生统计,2011,28(5):523-526.

(责任编辑:郭海强)

Google M aps Based Spatial Clustering M ethod for Infectious Diseases

Yuan Dongfang,Ying Liya,Liu Zhifang,et al(DepartmentofPreventiveMedicine,SchoolofMedicine,NingboUniversity(315211),Ningbo)

ObjectiveTo explore the method for communities(adm inistrative villages)based spatial clustering w ith Google Maps.MethodsThe geocoding technology of Google Maps,the algorithm for computation geometry and text parsing were used for data transform ing,which converted the reported tuberculosis data during 2005-2010 for Zhenhai district,Ningbo municipality and simulated data into the communities and adm inistrative villages based statistics.Then scan statistics implemented by SaTScan was respectively performed for the neighborhoods based and the communities(administrative villages)based spatial clustering analysis.ResultsBoth the neighborhoods based and the adm inistrative villages based spatial clustering analyses detected the tuberculosis spatial clustering in Jiaochuan neighborhood,Zhenhai district during 2005-2010,while the adm inistrative villages based analysis pointed out that themain clustering regions were lying in Zhongguanlu village,Wulipai village and Yufan community.Furthermore,the results for the analysis of simulated data showed that the communities based analysis could find the local clustering regions in Zhabaoshan neighborhood.Itwasmutually complementary w ith the neighborhood based analysis that tended to find the large clustering regions.ConclusionGoogle Maps and its geocoding technology were applicable to the spatial clustering analysis for infectious diseases and itwasmeaningful to detect clustering regionsw ith communities(adm inistrative villages)based spatial clustering methods.

Spatial clustering;Google Maps;Geocoding;Scan statistics

*国家自然科学基金项目(31000594),浙江省教育厅基金(Y200906182);宁波大学学科项目(XKL11D2123)

1.宁波大学医学院预防医学系(315211)

2.丽水市疾病预防控制中心(323000)

△通信作者:董长征,E-mail:dongchangzheng@nbu.edu.cn

猜你喜欢
镇海区行政村结核病
更正说明
我国行政村、脱贫村通宽带率达100%
警惕卷土重来的结核病
浙江省宁波市镇海区精英小学501满天星中队
艾滋病合并结核病的诊断和治疗
贵州省结核病定点医院名单
宁波市镇海区骆驼中心学校
梓印工坊 童心印迹——浙江省镇海区乔梓学校版画作品
陕西 行政村将实现光纤全覆盖
宁波市镇海区蛟川中心学校