赵煜 盛莉莉 全诗文
1. 中国联通江苏分公司;2. 中国联通南京分公司
从2002年的SARS到2019年的Covid-19,近年来多个疫情呈现出爆发时间短且传播迅速的特征,给全世界人民带来了灾难性的影响,对各国政府、卫生机构及防疫部门提出了严峻的挑战。
面对重大突发公共卫生事件,以往缺乏大数据的支撑,通过跟踪跨城市人口流动的情况来判断疫情的传播路径,通常需要在道路卡口,挨个询问车辆的去向,或是入户做社区调查,最后逐级上报汇总数据。运用此方法得到的数据严重滞后,疫情防控效果差。
电信大数据来源于公众通信网络中的基础数据,通过对信令数据的统一采集和实时处理,本地用户和外省地区间漫游数据的融合,更全面地了解全国涉疫人员流动信息,实现全轨迹链的还原分析,可以较为准确地统计分析全国各省市以及重点区域人员流动情况。借助电信数据实名制并与自然人强关联特征,大大提高了防疫数据时效性。通过结合卫生防疫等其他部门数据,可以进一步对确诊、疑似患者和密切接触者等重点人群的分布等进行分析研判。有了以上数据,通过多种算法,实现感染者来源追溯、疑似病例监控与扩散预警、疫情趋势预测、疫情分析与通报等应用,面对重大突发公共卫生事件,发挥信息时代的数据和技术在防疫中的重要作用。
疫情防控的关键在于疫情早期的及时发现、疫情爆发后的传染链隔断以及疫苗和特效药的研发。
本研究主要关注疫情爆发后的传染链隔断,这一点通常通过几种方式共同实施来实现:
(1)依据感染方式的不同,通过物理隔离等方式减少病毒或病菌在人和人之间的传播;
(2)尽早发现并隔离已被感染的人(通常在人传染传染病后一段时间内不具有传染性);
(3)通过对已确诊者接触的人群进行追踪,通过试剂等手段进行检测确认,隔断其中可能存在的被感染者再传播的几率。
在这三点中,后两点都需要能够对确诊者是何时、如何被传染的进行判断,同时有对确诊者所接触的人群有追踪确认的能力。在这方面,运营商的大数据,尤其是MR数据以其用户级、包含位置信息的特点,可以提供准确而及时的辅助作用。传染病的爆发多是指数型特征,在与病毒或病菌争抢时间的过程中,将运营商MR数据充分运用,引入疫情防控的体系中,可以极大提升疫情防控的反应速度和能力。
本研究通过基于神经网络的MR定位、国际移动用户识别码(International Mobile Subscriber Identity,IMSI)回填及场景识别、密切接触者回溯与识别四种关键技术,实现了确诊者的轨迹跟踪,并对确诊者从潜伏期到隔离期间的密切接触者进行识别,有效协助卫生防疫部门迅速斩断传播链。同时通过场景识别和轨迹跟踪,对确诊者所处的空间类型,到达场所进行识别,有助于卫生防疫部门及时采取消杀措施,对于确诊者所到达的室内密集区域,通过运营商数据对进出人员进行快速识别。
本方案的核心在于对确诊用户的行动轨迹进行跟踪,因此需要对用户终端上报的MR进行定位。虽然目前的4G终端具备最小化路测(Minimization Drive Test,MDT)功能,可以直接上报用户位置信息,但是目前由于受限于终端,全网MDT的上报率仅有3%左右,在疫情情况下,仅靠MDT数据无法满足防控工作的需求,因此需要对MR数据进行定位处理。
传统的MR定位采用基于时间提前量和来波方向进行定位的方法或者三角场强定位算法,定位精度低,对于分析结果影响非常大。本研究通过路测(Drive Test,DT)/MDT/基于开放互联网的各种视频及数据服务业务(Over The Top,OTT)数据进行特征库训练,形成指纹库,并通过指纹库对传播模型进行校验,通常,指纹库训练采用DT、MDT、OTT数据之一,但是由于这三种数据都有一定的局限性,DT数据仅涉及一些主干道,MDT目前并非所有的终端都支持,OTT数据存在加密问题,因此,江苏联通采用了基于DT,MDT,OTT的多维指纹库定位,形成丰富的指纹训练样本。
指纹库建立后,需要将每个MR采样点与指纹库进行匹配,由于MR数据量大,需要能够快速进行特征匹配,这就像在几张照片中寻找一个熟人的面孔,对人脑而言,几秒钟便可完成,但如用计算机来处理,以现有的技术,是不可能在短时间内完成的。在MR指纹库匹配算法中,借鉴了大脑这种并行模糊式工作原理,采用了神经网络算法代替传统的模式匹配的标准算法,比如KNN算法。概率神经网络是径向基网络的一种变化形式,在程序微观内部结构上模仿人脑的神经进行并行分布系统处理的工作模式:它具有结构简单,训练快捷等特点,应用非常广泛,特别适合于模式分类问题的解决。在模式分类中,它的优势在于可以利用线性学习算法来完成以往非线性算法所做的工作,同时又可以保持非线性算法高精度的特性,用于指纹库匹配,取得了非常好的效果。
利用已有数据(DT数据/MDT数据/OTT数据)进行概率神经网络的权值训练,输入数据包括:RSRP场强,输出经纬度信息,这样可以得到一个神经网络的模型,当新的MR数据输入时,使用该模型进行计算,得到概率最大的计算结果,即是经纬度数值。
用户终端上报的MR数据不包含IMSI信息,因此无法通过确诊用户的号码信息对用户进行跟踪。而用户话单(x Detailed Record,xDR)数据中含有用户的IMSI信息,需要通过对xDR和MR数据的关联,对MR数据进行IMSI的回填,从而使所有的MR数据带有用户的IMIS号,进而可以根据用户的号码来对用户的运动轨迹进行识别。利用MR与xDR中的关键字段进行关联,如表1所示,完成IMSI回填。
表1 MR和xDR关联的关键字段
室内密闭区域,人流量密集区域,容易引发病毒的快速传播,尤其是室内封闭区域,携带病毒人员进入后,容易引起病毒在室内物品表面和空气中驻留,因此需要对确诊人员驻留的场景进行识别,判断室内外类型、人流密度,从而确定不同的防控等级,采取不同的防控措施。
场景信息自动识别主要利用互联网手段,通过高德地图,百度地图等获取兴趣点(Point of Interest,POI)信息。POI信息有两部分,一部分POI的info信息部分,一部分是POI的场景边框数据部分,两种数据均需要用于后续的场景数据处理。
场景信息获取过程如图1所示:
(1)场景数据获取方式:利用开源/FME软件,结合高德API接口,抓取口碑场景的POI信息、场景电子边框信息;
(2)场景准确性核查:通过图层GIS呈现,核查解决场景边框图层有误偏移、乱序交错问题;
(3)形成闭合曲线:将获取的场景边界经纬度信息在GIS上进行连线,形成封闭的场景边框。
图1 场景信息获取过程
通过以上方法获取的场景电子围栏可以在GIS上呈现,并与用户MR数据叠加,从而获知确诊者行踪所涉及的室内外场景类型,并且可以根据场景内的MR采样点的数量,判断该场景人流量的情况。通过场景的识别和用户轨迹的跟踪,可以判断确诊者是否在大型商超、火车站、医院等人流密集的区域驻留。根据确诊者驻留的不同场景的不同人流密度情况,防疫部门可以制定不同等级的防疫处置措施。如对于确诊者所到达的大型商超,可以根据回填IMSI后的MR数据,反向识别在指定时间内出入同一场所的用户号码。
在疫情控制的过程中,如果能够准确判断疑似患者或新确诊者与已知确诊者是否有接触、在什么情况下转触,即判断新增疑似或确诊者是在何时何地被感染的,对于确定疫情的传播模型、传播方式、未知确诊者存在规模等的判断,都能起到很大帮助。
运营商的MR数据包含了用户级位置信息,以及用户的移动轨迹信息。结合了上述提到的基于神经网络的用户MR定位、IMSI回填及场景识别算法,为推断新增疑似或确诊者与已知确诊者的接触史;以及通过所有已知确诊者的移动轨迹,跟踪确定其他可能的密切接触者、可能有传染接触的区域风险等级,提供了有力的数据依据。
密切接触者与已确诊者的接触史回溯方法如图2所示:
(1)获得已确认的感染者电话号码清单,反向匹配到用户IMSI,同时标注每个感染者的确诊时间;
(2)获得所有新增疑似或确诊者电话号码清单,反向匹配到用户IMSI,同时标注每个新增疑似或确诊的确诊时间;
(3)在整个MR记录中查询,新增和已确诊者在MR记录中是否存在MR记录时间差在time_thresh(单位为秒)以内,以及经纬度定位距离在distance_thresh以内(单位为米)的交叉历史,如果有,这个交叉历史的MR时间戳必须在新增感染者的确诊时间之前;存在交叉关系的新增和已确诊者,已确诊者的确诊时间必须在新增之前;同时这个交叉历史的MR时间戳距离新增的确诊时间之间的差距必须小于一个最大潜伏期阈值;
(4)对存在交叉的新增及已确诊者的轨迹进行可视化呈现。
图2 密切接触者与已确诊者的接触史回溯过程
本研究对用户个人信息、隐私信息进行了相应处理,确保用户信息不被泄露。采用加密、数据置换、偏移量处理,
通过MR用户轨迹对已知确诊者和新增确诊者进行接触点回溯分析,对发生接触的已知确诊者和新增确诊者的轨迹在地图上呈现,同时对接触点进行标亮。对不同用户进行分色彩渲染,红色栅格为A类用户,即前期已确诊者,蓝色栅格为B类用户,即新增确诊者,场景人流密度如图3所示,场景人流密度越高,感染风险越大。
以A类用户做样例呈现,用户号码为9a3065e00af3f1c8daf1086a47c30ad6(用户号码已做加密处理)。用户轨迹如图4所示。对用户号码、位置等信息进行脱敏,数据分级审核管理,内网运行,并全程在中国联通大数据安全体系内实施,保障数据安全。
图3 场景人流密度
与A相交的B类用户的相遇位置如图5所示。
图4 A类用户轨迹呈现
图5 A类与B类用户相遇位置呈现
相遇点放大呈现及周边场景人流密度情况如图6所示。
图6 相遇点放大呈现及周边场景人流密度情况
对所有确诊者轨迹进行分析,对周边场景进行感染风险度评估和渲染。
本研究通过基于神经网络的用户MR定位、IMSI回填及场景识别、密切接触者回溯与识别四种关键技术,实现了确诊者的轨迹跟踪,并对确诊者从潜伏期到隔离期间的密切接触者进行识别及进行地理化呈现,对于各个区域的感染风险等级也进行了分析和地理化呈现。本研究所述方法有助于卫生防疫部门及时采取防控措施,对于确诊者所到达的高风险室内密集区域及时采取消杀措施,通过运营商数据对进出人员进行快速识别,及时遏制感染的扩散。后期还可以利用电信业务实名制特性,结合公安数据,社交软件等数据,对确诊者的社会关系进行识别,及时进行预警信息的传送,避免后期的接触。