王建斌,苏效东,刘东升
(1.浙江大学,浙江 杭州 310027;2.中国电信股份有限公司浙江分公司,浙江 杭州 310014;3.华信咨询设计研究院有限公司,浙江 杭州 310052)
目前新冠病毒仍在世界各地传播,全世界感染患者已经过亿,且不断出现新的变异,疫情防控不能松懈。流调作为疫情防控工作中的一项基本、重要的工作,能够让密切接触者尽快得到排查,让患者尽快得到救治,是防止疫情扩散的重要保障。
“流调”的全称是流行病学调查,和我们平常看病不同,它是研究人群的疾病和健康状况,制定新冠肺炎的预防措施和防治策略。了解新冠肺炎的病因和危险因素:如样本采集、通过现场调查、面对面与患者交流,询问患者发病前后的暴露情况、接触情况、活动轨迹、就医情况,寻找与传染源和传播途径有关可能性,进而描绘清晰的传播链,为判定密切接触者、采取隔离措施、划定消毒范围提供依据等。
但在实际流调过程中存在种种困难。被调查者由于记忆原因,无法描述行程细节,排查密接人员复杂,甚至部分被调查人员出于种种原因,隐瞒行程、病情,不仅不利于自身的治疗,对疫情防控工作还会造成不利影响。
由于新冠肺炎病毒强大的传染性及长潜伏期,采用大数据和最新的信息技术对新冠肺炎的传播轨迹、扩散速度、接触人群等重要信息进行建模和数据分析,对政策制定、防范措施设计和应对措施及建议具有重要意义。
如今运营商的5G 网络已经基本完成主体框架的搭建。由于5G 网络的频率特性和速率、时延等方面的更高要求,其蜂窝半径较4G 网络更为密集,在定位精度上有明显的优势。借助5G 移动网络大数据,通过追溯患者移动轨迹、建立个体关系图谱等方式可以更为精确客观地锁定时间、地点及周边密集接触人群,是常规疫情流调方式的有力补充。
运营商的无线侧数据有MR(Measurement Report,测量报告)数据、CDR(Call Detail Record,呼叫详细记录)数据和信令数据。
运营商的无线网络中有MR 测量报告,主要来自终端和基站的物理层、RLC(Radio Link Control,无线链路控制层)层以及在无线资源管理过程中计算产生的测量报告,包含基站小区ID、AOA(Angle of Arrival,天线到达角)、Tadv(Timing Advance,时间提前量,可用于折算用户到基站的距离)和接收到的相邻小区信息以及网络信号质量信息等。
CDR 用于记录一个呼叫或者上网业务的关键历史信息,包括该呼叫的终端特征信息、呼叫建立特征信息、QoS(Quality of Service,服务质量)相关信息、呼叫过程行为信息、呼叫释放相关信息等。在用户RRC(Radio Resource Control,无线资源控制)建立及切换入新的基站时,系统各自生成一张呼叫详细记录。一条CDR 记录应记录用户一次完整的RRC 连接过程,包括从RRC 连接请求到RRC 连接释放的所有对应的呼叫基本信息、呼叫建立、释放、切换、承载、UE(User Equipment,用户设备)能力、RLF(Radio Link Failure,无线链路连接失败)等相关信息。
核心网提供对应时间IMSI(International Mobile Subscriber Identity,国际移动用户识别码)/MSISDN(Mobile Subscriber Integrated Services Digital Network Number,手机号码)与AMFUENGAPID(Access and Mobility Management Function User Equipment Next Generation Access Point Identifier,AMF给用户分配的接入点标识)的关联关系表,从而将MR、CDR 中的用户IMSI/MSISDN 关联出来,便于筛选单用户连续话单和信令。
其他信令流程数据:终端在空闲态的情况下,有跨LAC/TAC(Location Area Code/Tracking Area Code,位置区/ 跟踪区域码)和周期性位置更新等信令流程,信令消息包括终端登记的时间、小区信息等。
(1)移动大数据的多维度关联分析
地理化定位是基于移动通信网络测量的无线信号来确定UE 地理位置信息以及呼叫行为属性信息(室内或室外呼叫、移动速度)的技术。移动大数据包含时间、地点、内容等多个维度,如周期性网络测量报告MRO(Measurement Report Originality,周期性测量报告)的上报,期间还会有A2、A3、A4、B1、B2 等切换事件 的MRE(Measurement Report Event,周期性测量报告)。这些报告里面包含了可关联用户IMSI 信息的AMFUENGAPID 以及可以用于定位的相关字段信息。
除以上MR、CDR 数据,运营商在各核心网络接口部署的DPI(Deep Packet Inspection,基于数据包的深度报文检测技术)解析的xDR(x Detail Record,用户面和信令面详单)数据,记录了用户终端使用各类APP 与网络交互的KQI 信息,可用于新冠流调的信息包括接入的无线网元和OTT(Over-The-Top Application,OTT 应用)定位数据。
因此用户在网络侧留下的数字痕迹将包括持续的时间、大概位置等记录,从而使活动轨迹追溯成为可能。相比通过视频监控、人脸识别技术等多部门联合关联的方式追溯活动轨迹,移动大数据在这方面具备明显的优势。
移动大数据可从用户维度、时间维度、地理区域维度等多个维度来关联分析用户在网情况、室内外情况、移动静止情况、停留时长等,这在新冠流调时用于追溯追踪感染者或者密切接触者移动轨迹、建立个体关系图谱中有重要的意义。
(2)MR 定位算法
MR 定位技术如图1 所示,运营商将MR 数据用于网络评估和优化、规划与建设方面,目前已经有大范围的成熟应用。近几年随着数据中台的建立,通过挖掘XDR 大数据中的MR 数据(含最小化路测数据)和OTT 数据,结合经纬度和MR 特征测量项建立指纹库,显著提升了MR 定位精度,密集城区定位精度可达20 m。加之利用MR 电平特征、邻区关系、切换关系、小区属性、用户移动特征以及地图地物特征建立的室内外特征库,实现了多维度判定用户MR 室内外属性与建筑物归属。利用国内多种特征生长算法核心专利,通过大数据挖掘的机器学习特征训练和状态区分算法,已经在3D 覆盖评估与规划优化方面有了成熟的应用。
图1 MR定位技术
目前,业界基于MR 应用的定位方法大致可以分为四类:
1)GPS/AGPS(MDT)定位:利用终端自带的GPS/AGPS 模块,经过测量、计算后上报位置信息,该方式精度较高,R10 以上版本的终端可以上报MDT 的测量报告。MDT 是3GPP 提出的一种通过网络配置对普通用户/商用终端进行测量数据采集、上报的自动化路测技术,只要用户终端开启GPS 并支持MDT 功能,终端就能向基站自动上报包含用户位置信息的MDT 数据。MDT 和MR 类似,包含RSRP(Reference Signal Received Power,参考信号接收功率)、RSRQ(Reference Signal Received Quality,参考信号接收质量)等字段,并含有GPS 经纬度信息,可用于大数据分析。由于终端在室内接收不到卫星信号或者用户关闭GPS 定位开关导致该定位方法无法使用,因此不适合大范围采用纯MDT 方法做定位,这些数据可用于校准特征库/指纹库,辅助提示精度。
2)特征匹配定位:业界也叫DCM(Database Correlation Method)或指纹(Fingerprint)技术,通过构建网络覆盖范围内每个地理点上各小区电平或者信噪比的信息特征库,比较手机上报信息与已有数据库信息的异同,根据匹配程度确定手机相应的位置栅格点来进行定位。该定位方式的特征库越准,定位精度较高,且适合于各种制式、大部分场景,实用性强。特征库的特征信息可以通过仿真得到,也可以进一步融合路测数据、AGPS 数据、Wi-Fi 等来构建或校正。
3)基于测距的几何定位:通过测量终端到基站的距离,再根据一定的算法,计算出它的位置坐标。位置数据可以在网络侧进行计算,UE 只提供测量数据(即UEassisted,UE 辅助);也可以在UE 侧进行计算(即UEbased,基于UE)。根据计算方式可以细分为三类:
◆根据路径损耗模型定位:根据信号强度计算路径损耗(已知导频功率以及UE 测量导频接收功率,两者之差便是路径损耗),当UE 测量到多个小区时,根据传播模型求解UE 到多个小区的距离,并基于三边或多边几何求解定位。受建筑物阻挡、反射、衍射等传播环境的复杂性影响,用路径损耗折算距离的误差较大,因此这种方法的定位结果精度不高。
◆根据传播时延定位:由于无线信号以恒定的速率传播,可以根据传播延迟的时长来计算距离,然后通过终端邻区信息的多个小区反馈的时延或者相对时延信息计算的距离作为半径画圆,以多个圆相交或多双曲线相交求解的几何计算方式来确定用户的位置。该定位方法需要由多个不同位置的基站小区信号来进行几何位置相交确定,对于终端接收信号比较单一的情况,还需要借助用户行为模拟等方法拟合短时间内多条MR 信息,因此通常只作为辅助定位手段。
◆基于角度AOA 的定位:该方法不需要基站间同步,但需要基站装有可测量入射角的智能天线,通过计算UE信号到达基站天线的角度信息,再通过三角测量法计算出UE 的位置。
4)基于CELLID 的拓扑质心几何定位(WCCL,Weighted Centroid Correction Location):基于MR 中的CELLID 的站址得到一个多边形拓扑,通过计算该多边形的质心位置得到UE 呼叫的大体位置。该方法通过融入CELLID 的方位角、信号强度作为加权因子,演进为一种基于加权的拓扑质心定位,能进一步提升定位精度。其中,MR 测量上报的小区结合小区室内外属性,基于室分站的理论覆盖范围相对宏站更小的特点,通过增加室分站的权重,结合室分站的工参经纬度,收缩定位误差。
5)OTT 定位:该方法是依托互联网应用向海量用户提供的定位服务,基于APP 软件提取有效的用户位置信息,并利用用户标识关联到用户此时此刻的MR 数据中。由于APP 上报的经纬度存在坐标系不同和干扰数据等问题,通常需要先进行坐标系转换纠偏和数据清洗后才能得到有效的OTT 经纬度。由于一般APP 应用都会使用GPS/AGPS、Wi-Fi 和基站等进行定位,大部分最终得到的OTT 经纬度精度都比较高。另外,由于用户可能会在应用侧关闭位置访问共享、关闭终端GPS 等,且随着国家对各APP 获取用户终端关键信息权限的严格审查,OTT 获取的数据有限,不适合纯采用OTT 做定位,因此建议用于辅助关联MR 来建立特征指纹库。
综上所述,在进行MR 位置定位时,根据数据源输入满足的条件分别按AGPS(MDT)定位、室分小区定位、RTT(RTT 时延,Round-Trip Time)定位、特征匹配定位、WCCL 定位的顺序自动降级进行混合定位,并分别计算对应的置信度,选择较高置信度的定位结果。其中,AGPS 和RTT 外部依赖较多,只能作为辅助定位手段。
构建室内外呼叫环境的特征模型,结合网络无线环境特征、用户行为特征和用户地理位置识别室内外呼叫,并估算呼叫过程中的用户移动速度。基于以上分析结果,结合电子地图的地理信息对定位结果进一步校正,可以将终端在室内上报的MR 匹配到附近的建筑物上,将识别为室外上报的MR 匹配到附近的道路上。利用快速定位技术,移动网络在城区MR 定位精度可达80~120 m。而实际基于密集城区的5G 网络,由于站间距更小,精度可达50 m。再利用以上根据数据源满足条件的混合定位技术,可大幅提升定位准确性。相比LTE 小区,覆盖范围广且无任何波束指向性,NR SSB 波束带有方向性且波束覆盖范围窄,基于波束级的用户到达角估计和高精度TA测量结果,可以更精准地计算UE 位置。典型场景下各种定位算法定位精度如表1 所示:
表1 典型场景下各种定位算法定位精度
(3)3D 覆盖可视化评估应用
通过MR 数据解析,采用3D MR 地理化呈现网络情况,能快速了解用户分布和所处位置网络状况、用户流量状况,有针对性地进行优化调整、规划站址和市场营销,节省了大量的时间以及人力、物力。同时3D MR 地理化呈现方法能够展现高楼小区的用户分布、流量使用等信息,为前端业务发展提供了用户模型。
通过3D MR 呈现的楼宇覆盖、流量和用户分布情况对楼宇进行优先级排序,点对点制定最优的网络规划、网络设计,识别高优先级楼宇进行优先规划,达到精准规划、价值设计的目的。
3D 网络覆盖评估模型如图2 所示:
图2 3D网络覆盖评估模型
3D 覆盖评估效果如图3 所示:
图3 3D覆盖评估效果
通过3D MR 评估后对现场进行测试验证,准确度达到85%,较为准确地反映网络情况。
通过关联基站的经纬度、MR/CDR 中的AOA,、Tadv、邻区等关键信息,结合地理化算法,可以实现单用户活动轨迹的追溯。通过时间维度和地理位置维度的汇聚关联,可以绘制出密切接触关系图谱等关键信息。
建模流程架构如图4 所示:
图4 移动大数据建模流程图
建模步骤:
(1)第一步:数据采集。包括基站工程参数、地图、MR/CHR、配置文件、信令、核心网xDR、应用侧SDK 等。
(2)第二步:数据关联和预处理。通过核心网提供的对应时间IMSI/MSISDN 与AMFUENGAPID 的关联关系表,将MR、CDR 中的用户IMSI/MSISDN 关联出来。提取简化用于流调的字段,从而减小数据量的存储。
(3)第三步:地理化经纬度回填。对于包含MDT的MR 数据,经纬度已经有精准值。对于非MDT 的MR数据,则利用三点定位、MDT 数据特征库指纹库以及其他辅助定位技术将每条MR 上报的位置经纬度计算回填。
(4)第四步:MR 和XDR 关联数据交换。DPI 平台探针侧的XDR 数据,部分已关联了终端SDK 应用侧OTT 业务的位置信息,可以用于关联此期间没有MDT 位置数据的MR,回填MR 上报的经纬度位置。对于没有OTT 位置数据的XDR,则通过关联用户当前时刻的MR 位置结果定位。当原始MR 和XDR 都没有经纬度则通过MR 定位计算算法回填,有利于进一步提升定位的准确性和完整性。
(5)第五步:轨迹回溯。通过以上步骤,每一条MR/CDR/XDR 都已经回填了位置信息。因此,通过运营商4A 管理授权模块,将不同时间段的授权位置数据进行纵向串联,能够有效绘制出手机持有者的移动轨迹,在哪些区域停留了多久等情况,并地理化显示在GIS(地理信息系统,Geographic Information System)地图上。
(4) 因反倾层面约束、突发滑坡后水压力的迅速消散自动止滑,斜坡不致迅速滑移、翻转发生破坏,而是沿有利于其活动的砂泥岩接触面向南蠕滑(间歇式滑动)变形(图17),此时,后缘裂隙的性质转变为张剪(参见图5、6)。活动的矢量方向为运动合成后的方向——S205°W,如图16(b)。
(6)第六步:密切接触者图谱。将同一时间点不同个体的位置数据与感染者出现过的位置进行横向整合,过滤出多个时间和位置都与感染者轨迹吻合的人群,绘制出一级密切接触者图谱,并据此监测人群动向,便于关联密切接触者的下一级密接关系。
(7)第七步:区域疫情发展态势评估。通过拉取感染者以及密切接触者图谱人群的活动轨迹,对比显示活动区域的人口迁徙流入流出情况,从而评估当前区域的疫情防控态势,适时升级防控等级。
利用上述流调模型,在取得合法授权的情况下,采集部分用户无线大数据进行仿真应用,设定查询的指定时间,即可回溯用户的相关活动轨迹。地图上单击事件点,能显示用户当前位置的上报时间、网络质量等信息。
在传播链排查时,叠加病患的活动轨迹,对照MR中的时间和位置,将疑似密切接触者圈选出来,必要时可以进行定向发送疫情防控短信,提醒主动自检或者前往疾控中心检测,防止在不知情的情况下发生再次传播。
图5 为基于用户CDR 与MR 定位结果示意图:
图5 基于用户CDR与MR定位结果示意图
在关键重点场所如医院、机场、火车站、汽车站等设置独立位置区,进出指定场所的用户将在网络侧自动进行登记。在合法合规的情况下,网络侧将此类用户的相关无线信令数据进行额外安全加密保存,留存时间至少14 天。
由于移动网络信令数据是海量的,需要对于重点场所用户的数据进行单独存放,一方面利于对疑似病患进行快速轨迹回放,无需从全网海量数据中去查找;另一方面,对进出特定位置区的用户根据不同时间段广播疫情防控短消息,提醒疫情防控措施,提升流动人口的防范意识。
由于移动大数据记录了大量的用户信息,如用户属性、行踪轨迹、上网浏览偏好、频率等内容,运营商在进行数据挖掘和分析的过程中,面临着数据保密、用户隐私等一系列问题,需要有相应的安全管控框架,从网络、设备、应用三个层面规范与保护数据安全。
在现行的运营商大数据平台应用中,已经对用户隐私信息进行了数据加密脱敏处理,针对数据汇集和使用中的个人隐私保护问题,建立了完善的数据开放访问机制。建立、健全帐号口令管理、安全配置管理等安全管理制度,定期进行安全检查和风险评估,对发现的安全漏洞及时进行加固。建立终端接入的审批流程,部署终端接入管理系统(如4A 堡垒机等),确保维护人员所有操作可审计、可追溯等。
在用户信息隐私方面,目前各运营商都严格遵守《中华人民共和国网络安全法》关于“电信和互联网用户个人信息保护规定”。但是大多靠企业自身管理,针对相关网管进行区分帐号区分数据权限,落实到部门和个人来进行管理。对于查询用户级日志的事务,需要通过申请,审批通过之后才能进行相关查询。
值得注意的是,在国家倡导的用户携号转网政策推出之后,中国移动、中国联通和中国电信已经合作启动了一项计划,三大运营商将在区块链上共享客户的KYC 数据。通过分配加密Token 或者唯一哈希给对应客户,可以实现KYC数据在三大运营商之间共享,将来可以通过基于区块链的身份识别系统来进行用户隐私相关方面的保护。
基于区块链的KYC 解决方案及客户信息共享和保护是属于电子信息安全审批技术领域和区块链数字身份信息安全领域,用于解决目前区块链应用场景中用户数字身份认证和保护,及不同商业场景的数据共享过程中用户隐私安全的技术问题,主要使用了区块链中的非对称加密技术、分布式账本及信息加密状态审批等技术方案。
因此,对于疫情防控流调,在保证当事人的隐私权和知情权情况下,可通过监管部门统一的基于区块链的身份识别系统来进行涉及特定用户信息的访问。
国内在此次疫情防控工作中展现出了更高的医疗救治水平、更快的防疫反应速度、更透明的信息披露机制、更迅速的数据报送体系,同时将大数据等新一代创新科技广泛应用于疫情追踪溯源、路径传播、发展模型预测、资源调配等领域。
在疫情防控常态化的大背景下,除了航空、铁路、公路、轮渡等交通部门统计的出行数据外,电信运营商在用户授权的前提下基于手机信令上报信息能够有效定位用户的手机位置,结合互联网企业通过APP 授权调用用户手机位置数据(OTT 数据)作为辅助定位特征指纹库,可以精准定位疫情传播路径,从而为疫情防控所需的移动轨迹追踪、关系图谱建立等提供更为高效的手段。
现今移动互联网应用渗透到了社会生活的方方面面,产生的数据是海量的。面对突如其来的紧急公共危机事件,在有完备的法律授权条件下,利用移动大数据可以快速查清确诊或疑似病例的活动轨迹、社会关系、传播链条等。同时个人数字信息隐私需要做到更全面,更安全的保护,需要在个人隐私信息收集、处理、存储、使用和披露的各个环节,引入隐私AI,结合区块链技术逐步的重构现有的流调云计算与大数据模式。在严格的数据隐私保护条件下,利用“最小必要”原则规范流调过程,设置流调公布内容,在获得显著社会效益的同时最大程度地保护公民的个人数字基本权益。