运营商大数据助力疫情防控

2020-04-24 02:32朱常波中国联通智能城市研究院北京100048中讯邮电咨询设计院有限公司北京100048中国联通网络技术研究院北京100048
邮电设计技术 2020年3期
关键词:栅格示例传染病

朱常波(1.中国联通智能城市研究院,北京 100048;2.中讯邮电咨询设计院有限公司,北京 100048;3.中国联通网络技术研究院,北京 100048)

1 背景

2020 年伊始,一场态势凶猛的新型冠状病毒感染的肺炎疫情席卷而来,波及全国,时刻牵动人心。面对来势汹汹的病毒,一场没有硝烟的战争正在打响。这不仅是一群人、一个城的战斗,更是一场全民的战斗。

习近平总书记主持召开中央全面深化改革委员会第十二次会议指出[1],鼓励运用大数据、人工智能、云计算等数字技术,在疫情监测分析、病毒溯源、防控救治、资源调配等方面更好发挥支撑作用。工业和信息化部副部长陈肇雄主持召开疫情防控大数据专家会商会[2],传达了国务院应对新型冠状病毒感染的肺炎疫情联防联控机制会议精神,研究部署大数据支撑服务疫情防控相关工作。

中国联通作为拥有4 亿用户的电信运营商,充分发挥全国31 省一点集中的数据优势,面对疫情,快速响应,在保证用户隐私安全的基础上研究开发了一系列大数据疫情防控产品并面向全国部署,为疫情防控的精准分析、精准施策等提供了数据支撑,确保疫情防控科学有效推进。

本文主要介绍了运营商大数据在新型冠状病毒疫情防控阻击战中的探索及应用。文章组织结构如下:第2 部分对运营商大数据的特征与能力进行了介绍;第3 部分阐述了运营商大数据在控制传染源和传播途径、防止疫情扩散方面进行的5 项数据分析及研判;第4部分对全文进行了总结。

2 运营商大数据特征及能力

运营商拥有百万级的基站资源、十亿级的出账用户数、PB 级日均数据生成及采集量,数据维度全面包含了用户信息、地理位置、上网行为、历史轨迹、社交关系、支付能力等多元内容,可准确实时地反映用户全息行为状态。更进一步,可以通过机器学习、AI 技术建模,完成用户行为分析和意图预测。

运营商大数据相较于其他行业,有着无法比拟的诸多优势。运营商拥有多张移动网络,全生命周期时间连续,全生命周期空间完整,在覆盖时间、覆盖范围上遥遥领先于其他行业。运营商以电话号码/IMSI/IMEI 标识来整合打通各类数据,与GPS、统计数据等相比,可直接追溯到自然人。通过运营商大数据可以获取用户身份信息(WHO)、时间信息(WHEN)、位置信息(WHERE)、终端信息(WHICH)、行为信息(WHAT)和感知体验(EXPERIENCE),形成每个用户的动态标签库,从行为轨迹、业务偏好、时空分布、社交属性等维度360°刻画人们的日常工作与生活,如图1所示。

图1 运营商5W+E大数据分析体系

运营商大数据来源于生产网络,无人为因素干扰,具备全面性、多维性、中立性、完整性等特点,通过这些不同维度数据的交叉关联,可以创造更多新数据和新价值,部分应用方向如表1所示。

3 运营商大数据助力疫情防控

新型冠状病毒引起的肺炎作为一种传染病,符合基本的传染病数学模型。该模型通过研究病毒的传播速度、空间范围、传播途径、动力学机理等问题,定量地研究传染病的传播规律,可以帮助发现传染病传播机理,预测传染病的流行趋势。按照不同类型传染病的传播特点,可将模型划分为SI、SIR、SIRS、SEIR等。由于新型冠状病毒具有潜伏期且在潜伏期具备传染性,因此可采用SEIR 模型描述传播过程[3]。图2所示的是SEIR传染病模型示例。

表1 运营商大数据应用方向示例

图2 SEIR传染病模型示例

SEIR 模型包括易感者S(Susceptible)、潜伏者E(Exposed)、感染者I(Infectious)、康复者R(Recovered)4类角色,β和α表示传染概率,γ表示康复概率。

为了对疫情进行有效防控,需要从控制传染源和控制传播途径2 方面着手。基于运营商大数据,可以从以下5个方面进行分析及研判。

3.1 人群来源地识别

运营商数据具备分析用户群体时空信息的能力,通过位置信息、时间戳,可以获取用户的时空轨迹,从而掌握用户出行特征。通过运营商大数据对疫区(湖北武汉)的来访用户进行重点识别跟踪,对疫情防控意义重大。

通过样本数据观测分析,针对返京群体来源地进行详细分析,如图3 所示,1.64%的用户来自湖北(含途经),其余98.36%的用户来自湖北以外区域。2 月2日、2 月3 日每天有来自武汉地区200 人左右,途径武汉及来自湖北其他地区4 000 人左右。

图3 返京群体来源地分析示例

获取来自疫情严重地区人员群体之后,可以通过手机驻留或业务连接小区识别用户的全天活动轨迹,对于控制疫情传播意义重大。如图4 所示,2 月3 日来自武汉的返京群体主要聚集在通州北苑、海淀颐和园、昌平沙河、门头沟仙台等区域。从行政区角度看,丰台、大兴、昌平、朝阳、海淀位置点较多。

图4 来自武汉返京群体地理分布示例

同理,可分析途径疫情严重地区的人员轨迹分布,如图5 所示。2 月3 日途经武汉的返京群体活动轨迹中,昌平回龙观、立水桥、丰台天元公园等位置点出现较多。从行政区角度看,朝阳、海淀、昌平位置点较多。

3.2 高频活动群体分析

在SEIR 传染病模型中,新增感染人数和潜伏者、传染者、感染者接触到的易感者人数、传染概率、潜伏者转化为感染者概率等因素正相关。因此,高频活动群体成为潜伏者的概率较大,而监测管理该群体,可以有效降低感染者接触到的易感者人数,对于病毒防控有积极作用。

基于运营商数据,我们可以通过用户的业务流向、行为偏好、时空轨迹等来分析用户的职业群体标签,如网约车和外卖职业群体,识别方式如表2所示。

高频活动群体一旦感染,由于其自带很高的r值,病毒会迅速传播。如图6 所示,2 月3 日北京市内高频活动用户占比超6%,高频活动群体中外卖人员和出租车司机占比较高,达到10.68%。如图7 所示,结合特定群体轨迹分析,高频活动人员主要活动区域集中在东城区、西城区和丰台区。

3.3 自我隔离度监控

新冠病毒在潜伏期就具备传染性,最长可达24天的潜伏期,因此在排查并识别传染源的基础上,有效监控、抑制病毒的传播途径也是疫情防控的重要手段,可采取包括居家自我隔离等有效方法。各省市在进行了人工管控和封闭式管理外,可通过运营商大数据作为辅助手段进一步监控隔离情况。

图5 途经武汉返京群体地理分布示例

表2 高频活动群体特征识别

图8 为北京各个区域人群的静止和移动特性,可见不同区人群移动性差异明显,其中海淀区、怀柔区市民整体移动距离小于2 km,具有统计意义上的较好隔离度;而丰台区、东城区范围内市民的移动性相对较强,丰台区超过2 km 移动距离的群体占比达68%,隔离度较差。通过对地图进行栅格化处理,获取各栅格静止、移动统计结果如图9 所示。深红色表示该栅格内用户移动性强,有超过60%的用户活动范围跨度大于2 km,需要进行重点监测和防护,例如木樨园、大兴机场等区域;其他颜色表示用户自我隔离度相对较好。

3.4 栅格化危险指数评估

基于运营商大数据,考虑人口密度、职业群体分布、自我隔离水平、用户出行计划和意图等因素,综合评估城市中各个栅格的危险指数及防疫安全等级(如图10所示),并通过可视化平台观测风险预警,可将疫情风险度量化到栅格单位内,为科学防治、精准施策的防疫支撑工作提供参考依据。

图6 高频活动群体所占比例及职业分布示例

图7 高频活动用户群体地理分布示例

图8 市民移动距离情况分布示例

图9 栅格区静止、移动指数监测示例

3.5 公众关注度及情绪指数

通过分析用户浏览微博、新闻等APP 的业务使用行为,结合互联网公开数据接口,获取用户对疫情的关注程度。基于自然语言处理算法对用户微博、新闻留言等多元文本进行情感研究与分析,可进一步判定用户情绪指数(积极/消极,喜悦/愤怒/恐惧等),关注人群舆论导向。如图11所示,可见公众对疫情的关注度在2 月10 日达到顶峰,之后逐步下降,同时公众情绪正在缓慢由消极向积极进行转变。

4 总结

本文从传染病模型出发,分析梳理了运营商大数据在控制传染源和传播途径、防止疫情扩散方面进行的5项数据分析及研判,主要包括:

a)对人群来源地进行识别,对于疫区返京人口进行重点筛查,辅助官方对其进行隔离。

b)针对高频活动群体进行重点分析,获取其出行轨迹及分布规律,降低其接触易感人群的概率。

c)对人群活动范围及自我隔离程度进行监控,鼓励市民居家隔离,控制病毒传播。

d)将城市地图栅格化,并针对不同栅格评估其危险指数,为市民出行提供参考依据。

e)获取公众对疫情的关注度及情绪指数,避免人群过度恐慌,维护社会稳定。通过上述分析结果,可在疫情态势研判、疫情精准防控等方面为政府提供有力支撑,为公众提供民生服务,以大数据助力打赢疫情防控阻击战。

图10 栅格区危险指数评估示例

图11 公众情绪和关注度指数

猜你喜欢
栅格示例传染病
《传染病信息》简介
传染病的预防
基于邻域栅格筛选的点云边缘点提取方法*
3种传染病出没 春天要格外提防
基于A*算法在蜂巢栅格地图中的路径规划研究
呼吸道传染病为何冬春多发
2019年高考上海卷作文示例
常见单位符号大小写混淆示例
“全等三角形”错解示例
飞吧,云宝