应急管理场景中的手机信令数据应用探索

2022-12-18 10:12:18许致远张慧
移动通信 2022年10期
关键词:信令预警聚类

许致远,张慧

(联通数字科技有限公司,北京 100032)

0 引言

按照应急管理部发布的《应急管理信息化发展战略规划框架(2018-2022 年)》中要求,各地要加强数据分析应用,充分挖掘数据价值,为风险防范、指挥调度、应急处置等提供智能化、精细化的决策支撑手段。

在各类灾害事件中,人是主要的承受主体,针对受灾人口进行抢险救援的高效性和精准性要求也最高。但自然灾害等突发事件发生的时间和位置是难以精准预测的,而黄金救援时间有限。

传统条件下,一般通过实地走访等现场调查和土地利用密度等遥感调查相结合的方法,来获取受灾人口预警分析所需要的基础数据,以便快速、准确地确定灾害发生的位置,掌握受灾群众的分布和移动情况[1]。但这个过程中需要花费的人力、物力和时间成本较高,且准确度依赖于所使用人口估算模型与受灾场景的适配程度,其劣势在现代化应急响应要求日渐严苛的情况下逐渐暴露出来,亟需补充更为高效且性价比高的基础数据获取渠道。手机信令数据便是其中一种。

1 手机信令数据处理

将手机信令数据服务于应急管理领域由来已久,相比于通过传统方式获取所需数据,其在成本、精度和效率等方面的多重优势比较明显。比如,手机信令数据时效性高、连续性好,且无需额外投入硬件设备、无须组织大规模入户调查,即可实时、快速地把握应急事件发生后受灾人口的数量变化和群体流动迁徙规律[2]。

1.1 手机信令数据特征

手机信令数据是一种典型的时空大数据,当手机用户进行通话、收发短信、上网或者携带手机移动等动作时,都会与运营商基站发生通讯,相关数据会被完整记录下来。其数据字段中不仅包含用户行为发生的时间和空间位置信息,也包含通话、短信和上网日志等内容,数据价值极高,是研究群体性行为规律与空间分布特征的高质量数据源之一。经过清洗、脱敏、聚类、扩样以及模型计算等一系列加工处理后可用于用户行为偏好、移动轨迹监测、人群出行活动等多种场景下的研究辅助[3]。

手机信令数据特征主要体现在时空连续性、信息关联性、存储冗余性以及实时高效性等多个方面。该类数据的最大优势便体现在其时空连续性上,手机只要开启,无论是否使用都会主动或被动地同蜂窝基站产生联系,从而生成信令数据,可覆盖研究对象活动轨迹的大部分信息;同时,其劣势也很明显,信令数据量大、冗余较多且敏感度高,对服务器算力和数据挖掘算法的要求也相对较高,需要有针对性地加强数据脱敏算法和数据隐私安全保障[4]。

目前,手机信令数据的应用按照对数据及时性的需求不同主要可分为两类场景:一类是准实时数据的简单聚类统计,主要应用于人口热力图分析等,技术成本较高且精准度有限;另一类是离线数据的模型沉淀和分析,一般将准实时数据和离线数据日模型/ 月模型放在一起,用于一定时间段内的规律性分析和宏观发展趋势监测,应用较为广泛且较为成熟。在应急管理领域两种数据处理方式皆有使用,用于满足灾害发生前后的实际需求。

1.2 原始信令码表数据预处理

为保障数据后续的可用性和完整性,原始的手机信令数据必须要进行异常数据清洗、格式化入库等一系列的预处理操作。

由于手机信令数据是通过运营商通信网络采集、汇聚的,在传输过程中极易受到基站、建筑物、网络、服务器等多种因素的影响,会产生各种各样的“脏数据”:有的是由于基站漂移、基站间乒乓效应等通信系统固有问题导致的信令数据记录错误;有的是由于一些不确定因素在日志记录或传输过程中丢失了一部分;有的是由于系统错误而出现了重复数据记录[5]。这些“脏数据”会使得以后的数据分析结果出现或大或小的误差,因此在进行挖掘分析之前需要对这些数据进行清洗等操作,比如对错误数据进行修正、对缺失的数据进行补全或删除、对重复的数据去除冗余条目等。

经过清洗等一系列数据预处理操作后,手机信令数据会以JSON 字符串的形式存在,常用的信令码表字段名、字段类型等如表1 所示:

表1 手机信令数据常见字段示意

1.3 综合聚类算法处理

海量的手机信令数据较为零散,无法直接反映客观现象规律,比如以2021 年11 月某天早高峰一个小时内从A 点到B 点的所有用户轨迹数据作为测试数据集,可视化后如图1 所示:

图1 原始的测试数据集可视化示例

单一的聚类算法难以产生较为有效的收敛效果,因此可以使用DBSCAN 与K-means 结合的综合聚类算法进行数据处理,提高应急管理场景中受灾人口计算的效率[6]。

DBSCAN 是典型的基于密度的聚类算法,能够将具有一定密度区域的散点聚为一类,并且能够有效过滤数据集中的噪声数据,最终得到若干数据簇。该算法通常以空间距离为搜索半径,计算步骤主要可分为以下四步[7]:

(1)给定距离Dis、最小密度个数MinPt、样本数据集{X};

(2)从样本{X} 中任意选取一个点x,依次扫描整个样本,统计小于Dis的点的个数,记为M;

(3)如果M大于等于MinPt,则标记该点为核心点并将该区域内的点都标记为同一个簇;如果M小于MinPt,则将该点标记为噪声点,可以直接删除;

(4)重复以上步骤,扫描完整个样本数据集{X}后,便可得到若干个包含聚类中心(即核心点)和聚类个数的数据簇。

基于DBSCAN 算法进行密度聚类,将密度较大的轨迹段聚合,密度较小的轨迹段作为噪声数据剔除掉,可以得到如图2 的处理结果,虽去除了部分噪声影响,但收敛效果仍有限。

图2 基于DBSCAN处理后的数据集可视化示例

故引入典型的基于划分的聚类算法K-means,使得到的聚类中心更为准确,达到更好的数据收敛效果[8]。该算法属于无监督算法,可使最终获得的聚类结果达到“类内的点足够近、类间的点足够远”。思路大致可描述如下:

(1)给定数据集{X},取其中n个数据进行两两组合,计算出距离分布矩阵,使用极大似然法对得到的距离分布矩阵中第k个距离值的泊松分布情况进行估算,即,每个距离值范围内的最小值记为MinE;

(2)在集合{X}中选取任意一点P,以点P 为圆心,找出半径为Ek的圆内所有的点,记为点集{Pi,Pj},若点集{Pi,Pj}中点的数量小于MinE,将点P 标记为噪音点,否则将点P 标记为核心点;

(3)在剔除噪音点的点集合中随机选取n个点作为初始聚类中心,记为集合{N},计算集合中的点分别到集合{N} 内点距离最小的点,对于每个类使用均值方法更新中心点,如此循环直到原中心点与新中心点的误差小于某一阈值时,结束聚类计算。

该种算法综合性较好,由于先期采用DBSCAN 将集合中的噪声数据做了初步的筛除,使得最终聚类结果比单纯使用K-means 质量要高很多,并且可以避免因噪音点的影响而陷入局部最优解的误区之中。将测试集数据进行处理后可得到图3 的可视化效果:

图3 基于优化算法处理后的数据集可视化示例

比较图2和图3 可以看出,结合K-means 之后的综合聚类算法处理后的轨迹段集合收敛性更好些,并且可以避免因噪音点的影响而陷入局部最优解的误区之中。

2 某运营商应用实践探索

基于以上综合聚类算法的持续优化,沉淀用户状态识别模型、精准定位模型、路网拟合模型以及常驻用户模型等,利用灾害发生前后移动通信量异常、通信基站服务状态监测等信息,运营商可以为各级应急管理部门提供突发事件区域的人群洞察、监测分析和研判预测等数据服务,辅助管理部门进行灾情预警、人流监测、灾后评估,并可间接估算灾区受灾人口等,对进一步提升我国重大灾害的应急处置能力具有现实意义。

2.1 灾前预警疏散

利用手机信令数据,可以对预警区域进行实时动态的人口流动监测,一方面辅助人群疏散的交通规划,另一方面进行短信告警和疏散指引,辅助应急管理部门实现灾前预警通知和快速疏散。

基于用户轨迹表,可以获得灾害预警区域及周边交通道路范围内的人口流动情况实时热力,辅助应急管理人员实时掌握预警区域内的人流密度,同时也为疏散聚居或聚集人群进行合理的交通规划提供数据支撑,一般以API 接口方式直接对接给应急测绘系统,输出数据字段如表2 所示:

表2 应急测绘系统接口数据字段示意

基于信令数据中的位置信息,可准确圈定预警区域作为围栏,根据不同场景、不同标签(如职住地、驻留时长、用户年龄、号码归属地)等预置规则,通过短信精准、快速地触达预警区域常住人口以及高危企业工作人员等手机在网用户,及时、清晰地提醒人们灾害预警信息以及如何安全撤离、如何避免伤害等。

在不确定的自然灾害面前,预防预警永远是放在第一位的,所谓“预防多一份心思,救援少百分力气”,因此,手机信令数据在此阶段的合理应用也便显得尤为重要。

2.2 灾区人流监测

灾害发生以后,第一时间快速评估受灾人口、伤亡人口、失联人口的数量,定位受灾人口聚集区域并有针对性地组织救援力量、分配救援物资等是应急管理部门最紧要的工作之一。

比如,在实际工作中,可以“人”和“地”为主题构建数据分析模型,实现受灾区域范围内实时人口热力变化分析、可视化展示以及历史数据回放等,将灾区职住人口在突发事件发生前后多个时间节点的流动变化情况进行直观对比,为应急管理部门对灾情影响程度的评估和救援资源的高效部署提供数据支撑。

一方面,从宏观上监测受灾区域范围内人口流动情况、人员聚集状态以及受灾人员性别、年龄等基础画像,对人口异常转移、回流情况设定预警阈值,辅助救援计划制定和应急疏散等。

另一方面,对综合转移区域、紧急转移人口、集中安置点分布、安置人数、专业救援队伍、社会救援力量等进行分析,辅助安置点设置和转移人口的后续服务。

通过对洪涝、台风、地震、林火以及化工厂爆炸等重大灾害影响下的人、地等多维度数据进行栅格化、精细化分析,有效弥补定期普查数据更新周期较长带来的弊端,已逐渐成为救援安置工作高效进展的保障。

2.3 灾后核查评估

突发灾害的破坏性和影响力可能会比较久远且难以快速估算,对于应急管理部门来说,需要借助多方渠道核实受灾情况,总结经验教训并完成应急预案的动态调整。

可以通过数据可视化或者定期数据分析报告等形式,将应急管理部门关注的数据指标加以计算和呈现,主要涵盖区域内受灾人员特征、受灾态势剖析以及不同群体的位置轨迹变化等内容,并根据人员行为特征预判疑似伤亡、疑似失联、呼叫特定救援号码以及异常聚集等情况,提醒救援和评估单位重点关注,主要涉及的分析指标和常用数据口径如表3 所示:

表3 灾害核查评估常用数据指标示意

3 结束语

综上所述,手机信令数据经过预处理、聚类、时间序列分析等一系列操作后,可以充分发挥其作为时空大数据的优势,通过构建和完善不同应急环境下的人口计算模型,有效辅助应急管理部门进行灾前预警和安全疏散、灾区人口密度监测以及灾后及时的核查评估等工作,是对传统应急数据的有力补充,具备操作可行性且已经受到了应急管理部门的重视和认可。

接下来,有几方面工作值得持续关注:

一是模型算法的进一步完善:使用手机信令数据进行人口监测和预测,其准确度在很大程度上依赖于模型算法的适配性,不同的受灾范围、灾害类型均需要调整相应的数据口径和权重、参数,其计算效率和适用范围有待提升;

二是与其他多源数据融合建模:除了信令数据以外,互联网数据、遥感数据、测绘数据、路网信息数据以及视频数据等都是高质量的应急管理相关数据来源,它们可以相互参照,恰当的融合或联合使用可发挥意想不到的效能;

三是与应急信息化系统的联动:手机信令数据作为应急指挥决策辅助系统的组成部分,需要同其他应急信息化,比如应急测绘系统、天眼系统、EGIS 系统等,数据间的互联互通才可充分放大其价值。

猜你喜欢
信令预警聚类
SLS字段在七号信令中的运用
法国发布高温预警 严阵以待备战“史上最热周”
今日农业(2019年12期)2019-08-13 00:50:02
移动信令在交通大数据分析中的应用探索
基于信令分析的TD-LTE无线网络应用研究
消费导刊(2017年24期)2018-01-31 01:28:37
园林有害生物预警与可持续控制
现代园艺(2017年22期)2018-01-19 05:07:01
基于DBSACN聚类算法的XML文档聚类
电子测试(2017年15期)2017-12-18 07:19:27
LTE网络信令采集数据的分析及探讨
互联网天地(2016年2期)2016-05-04 04:03:21
机载预警雷达对IFF 的干扰分析
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究