基于手机信令数据的孕妇群体定位研究*

2020-08-11 00:46王瑞刚施昊阳
计算机与数字工程 2020年6期
关键词:信令基站孕妇

田 苗 王瑞刚 施昊阳

(1.西安邮电大学计算机学院 西安 710061)(2.陕西省信息化工程研究院 西安 710000)(3.西安邮电大学自动化学院 西安 710061)

1 引言

自2011年11月国家开放二胎政策以来,越来越多的家庭迎来了他们的二胎。由国家统计局数据显示,2017年全年二胎数量上升至883万,比2016年度增加了160万人,二胎数量占总新生人口数量的51.2%,比2016年增加了11个百分点。二胎数量的增多也带动了我国的新生儿人口总数每年的稳步增长。在这样的情境下,新生儿俨然已经成为了一个快速增长的人口群体,并随之带来了巨大的市场。那么,针对新生儿的出生分布情况进行细致的调查研究就显得尤为重要,而依据新生儿的出生分布来对市场进行预测显然是一种科学有效的办法。本文所研究的问题是如何定位出新生儿的分布信息,传统的交通采集方法(人工调查法和固定式交通信息采集技术)具有调查和维护成本高、传感器损坏率高、实时性较差及采集的交通数据精度较低等缺点[1]。由于近年来使用手机用户的快速增加,定位技术的快速发展,因此利用手机进行定位的技术有了坚实的理论和实践基础,这为本文的研究提供了相关的方法和思路。本文依据手机信令数据,结合有效的模型,对新生儿的出生分布情况进行预测。实验结果表明,使用该种方法得到的结果符合预期标准。

2 手机信令

2.1 概念与简介

手机信令数据是手机与发射基站或者微站之间的通信数据,只要手机屏幕上显示运营商字样(如中国移动、中国联通、中国电信等),就会产生信令数据。信令数据字段中包含时间和位置等信息[9],由于这些信息的数据量过于庞大,所以无法用人工进行识别和分析。在过去,这些历史大数据由于技术的不成熟,难以产生使用价值,使得海量数据的研究与应用成为了一个难题。随着大数据专家对手机信令的研究和突破,手机信令大数据的显著优点呈现在我们面前。

基站定位原理(如图1):手机跟手机可以通信就是因为通过运营商的基站进行信号中转和传输。每个基站的位置信息都是固定的,手机一旦开机之后就会搜寻附近的基站信号,所以根据搜索到的基站信号就能算出大概位置,基站定位精度一般是百米级。移动电话测量不同基站的下行导频信号,得到不同基站下行导频的TOA(Time of Arrival,到达时刻)或TDOA(Time Difference of Arrival,到达时间差),根据该测量结果并结合基站的坐标,一般采用三角公式估计算法,就能够计算出移动电话的位置。实际的位置估计算法需要考虑多基站(3个或3个以上)定位的情况,因此算法要复杂很多。一般而言,移动台测量的基站数目越多,测量精度越高,定位性能改善越明显。

图1 基站定位原理

基站一般是通过SIM卡来区分不同的手机,所以很容易通过手机号码定位用户位置。当手机开机搜索周边的基站,基站就可以定位用户的手机,再根据SIM卡的信息做进一步的操作。用户取出SIM卡后,仍可通过追查跟手机号发生过关联的手机ID,定位出手机开机使用过的位置。

2.2 优势

2.2.1 定位优势

想要研究移动通信环境中的群体行为,首要的任务是获取使用手机的用户的地理位置信息。获取用户地理位置的主要途径有三种:第一种是通过GPS定位,第二种是基站定位,第三种是WIFI热点定位。GPS定位精度是三者中最高的,但是GPS数据一般由志愿者提供想要获取大量的用户位置数据比较困难。对于WIFI定位,WIFI热点的覆盖范围较小,大部分集中在一个校园或者一个社区,因此可研究的范围受到了限制[2]。基站定位的精度虽然在三者中最低,但是它有数据易获取、覆盖范围广的特点,正好弥补了前两者的缺点,因此我们选择用基站定位的信息来确定人的位置信息[3]。手机基站定位服务(如图2)又叫做LBS(Location Based Service,移动位置服务),它是通过运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在GIS(Geographic Information System,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。

图2 手机基站定位服务

2.2.2 数据量优势

当今通信领域中,移动智能手机占据着很大的比重,人们的日常生活和工作也越来越离不开移动智能手机,同时移动通信网络也成为了第一大通信网络。而人作为移动社交网络中的主体,其位置时时刻刻都在发生变化,而我们可以通过记录用户在移动通信环境中的地理位置信息建立移动轨迹模型,从而实现对群体行为的分析和预测,这种方法可以解决由人群聚集引起的群体事件如交通拥堵、踩踏事件等问题。截至2018年5月末,我们移动电话用户近15亿,4G用户占比达73%,西安作为刚刚认定的新一线城市,更是各大运营通信投资商的主要投资城市,因此用西安地区做手机信令数据的相关分析是适用的。

3 群体行为的研究现状

3.1 群体行为分析的定义

社会心理学家和社会学家最早对群体行为进行了研究。美国著名的社会学家Park最早提出了群体行为的定义“群体行为是在集体共同的推动和影响下发生的个人行为,是一种情绪波动”[2]。David Popenoe(1988)认为“群体行为是在相对自发、无组织的和不稳定的条件下由于某种普遍的影响产生的行为”[3]。美国著名的社会心理学家Stanley Milgram(1984)对群体行为的定义是“群体行为是自发产生的,没有组织的,甚至不可预测的,它依赖于参与者的互相刺激”[4]。在我国,有关群体行为分析涉及的领域大多是有关消费者行为、自然灾害靶向发布以及预测有可能发生人员聚集方面,少有涉及到用手机信令数据预测新生儿群体方面的。最近的几年时间,伴随着互联网大数据技术与通信技术的高速发展,为该类群体行为分析的实现创造了前提条件。

3.2 孕妇的群体行为分析

经过对大量文献的阅读和相关论文的查找,目前关于孕妇、新生儿的群体分析均为医学方向,并没有关于位置信息的研究。移动手机信令数据研究有关孕妇群体行为和新生儿分布的研究方面的文章较少,截至2018年5月5日,在中国知网以“手机信令新生儿”进行篇名搜索,显示结果为0条。综上所述,目前从事手机信令分析新生儿的成果较少,这也为本文的动机产生提供了契机。

3.3 本文的大致流程设计

因为有关孕妇群体数据不宜获得和相关理论论文几乎没有参考的特点,综合以上原因,本文设计流程图如图3所示。

图3 流程设计图

4 模型的建立

4.1 需求分析

本文旨在根据手机用户使用手机时产生的信令数据,挖掘出其潜在的位置信息,根据这些位置信息的属性确定手机用户的用户属性(仅确定孕妇属性),当中会设置样本(即已知属性的人,当中存在孕妇)数据,将样本数据与实验数据进行比对验证。当确定用户为孕妇后,此时该孕妇常出现的月子中心或者信令消失的妇产医院的位置就是新生儿出生的位置,从而对新生儿出生的位置分布做出有关预测。

4.2 孕妇活动的特点

众所周知,孕妇是一类较特殊的群体[7]。孕妇在怀孕期间,出于各种原因,会改变之前的出行模式[6]。从出行距离来说,孕妇群体会选择较短的出行距离[12];从出行出发地来说,一般以家、公司为出发地;从出行目的地来说,一般会以医院、婴幼儿用品店等为目的地[8];从出行频率来说,会选择比常人更低的出行频率[11]。除此之外,孕妇在出行速率、出行工具选择上也会与常人有所不同。

4.3 参考模型

现所有的文献和论文中与本论文模型相似的是有关群体行为分析中人群工作地和居住地的划分模型。该模型通过手机信令数据的基站变化位置,对所有人的某天或者很多天的基站经纬度值进行定位分析,按照常规的时间(早上上班、晚上回家)分割,定位出人群的工作地和居住地。本文中的孕妇定位原理与该模型类似,所以有关聚类算法的设计中的位置聚类也可以作为本文的参考模型。

4.4 模型设计

通过对西安市所有联通手机用户某月的信令数据分析,找出每位用户常出现的位置,之后对用户常出现的位置进行准确的定位,把定位出的数据当中有关妇产医院和月子中心的人群进行画像,筛选出有孕妇属性的部分人群,将其在妇产医院或者月子中心的位置当作新生儿的出生地。之后,再将部分已知人员(必须是孕妇)与模型定位出来的人员进行比对,完成模型真实性的验证。模型建立的流程描述如下:

1)移动手机信令数据与相对应基站匹配,解析出基站的经纬度信息。

2)规定一段时间(1h内)手机信令数据未变化的点表示这类人在这个位置没有移动。

3)将这些在一段时间(累计1月~3月)未改变或者改变较小的用户的区域信息的经纬度进行聚类。

4)将此类用户的位置信息通过地图与医院、妇幼保健院等的位置信息进行比较,以确定是否是孕妇人群。

5 算法设计

5.1 用户画像定量相似度计

用户的定量标签[14]中有确定的数值,我们将移动数据的经纬度地址转换成确定地址的数据当作确定的数值(如:将108.952491,34.272363可转换成陕西省妇幼保健院)。本文是将西安市使用联通手机的人员在3月~5个月当中产生的手机信令数据进行分析。

5.2 用户聚类分析

有研究论文指出,将物理或者抽象对象的集合分组成为类似的对象组成的多个类的过程被称为聚类[5]。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,与其他对象中的簇之间彼此相异。在实际的很多应用中,我们可以将一个簇中的数据对象作为一个整体来看待[13]。聚类分析来源于许多研究领域,包括数据挖掘、统计学、生物学和机器学习。聚类分析已经在很多领域得到了应用,包括模式识别、数据分析、图像处理以及市场研究。

我们通过聚类分析,可以识别出密集和稀疏的区域,从而发现全局的分布模式以及可能会得到数据之间潜在的联系。聚类作为统计学的一个分支,对它的利用主要集中在基于距离的聚类分析中。基于K-Means(K-平均值)、K-Medoids(K-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或者系统中[5]。

5.3 孕妇群体的筛选与新生儿推测

5.3.1 孕妇群体的筛选

我们对手机用户增加了用户的特征描述,包括用户位置、用户时间、用户出行频率、用户移动速率等[15]。为了方便区别孕妇与普通用户,我们进行了调查。针对上述特征,我们作出如下规定。

1)用户位置出现在医院、妇幼保健院、月子中心附近的用户。

2)出现在上述位置并且持续一定时间的用户。

3)出行频率低于普通用户的人群。

4)移动速率低于普通用户的人群。

在更具上述标签筛选出用户群体后,我们将这些用户群体与已知的用户群体进行比较,从而判断,筛选出的用户群体是否为孕妇群体。

部分代码如图4所示。

图4 基站转换及聚类算法

5.3.2 新生儿的推测

在判断出用户群体后,我们将这类用户组成新的样本,并进行进一步的分析。我们采集了即将生产的孕妇的样本。并根据样本进行特征的采集,设计出临近预产期孕妇的特征集。先根据特征集对孕妇群体进行分类,将孕妇群体分为将要临近预产期、尚未邻居预产期两类。

对于临近预产期的孕妇,我们对她们的位置进行长期的跟踪,并根据孕妇长期处于的位置推算出新生儿出生位置。对于尚未临近预产期的孕妇,持续对其信息进行关注,等到这些用户的标签与期望值相匹配时(即临近预产期)后,再更具其位置推断出新生儿的位置信息。

6 实验

6.1 实验数据

原始数据是由联通提供的全陕西省用户的信令数据,具体字段如表1所示。

将2017年12月31天的原始数据作为联通数据的真实情况来分析,31天数据中共计有7,103,040万个用户。

信令数据各属性如表2所示。

表1 用户信令数据信息

表2 数据属性列表

数据挖掘建模目标如下:

1)对联通用户一个月内的历史信令数据分析出每位用户的常出现位置

2)对用户的常出现位置进行具体的标识,会用到K-means聚类算法。

用户位置划分的模型中,数据预处理包括数据清洗和数据变换。针对原始的数据集,我们通过数据的预处理,形成所要使用的建模数据集。

6.2 数据规范化处理

在数据规范化处理过程中,以用户特征属性方式来建立出适用于用户位置划分的模型,在该模型建立的过程中,将用户的信令数据转换成用户的属性数据,属性包括总天数、星期数、最常出现位置、区间天数、区间位置数共计五个属性。如表3所示。

6.2.1 总天数、星期数

在获取到的2017年12月份的数据中,将每位用户所有的信令数据当中出现不同日期的数量作为用户存在的总天数,规定最小为1天,最大为31天。

将用户数据中存在的星期数据进行合并,规定不同的星期数量为用户存在的星期数,最小为1天,最大为7天。

6.2.2 最常出现位置、区间天数、区间位置

将用户信令数据中经纬度集合当中出现星期最多的位置地点作为用户的最常出现位置。

在不同时间区间内,用户数据存在的总天数,最大为用户总天数,最小为0。

在不同时间区间内,用户数据中存在的经纬度集合数量,即为区间位置数。

6.3 根据模型进行实验

本文针对15个样本进行模型建立,如表4所示。

6.4 实验结果

数据选取2017年12月所有用户数据,共计7,103,040人,15位用户中,皆为陕西省常住用户,位置划分结果准确率88.89%,通过实验筛选出3号用户在1月中旬期间突然出现了频繁在妇产医院附近停留的迹象,经过位置的对比,位置显示为西安市儿童医院(34.262449,108.926844)。之后对该用户进行电话询问,得知该用户是待产的产妇,从而验证了以上实验算法的真实和可靠性。

表3 用户信令数据示例

表4 样本数据属性结果

6.5 实验分析

该实验虽然只是验证了训练集的真实准确性,但对大量的西安市联通用户依然有效,定位出的用户即是陕西省常驻用户,又是待产孕妇,从而可以明确地定位出该新生儿的出生地点。

7 结语

经过结合联通手机信令数据、用户画像和K-means算法,我们对有相同特点的一类人的移动地查询定位与其中一个已知的孕妇做对比,发现我们大致准确地定位出了所拿数据条件下的所有孕妇信息。本文所定位出来的孕妇的最终位置即就是新生儿的出生位置,从而从孕妇位置的角度分析出了新生儿的分布状况。

猜你喜欢
信令基站孕妇
基于NETMAX的基站网络优化
孕妇睡眠质量的研究进展
妊娠剧吐如何进行饮食及心理护理
5G基站辐射对人体有害?
5G基站辐射对人体有害?
可恶的“伪基站”
浅谈JSQ-31 V5数字程控用户交换机NO.7及NO.1信令参数设定及不同
LTE网络信令采集数据的分析及探讨
这些孕妇任性有理
警惕孕妇缺乏维生素B6