基于运单及POI数据的快递企业客户发现方法

2021-02-07 01:04黄玉萍郑梦飞
物流技术 2021年1期
关键词:营业网点运单高德

黄玉萍,郑梦飞,谢 翔

(中国邮政集团有限公司邮政研究中心 邮政智能装备工程技术研究中心,北京 100096)

0 引言

快递运单是快递包裹的唯一标识代码,通过单号查询可以实时跟踪快件的物流信息。在互联网高度发达的今天,利用网络爬虫可以获得大量的快递运单的物流信息,基于该信息可对相应快递包裹业务进行精细分析,如:时限分析、营业网点位置分析、网络路由分析等[1]。

POI(Point Of Information)又称为兴趣点,数据源于地图导航服务,具有空间坐标和属性信息,是一种表征真实地理空间实体的数据集,具有精度高、覆盖广、更新快、易获取的数据特点。每一个POI 点在空间上都可以代表一个功能要素,可以是一栋房子、一个商铺、一个邮筒、一个公交站等。近几年随着互联网上POI数据的开放使用,众多学者开始探索POI数据在相关领域的应用,如郭昭以东莞市POI数据为基础,研究了基于POI数据的城市功能空间识别及中心城区功能复合测算方法[2]。中国测绘科学研究院曹元晖以POI数据为主要信息源,为建筑物内部及周边一定区域范围内的POI赋予反距离权重,通过计算不同类型POI 的加权频数密度比例来识别建筑物功能类型[3]。广州市交通规划研究院的宋程基于POI、收集信令数据、互联网位置数据等多源数据进行了城市活力区和中心城区边界识别研究[4]。

进入二十一世纪,中国快递继续保持高速增长,市场规模日益壮大,市场上的各个竞争主体——快递企业,它们对市场的争夺日趋白热化。因此,各个企业如何在竞争白热化的市场中争取新客户、留住客户,对企业的生存与发展具有重大的意义[5-7]。

本文研究了通过网络爬虫采集快递运单,从运单信息中抽取快递网点周边POI信息,从而发现潜在快递客户资源的方法。并以某快递公司为例,研究了其在北京地区的客户资源分布状况。本文的研究结果可以为其市场开拓提供辅助支撑。

1 数据源及数据获取

1.1 数据源

本研究所采用的数据来源于通过快递单号查询获得的快递包裹轨迹信息,“快递100”网站可提供不同快递公司快递单号的实时查询,因此,本研究选择了“快递100”网站作为快递运单数据的来源。本文的数据获取对象为某快递公司在北京地区的快递运单数据,数据采集时段从2019 年12 月至2020 年5月,采集内容包括:单号信息、时间信息、业务内容、地点信息,累积采集2 000万条运单数据。

1.2 运单数据获取

从互联网上采集大量的运单数据,需要使用网络爬虫来实现[8-10]。网络爬虫是一个可以实现定向抓取互联网上特定页面内容的程序,从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML 代码、JSON 数据、图片、视频等爬到本地,进而提取自己需要的数据,存放起来使用。

网络爬虫工作首先明确要爬取的网站和数据,选择合适的方法来抓取数据,再将解析下载下来的网页和价值数据持久化,保存到数据库中。网络爬虫的基本工作流程如图1所示。

图1 网络爬虫工作流程图

在抓取运单数据时,需要提供运单号,在本研究中,以一个真实的快递运单号为种子单号,按照一定的算法生成单号队列,按队列中的单号信息查询运单数据,生成运单数据表。其中,编程语言为Python 3,在PyCharm 集成环境下开发,数据库为Mysql 8.0+。接口测试工具为Fiddler,数据通过json进行交换。

1.3 运单数据结构

图2为某快递公司快递产品的物流轨迹,我们将包含快递单号,物流信息及时间的数据称为该快递的运单信息(简称运单),基于运单可以了解每一件快递产品的物流轨迹,通过对物流轨迹的分析,可以推测快递产品的收寄地及相应的客户分部状况。

图2 快递运单

为了提高数据的存储与检索效率,建立运单表,包含运单号、作业时间、业务信息、作业地点,见表1。

表1 运单表结构

2 基于运单的营业网点分析

2.1 数据处理

2.1.1 数据去重。如前文所述,本研究中运单号是基于“母单号”自动生成的,由于“母单号”不唯一,因而生成的采集单号序列间存在单号重复的问题,导致运单表中会存在一定数量的重复记录。为了保证数据库中记录的唯一性,在进行数据分析之前,需要结合单号、时间组合条件对运单表进行去重处理。

2.1.2 异常值处理。本研究进行了为期6个月的数据准备,采集了某快递公司2019年12月至2020年6月间的2000万运单数据。由于数据采集是基于对运单号的“试错”,即如果该运单号真实存在就返回信息,不存在就放弃,重新采集单号队列中的下一运单,所以采集的数据存在采样不连续的特点,如图3所示。

图3 采样数据日分布图

为了避免因数据不连续带来的统计失真,从整体数据集中选择2019年12月、2020年3月、2020年4月、2020年5月的数据作为分析样本。

2.2 获取营业网点名称及地址

快递公司的服务对象是其营业网点周边的商超、住宅小区、办公楼,即其潜在客户分布在营业网点的周边。要了挖掘快递公司的客户群体,需要先确定其末端营业网点的名称和地址。从运单表中按“citi”+“info=揽收”条件进行查询,可获得该快递公司在北京地区的营业网点名称。查询代码如下:

在高德地图开放平台对网点名称进行查询,可获得网点的结构化地址,如图4所示。

图4 网点地址

2.3 确定目标网点

客户资源的价值,可以通过与其有业务往来的网点业务量大小来衡量。为了发掘有价值的客户资源,需要对网点进行分类,将同一统计时内业务量大的网点定义为优质网点。优质网点客户资源丰富,具有客户资源挖掘的意义。通过对所采集数据的分析,得出同一时间段内该快递公司90%以上的业务量集中在42个营业网点(如图5所示),因此,将这42个营业网点作为客户资源挖掘的目标,对其进行客户资源的挖掘。

2.4 网点地理编码

地理编码,又称为地址匹配,是从已知的结构化地址描述到对应的经纬度坐标的转换过程。根据给定的地理名称和查询城市,返回地理编码的结果列表。显示效果如图6所示。

3 POI数据获取及客户资源挖掘

高德地图提供千万级别的POI数据,所有数据均按三级分类,层次清晰,精度较高。POI 数据的标签基本涵盖了所有的设施类型,见表2。

图5 网点同一时期业务量占比

图6 地理编码图

表2 POI类别标签

利用POI 数据,可以实现客户资源挖掘,具体方法如下:(1)利用高德地图开放平台,获得网点的地址编码。(2)以网点为核心,搜寻一定半径范围内的POI 信息。(3)借助POI 对网点周边地理信息进行分类,识别客户资源。

高德开放平台提供多种查询POI信息的功能,其中包括关键字搜索、周边搜索、多边形搜索、ID 查询四种筛选机制。本文所使用的POI 数据基于高德API 开放接口,采取周边搜索中的关键字搜索和POI类型搜索方法,运用Python 编程语言编写网络爬取工具获取数据并输出。实现方法如下:

http://restapi.amap.com/v3/place/around?key=您的key&location=116.409692,39.97118&keywords= 北京&types=011100&radius=2000&offset=20&page=1&ex -tensions=all&output=json

说明:location(116.409692,39.97118)是需要查询的中心点,keywords(北京)指定搜索城市为“北京”,types(011100)为搜索返回的POI 数据类型,radius(2000)指定搜索半径为2km,extensions(all)为返回的数据内容,参数output(json)用于指定返回数据的格式,key是用户请求数据的身份标识。

返回的数据为

说明:POI 点的信息都在pois 中。name 表示名称,type 表示的类型,address 指出地址,location 表示具体的经纬度,adname 表示所属行政区域(区县级别),business_area表示所在商圈。

4 应用实例

从互联网上采集某快递公司近2 000 万条运单信息,对其在北京地区的网点布局及客户资源情况进行分析挖掘,研究结果如下:

4.1 确定网点位置并进行地址编码

采用前述对运单数据的分析方法,得到该快递公司在北京地区共有184个营业网点,在北京各个区的网点数据分布见表3。

表3 北京各区网点数量

利用高德地图可获得各个网点的地址编码。图7 为在高德地图上标记的该公司在北京朝阳区营业网点的位置信息。

图7 朝阳区营业网网点

4.2 确定目标网点

利用所描述的方法,对样本数据进行分析后发现,该公司在北京地区的90%的业务量集中在42 个营业网点,因此把这42 营业网点作为客户资源挖掘的目标。目标网点的分布情况见表4。

表4 北京各区目标网点数量

其中朝阳区的目标网点分布情况如图8所示。

4.3 POI数据获取及客户资源挖掘

利用目标网点地址编码,可从高德地图开放平台获得网点周边POI 数据,对网点周边POI 进行分类,进行客户资源挖掘。图9为对网点(116.409 692,39.971 18)周边2km 范围内的POI 查询结果,基于该结果可获取客户名称和详细地址,为市场推广提供辅助支撑。

图8 朝阳区目标网点分布图

图9 POI查询结果示例

5 结语

(1)通过对快递运单的分析,可以获取快递公司的营业网点的名称,利用高德地图开放平台可以查询营业网点地址编码,进而可以获得网点周边一定范围内的POI 数据,对POI 数据进行分类,可以发现潜在的快递客户。

(2)用来分析的运单数据是通过互联网采集的,因数据采集的算法为“基于运单号试错”的方法,因此,采集的数据可能存在重复或数据分布不均匀的情况,在进行数据分析前必须对网络采集数据进行去重和去除异常值处理,避免由于所采集的数据样本存在偏差导致分析结果出现偏差。

(3)本文研究的客户发现方法适用于揽收商务件、经济件等业务场景,针对电商件客户的挖掘不在本方法研究范围之内。

猜你喜欢
营业网点运单高德
交通运输部:三季度网络货运企业上传运单同比增37.2%
铁路运单物权化业务模式及实施路径探讨
江苏高德液压机械有限公司
江苏高德液压机械有限公司
银行营业网点服务标准化评价机制研究
关于推进银行营业网点经营转型的思考
亚欧铁路国际联运运输法的协调
——谈统一运单的推广使用
快递电子运单协议要便于用户阅知、保存
高德贸易有限公司
圣人的告诫