一种利用网络爬虫获取商务楼宇和商户信息的方法

2019-07-19 06:04张雨龙孙晓鹏王晓东中国联通网络技术研究院北京100048
邮电设计技术 2019年7期
关键词:经纬度爬虫楼宇

张雨龙,孙晓鹏,王晓东(中国联通网络技术研究院,北京100048)

0 引言

固网宽带接入市场一直是电信运营商角逐的传统重要阵地。各个电信运营商都在持续加大固网宽带建设力度,投入大量资金。但是随着家庭宽带用户数量接近饱和,“二级”代理商发力占领市场,家庭宽带用户ARPU逐渐降低,电信运营商把投资重点逐步从家庭客户转变为商企客户。

商企客户一般分布在写字楼、工业园区、专业/聚类市场等区域。这类场景的网络覆盖、商业营销与家庭宽带明显不同。特别是写字楼,需要按照楼宇面积、层数、商户数量、商户属性、物业公司、已入驻企业等多个维度进行分级分类的建设和营销。银行等金融类企业、大型连锁公司、创业型小型公司对网络的需求明显不同,具有明显的个体性和差异性。同时,我国经济迅猛发展,商务楼宇信息与商户信息每时每刻都在发生变化。

因此,如何准确实时获取海量的楼宇信息与商户信息是电信运营商当前要解决的重要难题。

1 现状分析

目前主要通过号线系统、整理现有信息(台账)和人工摸查3种方法获取楼宇和商户信息。

号线系统:对于固网资源已经覆盖的楼宇,可以通过号线系统导出楼宇和商户信息。一般导出的数据比较准确,但是此方法仅适用于已覆盖固网资源的区域,且时效性较低。

现有信息整理(台账):各运营商经过多年的规划与系统建设,积累了一定数量的楼宇信息,可以直接输出。但这种数据质量一般不高,存在楼宇条目重复、楼宇信息错误、格式不统一等问题,信息时效性差。而且处理海量数据也耗费了大量的人力物力。

人工摸查:这种方法需要相应人员逐片区域、逐个楼宇、逐层楼进行信息摸查,需要消耗大量的人力物力,效率较低。同时人工录入信息格式难以统一,后期还需要花费大量时间处理数据,后续数据更新维护也不方便。

2 实现方案

在“互联网+”的大数据信息时代,通过互联网手段可以获得海量的楼宇信息和商户信息数据。网络爬虫作为获取数据的一种新兴方法,具有效率高、成本低、数据时效性高等特点。

通过高德地图/百度地图可以查询到绝大多数楼宇和商户信息。同时由于商业经营等原因,商户会要求地图公司及时更新自己的地图信息。商户信息更新速度快、时效性高。因此,本方案通过高德地图/百度地图提供的接口爬取楼宇和商户信息,然后整理这些信息,利用数学算法,将商户信息匹配到特定的楼宇中,最后输出相匹配的楼宇和商户信息。

本方案中的网络爬虫通过Python语言编写,数据通过MongoDB数据库存储。整体流程如图1所示。

图1 整体流程图

下面结合具体案例介绍方案的实施步骤。本方案的目标是获取“上地大厦”区域内的所有楼宇和商户信息。

2.1 自主划定区域范围

在确定楼宇和商户的地理位置后,在地图上选取对应的矩形区域即可(见图2),其中选择的范围(矩形区域大小)没有限制,按需即可。通过高德开放平台,可以获取任一点的经纬度。如图2所示获取并记录红色矩形的左上和右下2个点的经纬坐标。这2个点的经纬度坐标会作为后续爬虫程序的输入信息。

2.2 通过API爬取数据

在大数据和人工智能蓬勃发展的时期,为了抢占开发市场和话语权,高德、百度等互联网企业都开放应用程序接口(API),供开发者免费使用。

图2 自主划定区域示意图

为了通过API获取数据,需要向地图公司申请大数据平台权限。首先要注册成为开发者,即用户注册,然后去控制台创建Web服务应用。经过以上步骤,得到API的唯一识别码KEY,该识别码是用户获取数据的权限标识,也是后续爬虫程序的输入信息。

按照API接口的网址要求,将获得的2个经纬度坐标、唯一识别码KEY和其他规定的信息(如商户类型等,高德API接口有分类文档,在官网查询即可)进行拼接,从而得到数据信息的网址,通过该网址,即可得到相应的信息数据。将上述操作过程编写为自动化的爬虫程序,获取数据并将返回的信息数据(即获取的楼宇和商户信息)存储进MongoDB数据库。

2.3 数据的整理与关联

上一个步骤输出的信息数据中,楼宇信息和商户信息是独立的,没有形成完备的数据集合,所以需要对输出的数据进行整理和归类。

整理:根据建设和营销的需求,选取有效字段(一般包括名称、类型、地址、经纬度、边框经纬度、电话、网址等信息),具体操作如图3所示。

图3 API输出数据示意图

归类:楼宇和商户信息均有经纬度,其中楼宇信息包含区域边框顶点经纬度。通过楼宇的边框顶点经纬度信息和商户的经纬度信息,可以判断商户的经纬度点是否在楼宇的边框区域内。如商户的经纬度在楼宇的边框区域中,那么就把该商户匹配到对应楼宇中,以实现商户与楼宇的关联。

2.4 输出结果

通过上述步骤,最终输出楼宇信息表和商户信息表。表1是楼宇信息表,主要包含名称、地址、经纬度、包含的商户数量、商户名称、电话、网站、所属城市、所属区域等信息。其中“商户名称”一行应包括所有商户的名称,本表只是选取其中4个作为示例。表2是输出的楼宇信息情况,每一行为1个楼宇。

表1 楼宇信息示意表

表2 输出数据示意表

2.5 方案准确率分析

经过现场抽样摸查核实,抽取区域内5%的楼宇作为样本。经测算,楼宇信息准确率为100%,商户信息准确率为80%左右。商户信息出现错误的原因多为地图公司更新不及时、中小企业破产或商户变更地址后没有及时通知地图公司。

3 结束语

利用互联网化的技术手段来获取高质量的用户信息以拓展用户市场,是运营商互联网化运营的重要组成部分。本文所提到的方案在实际应用中可能面临以下的问题。

a)缺乏专业技术人员。掌握网络爬虫技术需要一定的专业知识,运营商的传统业务人员不能满足技术要求,需要组建专门的团队进行该工作。

b)大数据处理问题。面对海量数据,EXCEL台账等传统工具已不适用。如何从不同维度对海量数据进行分析并使其适用于运营商的业务发展,是下一步工作的关键。

c)数据共享与更新机制问题。网络爬虫获取的数据与工程核实确认的数据如何相互补充共享、如何更新是也是运营商需要解决的问题。

面对上述问题,笔者有以下几点建议。

a)推进大数据和互联网技术的应用。在信息资源时代,电信运营商应充分利用大数据和互联网技术,摸清现状,精准建设,精准发力,开拓市场,抓住战略机遇,与互联网企业合作利用其技术优势,实现资源收益最大化。

b)加快互联网化运营转型。在宽带专业运用大数据和互联网方法,为市场前端业务开展提供支撑。在后续的网络建设中用数据说话,转变思路,加快互联网化转型。

c)提升工作效率,接轨大数据。运营商应该摒弃以往人工费时费力的方法,引入网络爬虫,通过互联网的公开信息,按需获取信息数据,提升工作效率。

猜你喜欢
经纬度爬虫楼宇
利用网络爬虫技术验证房地产灰犀牛之说
通信生产楼宇建设项目造价问题分析
基于Python的网络爬虫和反爬虫技术研究
商务楼宇治理中党建融入的逻辑与路径——基于广州S楼宇的观察与思考
基于经纬度范围的多点任务打包算法
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术
自制中学实验操作型经纬测量仪
智美兼具的精品——评测君和睿通Homates H10楼宇对讲室内门口机
澳洲位移大,需调经纬度