胡少宇 刘志民 董科
摘要 大数据时代如何有效的获取网络中的数据,并有效的应用数据成为人们关注的重点,在精准招商的过程中,利用网络爬取技术获取企业的有效信息,能够提高招商的效率,通过对网络爬虫技术在精准招商中的应用情况进行分析,探讨了基于Python语言的网络爬虫技术,为获取精准招商数据提供了新的方法与途径。
【关键词】大数据 网络爬虫 精准招商
在大数据时代,如何有效的获取有用的信息,成为人们关注的重点问题,采用传统的搜索引擎技术来获取信息时,往往会将一些无关的网页或者数据搜索出来,这种搜索方法已经明显的不能满足用户的需求,在有限的网络服务器资源的情况下,如果高效的获取有效的信息,解决信息不对称的问题成为关键技术之一,网络爬虫技术是一种基于网络的智能化的搜索引擎,通过运用合理的编写代码,用户就可以准确的获取需求的信息。在政府进行招商引资时,如何快速的获取招商信息,利用网络爬虫技术可以有效的解决这一问题。
1 网络爬虫技术在精准招商中的应用
政府在招商引资的过程中,需要对商家的注册信息、经营范围、注册资金、服务模式、联系方式等相关的信息进行掌握,如果政府只是采用传统的搜索引擎方式进行搜索数据,这必然活会浪费大量的时间,获取的信息还不一定精准。在沃尔玛公司的官网上采用了其自行设计的Polaris搜索引擎技术,就是采用网络爬虫技术在庞大的数据基础上,充分的运用语义网分析、同义词挖掘技术、机器学习等技术,搜索用户的核心关键数据,实现用户需求信息的精准获取,不仅能够搜索到用户的当前信息,还能搜索到与用户相关的信息。政府在招商引资的过程中,如果能够在自己的数据库基础上,充分的利用网络爬虫技术,可以有效的屏蔽无关企业,查询到合适的企业,提高网络招商信息的有效性,实现网络爬虫技术下的精准招商,有利于提高政府招商的工作效率。
准确完整地提取网页中的主体信息,并能够精准对提取的信息进行分析,网络爬虫技术是当前Web应用一项关键技术,在信息搜索与提取中具有十分重要的作用。通过网络爬虫采集政府在招商过程中所需求的高质量的精准数据,并生成相应的招商企业数据库,并将采集到搜索到企业信息的数据库中,然后根据收集到的相应信息,并建立相应的数据表中,还可以根据政府的需要,实时的修改数据表,更新政府招商的信息数据,或者根据招商的需求建立新的数据表,提高在数据获取阶段的精准度,并与政府需求的数据信息进行对比分析,对政府的招商模式进行研判,进而能够有效的实现政府产业发展与招商投资的切入点,进而能够有效的实现政府的精准招商。
2 网络爬虫技术在精准招商中运用的关键技术
在精准招商领域,基本的前提条件是获取企业的信息,并对获取的信息进行分布式存储,以便于利用爬虫技术对数据进行处理,然后采用爬虫技术来获取企业数据的URL数据,最终能够找到合适的数据表示方法,对爬取的数据进行存储与表示,分析在精准招商过程中的所爬取的企业信息主题,是否符合政府招商引资的要求,同时分析下载的超链接与网页内容,然后通过对企业的URL数据抓取关联度进行分析,剔除内容重复的网页数据,使得获取更加真实、有效的政府招商数据信息。具体的爬取数据过程为先获取下载网站的URL数据,并通过DNS解析,对网页下载处理,經过对URL地址进行过滤处理,然后按照一定的规则对网页的中关键数据进行获取,进而能够获得相应的数据,并保存在数据库中。
2.1 网络爬虫的具体实施过程
2.1.1 企业网络数据的处理
运用网络爬虫技术对招商企业信息进行处理时,首先需要了解该企业的网站URL,才能获取HTML页面内容,这样可以后期的数据爬取提供方便,在数据爬取时需要采用正则表达式技术或者Xpath技术,来提取页面中的相似内容,然后与政府招商信息进行匹配,在该过程中,爬虫技术主要以String为主的字符串部分与招商信息相关的内容解析,来获取与政府招商引资相关的企业信息,通过正则表达式技术或者Xpath技术对其进行解析,获得企业的相关信息。在爬取数据的过程中,Python有其自带的re、heautifulsoup和HTMLParser等数据技术,能够很好的解决数据获取的相关工作,在企业的URL信息进行处理时,一般URL会以a标签或者运用href标签,对相关的URL地址进行获取,这时,只需要采用正则的编制方案就可以有效的满足要求。
2.1.2 剔除重复的数据信息
为了提高信息处理的效率,需要删除获取数据的重复链接(URL)地址,提高数据处理的效率。在采用爬虫技术对网络中的信息进行获取时,采用URL技术队列的方式对数据进行爬取,以避免“爬取”重复的URL地址,不仅可以剔除重复信息,还能提高数据的爬取效率,也就是对网络数据的URL进行查重处理,以减少网络存储空间的浪费,这样采用对企业的URL本地化存储,有利于网络爬取技术对企业的信息进行处理。
2.1.3 有效解决爬取数据的并发问题
在数据进行爬取的过程中,采用Python能够有效的解决数据的多线程、多进程与协程的问题,Python程序拥有良好的并发处理能力,在网络爬取数据时的可靠性与准确性能较好,能够有效的处理数据并发问题。
2.1.4 解析企业数据的存储
在利用网络爬虫爬取企业的数据之后,需要对数据信息进行存储,采用Python存储数据时,能够减少与系统数据库之间的直接操作,能够提高系统的可操作性,这样读取多个URL数据信息进行分量分批次的进行存储。
2.2 采用Python语言爬取数据
Python语言操作简单方便,在网络数据爬取中应用十分广泛,利用Python语言编写程序爬取网络数据十分简洁方便,能够方便的获取爬取企业的数据信息。
2.2.1 建立招商企业的网页数据模型一般情况下,对招商企业数据信息的获
取,包括静态数据与动态数据,静态数据的爬取比较简单,在获取动态数据时,需要查看HTML数据,选中相应的文件才能够进行爬取,部分代码如下:
Import re
Import urllib.request
def gethtml (url):
qiye=urllib.urlopen (url)
htm1=qiye.read( )
Return html
def getqiye(html):
reg=rsrc=”(.+?\.www\.qiye\.com)”
\Date=response.read( )
htmlstr=date.decode(‘qiye)
Print(htmlstr)
在获取企业数据信息时,采用Python自带的urllib和re模块,就可以有效的获取的数据洗洗进行定义、操作,通过urllib和re对企业的网站进行遍历,就业对每个页面中的企业基本信息进行获取,并采用正则表达式从HTML的信息中获取企业的数据信息。
2.2.2 数据爬取的基本流程
利用Python语言下的Scrapy框架,并结合String技术的字段处理功能,对政府精准招商引资数据进行处理,利用网络爬虫技术,对URL提供的数据进行爬取,它主要是采用是Twisted技术,调用Scrapy中间件,爬取数据的过程清晰,便于操作,而且也便于对数据进行处理。具体的数据的爬取流程为:首先通过下载器获取相应企业的网站,运用调度器来调取中间件(request)获取网页数据,然后通过(response)调取Scrapy中间件对网页中的数据进行爬取,获取项目需求的数据信息。
(1)首先,打开需要处理的企业网站URL,让网络蜘蛛(Spider)对网络数据进行爬取,进而获取相应企业的URL网页数据,便于进行分析。
(2)蜘蛛爬取待抓取的URL数据,通过引擎以Request的形式来读取相关的企业数据信息,并进行处理,使得数据的获取更加精准。
(3)在爬取数据过程中,引擎向调度器请求下一个要爬取的企业网站URL,将对满足具体要求的数据进行爬取。
(4)数据调度处理。需要采用调用Scrapy中间件来抓取企业的URL的数据利用爬虫技术来分析,然后通过引擎的调度将企业网络URL地址转发给下载器,由下载器获取相应的数据信息。
(5)在URL信息载入完成之后,Python下载器会生成一个与企业页面相同的页面,然后调用中间件Response,然后通過该Response将爬取的数据传递给Scrapy引擎,便于对数据进行爬取。
(6)Scrapy引擎将获取的数据通过Response发送给网络蜘蛛,并政府精准招商的数据进行分析。
(7)网络蜘蛛处理Response的信息并爬取数据,然后将爬取的数据条目以及新生成的Request返回给Scrapy引擎,便于进行下一步处理。
(8)Scrapy引擎将爬虫爬取的数据内容(items)发送给传输管道,并调用Request将爬取的数据发送给中间件,将获取的数据保存在数据表中。
(9)重复第二步,获取新的企业URL,循环直到没有新的URL产生,完成整个爬取数据的处理,保证爬取的数据,退出Scrapy引擎,这样就完成了整个精准招商数据的网络爬取。
在对数据进行爬取的过程中,有些网站服务器不希望被网络爬虫来获取数据,在采用urllib发送网络数据请求时,很容易被服务器拒绝,这时就需对urllib的发生数据请求进行伪装处理,伪装的关键就是在urllib的数据请求头中添加User-Agent字段,以达到获取数据目的。
3 结束语
大数据已经融入了人们生活中的方方面面,通过对网络数据的提取可以获取有效的数据,来满足人们的不同需求。在网络招商的过程中,通过利用网络爬虫技术,编写相应的数据爬取程序,将企业的复杂数据进行整合关联,形成相互联系、相互影响的数据,形成一个统一的数据库,便于政府的招商部门能够快速的获取精准的数据,提高招商的效率。
参考文献
[1]宋亚奇,周国亮,朱永利.智能电网人数据处理技术现状与挑战[J].电网技术,2017(04):27-35.
[2]金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算机,2016(01):16-18.
[3]李国杰.人数据研究的科学价值[J].中国计算机学会通讯,2017(09):8-15.
[4]郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(12):23-24.