王金峰 李世良 王明 罗星宇 张雪玉
【摘 要】如今的互联网已然进入大数据时代,网络上有数以百计的图片,图片网络爬虫可以通过既定的规则自动地抓取互联网上的图片并下载至本地存储,通过对国内外各大图片网站的调查研究,决定以国外网站Flickr为对象通过Python程序设计语言来实现获取高质量的,准确的,完整的图片和信息。最终成功实现了对Flickr网站上的图片按照检索的字段,批量爬取图片信息并下载图片的程序。
【关键词】Python ;网络爬虫 ;Flickr ;多线程;图片
【Keywords】Python; web crawler; Flickr; multithreading; picture
【中图分类号】X87 【文献标志码】A 【文章編号】1673-1069(2019)01-0182-02
1 引言
随着大数据时代的到来,大数据具有数据体量巨大 (Volume) 、数据类型繁多 (Variety) 、价值密度低 (Value) 、处理速度快 (Velocity) 的特点[1]。面对人们越来越多样的需求[2],可以根据自己的实际需求, 继续修改程序来达到自己的要求[3]。程序按照一个检索词列表进行批量爬取,并把图片信息存入数据库中。本文提供了一个通过Python调用Flickr API实现通过关键字检索获取图片信息并批量下载的程序。
2 相关技术
2.1 Python
Python是一种计算机程序设计语言,是一种动态的、面向对象的脚本语言。Python语言的一大优势就是其语法简洁清晰,并具有丰富和强大的类库[5],这为程序的编写提供了极大的便利使得数据抓取工作变得生动有趣[6],从而简化了程序。
2.2 Flickr API
Flickr是雅虎旗下的图片分享网站,上面有全世界网友分享的大量精彩图片,被认为是专业的图片网站。
3 爬虫系统工作
系统分为两部分:第一部分即调用Flickr API获取图片等数据,第二部分即根据数据库中的图片Url下载图。获取图片信息的流程图如图1所示,下载的流程图如图2所示。
4 结语
本文的爬虫通过调用Flickr API和Python丰富的第三库实现了对Flickr网站上的图片和图片信息进行批量爬取的程序,为一些追求高质量的,准确的,想要获取图片相关信息数据的研究者提供了一种方案。通过充分利用Python语言的特点结合Flickr API,能够方便快捷地获取大量的图片和图片相关信息,并将获取到的图片自动存储到本地,为后续的机器学习、人工智能奠定了数据基础。
【参考文献】
【1】夏火松,李保国. 基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(02):43-46.
【2】贾棋然. 基于Python专用型网络爬虫的设计及实现[J].电脑知识与技术,2017,13(12): 47-49.
【3】刘洪志. 利用Python批量获取互联网中的桌面壁纸[J].电脑编程技巧与维护, 2014 (21) :56-58+74.
【4】齐亚莉,张磊. 基于Python的图像搜索系统的设计与实现[J].北京印刷学院学报, 2010,18(02):48-51.
【5】云洋. 基于Python的图片爬虫程序设计[J].电子技术与软件工程, 2018(17):241-242+244.
【6】熊畅. 基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017(09):35-36.