刘丹 叶子青 周舒 唐瑶 粟妮 张璐妮
(北京邮电大学,北京海淀 100876)
信息爬取工具MetaSeeker的介绍及其在微博中的应用
刘丹 叶子青 周舒 唐瑶 粟妮 张璐妮
(北京邮电大学,北京海淀 100876)
移动互联网为微博的发展带来了契机,如何深入理解微博用户的行为,从而利用好微博平台,这是政府相关管理机构和网络营销企业共同关注的问题。从海量的微博数据中提取有用的数据就要依赖于网络爬虫技术,而选择合适的爬虫技术可以使我们的研究简便且有效率。
微博;网络爬虫;爬虫工具
目前来说,微博已经成为了一种新型社交的重要媒介,以其实现了移动终端与互联网的无缝连接,以及易用、随意、即时、传播快等特点,在不到三年的时间内已发展成为重要的分享工具和自媒体传播平台,成为人们网上生活的重要组成部分。在使用微博的过程中,一条微博的评论量与转发量会与什么因素相关引起了我们兴趣,故而希望通过捕捉大量的数据,进行实证分析,来确定评论量与转发量的影响因素及其关系。本项研究是基于网络爬虫工具MetaSeeker完成的,在众多爬虫工具中选择MetaSeeker是由于其可以在web页面的语义结构进行描述,输出适合计算机自动处理的描述文件和指令文件,且能够持续地、大批量地提取web信息,输出带有语义结构元数据的信息提取结果文件,可以高效地为信息服务系统补充内容。
网络爬虫技术是通过专门的工具实现对海量网络数据的提取、挖掘。在大数据时代,数据即意味着财富,生活中的很多信息感知和采集终端提供了海量的数据,借助大数据,使我们感知和看待世界的方法发生了改变,不再像过去那样凭借直觉和经验得出结论,而是基于大量的数据分析。但从海量的数据中如何提取有价值的信息,还需要专门的爬虫技术。网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分,通用网络爬虫从一个或若干个初始网页的URL开始,获得初始网页的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件[1]。
目前相关的爬虫软件较多,比如MetaSeeker爬虫工具软件包、多可网络爬虫、LoalaSam网络爬虫等。由于微博信息目前并没有一个成型的数据库,必须从网页中逐个抓取。实现方式主要有两种,一种是基于python等编程语言实现,另一种是采用MetaSeeker等数据采集工具包进行实现。
Python是一种基于面向对象,且功能超强的编程语言。Python是开放源代码的软件之一。用户可以自由发布软件的拷贝,阅读原代码,对它改动以用于新的软件。Python还具有庞大的标准库,可以处理各种工作,Python语言编写网络爬虫可用于在线微博用户的行为数据的抓取。
MetaSeeker是一个WEB网页抓取、数据抽取和页面信息提取工具包,能够按照用户的指导,从web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),metaseeker解决了一个关键问题:将无结构的web页面信息转换成有结构的适用于机器处理的信息,可应用于专业搜索、mashup和web数据挖掘领域。
与phyton相比,metaseeker不需要设计采集规则,因此实现较为简单。此外,在数据采集的后期,由于新浪微博API接口对采集数据量的限制,无法继续通过python软件抓取数据。因此,本研究数据采集通过metaseeker来搜集。
(1)MetaSeeker的数据采集流程包括三步:①确定目标网址,制定相关抓取规则;②使用Metastudio定义抓取规则,创建线索,上载数据;③使用datascraper提取数据。
(2)关于抓取时间的设定:微博平台的信息传播具有迅速、实时性强的特点,虽然这种实时性为微博营销带来了及时互动、迅速反馈的优势,但另一方面,这种实时性却会导致微博平台各类信息更新快,而用户的接收量有限,基于人的习惯动力学行为[2][3]用户的注意力主要会集中新近发布的微博上,从而导致前期发布的微博内容会很快的被湮没,从而降低其影响力。根据以上微博平台数据时间的特点,推断至多在微博发布7天之后此条微博便会失去其时效性。因此我们重点关注新浪微博热门搜索榜上的微博和一周之内的热门微博,从中抓取数据并进行分析。
(3)关于数据抓取内容的设定:微博虽然内容简短在140个字以内,但就是因为字数的限制,所以微博通过很多机制进行表意压缩。根据对新浪微博内容的分析发现,无论是微博正文内容、被转发内容、图片、链接或是评论转发量,都是可能对企业微博营销有效性研究起到重要作用的指标和变量,因此在数据抓取阶段,将会把每条微博的全部内容抓取下来,以备后续分析。
(1)打开MetaStudio,在地址栏输入要采集数据的地址;
(2)建立整理箱;
(3)设置反向选择;
(4)设置多实例采集规则:选中整理箱;
(5)当样例复制品映射两次都做好之后,就可以点击工具条上的schema按钮,启动上载过程,观察工作流文件;
(6)转到Clue Editor工作台;
①点击newClue按钮,创建一个线索
②点击Marker类型,设定为记号线索,“下一页”字样就是记号
③指定为线内线索类型。
(7)再次点击工具条上的schema按钮,启动上载过程,观察工作流文件;
(8)打开DataScraper,输入相应的主题名,找到相关提取线索,进行提取即可。
通过由MetaSeeker爬取的微博数据的分析,可以深入理解微博用户的行为,从而利用好微博平台,这是政府相关管理机构和网络营销企业共同关注的问题。
[1]于娟,刘强.主题网络爬虫研究综述[J].计算机应用研究, 2007,24(10).
[2]Frank M C,Goldwater S,Griffiths T L,et al.Modeling HumanPerformance in Statistical Word Segmentation[J]. Cognition,2010,117(2):107-25.
[3]JiaoY,Liu Y,Wang J,et al.Model for Human Dynamics Based on Habit[J].Chinese Science Bulletin,2010,55(24): 2744-2749.
Introduction of Information Crawling Tool“Metaseeker”and Its Application in Weibo
LIU Dan,YE Zi-qing,ZHOU Shu,TANG Yao,SU Ni,ZHANG Lu-ni
(Beijing University of Posts and Telecommunication,Beijing 100876,China)
Mobile Internet has brought an opportunity for the development of micro-blog(Weibo).Now it is the common concern of government administration and Internet enterprise to understand micro-blog users’behavior,so as to make good use of micro-blog platform.To extract useful data from the mass of micro-blog data largely depends on web crawler technology.Appropriate choice of crawler technology enables simple and efficient study.
micro-blog;web crawler;crawler-like tool
TN971
A
1008-1739(2015)10-72-2
定稿日期:2015-04-26
受北京邮电大学大学生创新研究基金资助(基金号:500050024)