基于位置的社交网络商户数据语义分析

2017-06-29 12:00:33何新磊
计算机应用与软件 2017年5期
关键词:爬虫分值商家

黄 岳 何新磊 陈 阳 赵 进

(复旦大学计算机科学技术学院 上海 201203) (网络信息安全审计与监控教育部工程研究中心 上海 201203)

基于位置的社交网络商户数据语义分析

黄 岳 何新磊 陈 阳 赵 进

(复旦大学计算机科学技术学院 上海 201203) (网络信息安全审计与监控教育部工程研究中心 上海 201203)

近年来,“移动”和“社交”成为了推动互联网发展的两项关键技术。在这两项技术的共同推动下,基于位置的社交网络LBSN得到了快速发展,在全球范围内吸引了海量的用户,不论是学术界还是工业界都在大力投入对LBSN的研究。LBSN网站都是以位置为中心的,也就是说任何用户原创内容,例如签到或评论,都必须与一个具体位置相关联。尽管位置信息在LBSN中扮演着重要的角色,但是目前国内外针对LBSN的研究基本上都是从用户角度出发的,缺少从位置角度的研究。同时,目前对LBSN中用户原创内容的分析缺少对文本信息的分析,在对目前中国最大的在线点评类社交网络——大众点评上的商家评论内容进行了大规模的数据采集,并针对获取的大量用户评论文本开展了语义分析。

基于位置的社交网络 位置角度 用户原创内容 语义分析

0 引 言

近年来,“移动”和“社交”成为了推动互联网发展的两项关键技术。一方面,随着移动端设备的普及,移动端的流量在整个网络流量中所占据的比例越来越大。根据互联网统计公司comScore 2015年11月所发布的数据,移动端设备所产生的流量已经占据了互联网流量的60%以上,并且这个比例还在不断提升[1]。实时定位功能是移动设备的重要特性之一,因此移动互联网的快速发展也带动了基于位置的服务的高度普及。另一方面,社交网络及其相关应用,成为了人们日常互联网使用中非常重要的一部分,国外的Facebook、Twitter、LinkedIn、Pinterest以及国内的微博、微信、人人网等社交平台已经吸引了超过10亿的互联网用户。在这两个关键技术的共同作用下,基于位置的社交网络(LBSN)成为了一个快速发展的新兴互联网应用。位置信息给社交网络在用户社交关系之外增加了一个新的维度,通过对用户移动轨迹的记录和共享,LBSN可以将虚拟世界的用户互动更加现实化,大大提升了用户体验。国外的Yelp、Foursquare、Gowalla、Swarm,国内的大众点评、街旁、陌陌等,都是LBSN的代表性平台。这些平台都吸引了至少千万量级的注册用户,其中Yelp和陌陌已经分别在纽约证券交易所和纳斯达克上市。根据comScore公司2015年11月的统计,LBSN类App在移动端的使用时间占据了所有App使用时间的29%[1]。无论是工业界还是学术界,近年来都对LBSN的相关问题给予了高度的关注。

首先,对LBSN平台来说,位置和用户是其两个关键元素。围绕着位置,用户个体可以记录和分享一些内容,而用户彼此之间又能够通过共同去过的一个位置而相互关联,产生互动。对于位置来说,大量的用户签到和评论可以提升位置本身的热门程度,而热门的位置往往能够吸引更多的用户。然而,目前国内外针对LBSN平台的研究分析主要集中在对用户数据的挖掘,围绕着位置的研究目前还很少。

其次,用户原创内容UGC(User Generated Content)作为一种用户使用互联网的新方式,使得网络和用户之间的互动更加友好和便捷。在LBSN中,UGC主要体现为用户的签到和评论,签到指的是用户实时记录自己的位置,而评论可以帮助用户记录下自己对位置的主观感受。对于LBSN来说,UGC具有及其重要的作用,一方面,它能够帮助网站吸引用户,提升用户的忠诚度;另一方面,UGC业务的飞速发展,形成了一种很好的商业模式,早在2006年,美国UGC的广告收入就达到了4.5亿美元[2]。然而在对UGC的研究方面,目前的研究却主要着重于对签到的位置和评论的时间戳的分析建模,缺少对评论的文本内容的具体分析。尤其是在中文语义分析这方面,这方面的研究工作相对较少。

鉴于位置信息和UGC中文本信息的重要性,本文希望从位置的角度出发,对大众点评的商户数据中的用户评论内容进行语义分析,揭示出其中蕴含的规律。

本文的主要研究内容分为两方面,通过网络测量来获取海量的数据是我们研究工作的第一步。我们通过编写爬虫程序,向大众点评网站发送请求,批量地获取大众点评中所公开的商家评论内容。这一方式的优点在于无需与社交网站本身进行合作,也无需耗费资金来激励志愿者,因此可以被研究人员方便的采用,也成为了目前绝大多数研究人员所选用的方式,相关工作包括[3-5]。

第二,用户的评论内容反映了其对特定位置的主观态度,包括各种情感色彩和情感倾向。语义分析在对社交网络的研究中具有重要的作用,通过对用户情感态度的提取,我们可以知道用户对该位置的整体态度。通过观察特定用户在不同位置的情感态度变化,我们可以了解该用户的具体喜好,甚至可以寻找出一些恶意用户。

总结来说,本文以网络测量的方式,通过对国内著名的LBSN平台——大众点评进行大规模的数据采集,获取海量的真实数据集。通过对数据中用户评论内容的建模分析,揭示出基于位置的用户情感态度变化,提出改善用户社交体验的解决方案。

1 研究背景和相关工作介绍

1.1 研究背景

本文所选取的LBSN研究平台是大众点评,作为一家消费点评类的在线社交网站,大众点评在国内已经处于领先的地位。大众点评创建于2003年4月,如今已经有了超过13年的历史,这一时间甚至比美国的主流消费点评网站Yelp还要久。2005年起,大众点评就开始涉足互联网,并且在2009年移动互联网随着智能手机兴起后,迅速推出了其在移动端的应用,拓展了一些团购和签到的业务。作为国内最大的消费点评类的网站,大众点评吸引了大量的用户,平均每月有两亿的访问量,并且其中超过85%的用户是来自于移动端[6]。Alexa Internet是一家专门统计各种网站的相关信息和网页访问量的公司,根据其最新的统计,大众点评的流量排名在全世界为846,在中国为98,是国内同类型的网站中访问量最高的[7]。

作为一家消费点评类的网站,用户在大众点评上的一切行为都必须围绕着位置,即大众点评中的商家来展开。举例来说,一个用户在大众点评上的签到信息是通过某个商家的位置信息来呈现的,并不是任意的地址。而在现实生活中,用户在大众点评上的消费也是必须与特定的商家相联系的。

1.2 相关工作介绍

目前,国内外的多个课题组在对LBSN的研究上已经进行了一系列的工作,并取得了相应的研究成果。这些研究成果主要围绕着以下四个重点问题展开:

1) 移动社交网络用户原创内容分析,代表性的包括用户签到(check-in)和点评(tip或者review)信息。在移动社交网络中,用户可以利用LBSN的签到和点评等功能,发布大量与位置相关的原创内容。其中,英国剑桥大学的Anastasios Noulas等学者利用时空分析的方法,对Foursquare中的大量用户签到数据进行研究。他们的工作揭示出了用户总体的签到数量在工作日和非工作日不同时段的变化规律,以及同一个用户连续两次签到之间的时间间隔和地理位置间隔的规律[8]。其他的相关工作包含在文献[9]。

2) 移动社交网络的安全和隐私保护问题。在LBSN中,存在着各种各样的恶意攻击,攻击者通常的做法是通过注册大量的垃圾账号,再统一控制这些账号来发布不真实甚至是骚扰性的信息,从而对正常用户的信息获取造成影响。然而经过一系列前期工作发现,现有的移动社交平台并没有很好的针对垃圾账号的办法,相关的工作见文献[10-11]。

3) 移动社交网络中位置信息与社交图谱的关系。移动社交网络除了协助其用户维护和其他用户的社交连接之外,其一大特色就是用户原创内容中有很多会和位置信息相关。LBSN会记录每个用户的实时位置,以及历史位置信息的汇总。这些信息的引入,将会对用户的交互、乃至整个社交图谱的结构,产生实质性的影响。相关的工作参见文献[12-13]。

4) 移动社交网络的位置推荐。移动社交网络不仅能够记录用户之间的互联情况,更保存了大量用户的历史性位置信息,因此可以用于对用户的出行做个性化的位置推荐,相关的工作参见文献[14-15]。

以上的这些工作涉及到了LBSN研究的多个方面,一般来说,利用互联网测量来获取用户真实数据,并进行建模分析的方式是目前对移动社交网络进行深入了解的通用方法。

2 位置社交网络的数据采集

2.1 引 言

本节首先介绍与位置有关的用户评论内容是如何在大众点评上呈现的,基于这些数据的分布,我们采取相应的爬虫策略来获取相关数据,并对数据进行有效的存储。

2.2 数据介绍

在大众点评网上,位置信息是以“商家”的形式呈现的,所有的用户评论内容都是与一个具体的商家相关的。为了便于介绍,我们随机选择一家商家,展示下围绕着商家的用户评论内容的分布。

图1展示了大众点评中部分用户原创内容的截图,从图中我们可以看到,用户的评论内容包含了商家名、用户名、评论类型、用户打分、用户评论内容和具体评论日期等信息。

图1 大众点评用户评论内容截图

2.3 数据采集

根据前面对数据集的介绍,我们大致了解了大众点评上用户评论的特点。在本节中,我们将介绍如何通过爬虫来实现大规模的用户评论数据采集。大众点评有超过两千万的商家,由于时间的限制,我们需要以一种无偏抽样的方式采集到具有较大规模并且有代表性的商家数据,使得我们获得的数据子集能够反映整个点评数据集的特征规律。在我们的前期工作[16]中,我们已经记录下了506 004个在2015年8月12日之前注册的商家ID,并保证这些ID是均匀分布的。该文基于这些ID,对商户信息从多角度进行了分析,但没有关注评论的具体内容和所体现的相应的用户的情感。在本文工作中,我们将基于这些ID,对用户发布的所有评论的内容进行分布式采集。

如何高效地爬取大众点评上的数据,我们面临着以下两个个挑战:

1) 大众点评有一套非常严格的IP地址限速机制,传统的爬虫库,例如httplib2,urllib等由于是直接爬取网页的源代码,其行为特征和正常用户有较大区别,往往会很容易被社交网络服务器所发现,并导致IP地址被封禁。我们面临的挑战是如何在保证爬虫速度的同时,能够获取海量的数据集。

2) 大众点评本身并没有提供相应的API来供研究人员对数据进行获取。为了获取大规模的数据集,我们设计的网页爬虫必须能够模拟真实用户访问这些页面的情况。

为了保证在IP不被屏蔽的情况下尽可能地提升爬虫的效率,我们从两方面入手。首先,我们采用了分布式的爬虫框架。在微软云平台上部署了45台虚拟机,每台虚拟机都有一个外网IP地址,这样的爬虫策略使得数据采集效率远高于只在一台机器上进行数据采集。然后,为了保证爬虫代码在经过长时间运行后仍能正常工作,采用了Python的Selenium库来实现数据采集过程。通过自动化测试工具Selenium和浏览器Firefox的配合,可以把爬虫的过程模拟成用户浏览网页的过程,这在很大程度上避免了服务器端的速率限制。

基于文献[16]获取到的无偏抽样的商家ID,我们采用Python编写新的爬虫代码,利用45台云服务器组成分布式数据获取平台,进行商家评论内容的采集,整个爬虫的框架如图2所示。

图2 云爬虫框架示意图

在每台云服务器内部,具体的爬虫流程如图3所示。图3左边是云端服务器的整体工作流程,首先,我们需要对机器的工作环境进行相应的配置,包括安装相应的Python库、Firefox和XServer。在环境搭建完成后,我们周期性地运行相应的爬虫程序,来采集商家的用户评论数据集,对于每个周期内产生的数据集,进行打包整理,并清理不再需要的文件,便于下一周期的爬虫。图3右边是周期内具体的爬虫过程,首先指定该周期内需要采集的商家数量N,在一次采集过程中,先获取到商家ID,那么该商家的用户评论数据URL地址为:http://www.dianping.com/shop/{ID}/review_more?pageno={x},其中x是评论的页数。通过该URL地址,我们可以采集到该商家的所有用户评论内容。

图3 爬虫流程图

2.4 数据存储

在完成了对商家数据的采集工作后,我们需要对获得的数据进行进一步的处理,以便开展后续的分析工作。接下来,将介绍如何对本地存放的几十万个文本文件进行处理,提取其中的信息进行有效地存储。

首先在爬虫时,考虑到后续需要对数据进行处理,设置每个文本文件内存放的商家数据都是按照JSON格式存放的。选取JSON作为数据的编码方式,主要是因为JSON是一种轻量级的数据交换格式,易于机器的解析和生成[17]。以ID为21 865 211的商家为例,我们抓取的该商家的用户评论内容如下所示。

{

"shopid": "21865211",

"allreviews": {

"default_numbers": 4905,

"default_info": [

{

"type": "tuan",

"date": "2015-03-25",

"user_id": "7604638",

"content": "食材新鲜地道服务员很nice"

},

]

}

}

以商家ID为标示,获取了每个商家的用户评论内容,具体的字段含义如表1所示。

表1 商家数据集的字段说明

表1中解释了采集到的数据内容,为了更好地对数据进行管理,按照字段说明,将txt中的数据导入到MySQL中进行存储。之所以选择MySQL来存储商家数据集,是因为MySQL是一种轻量级的关系型数据库管理系统,通过MySQL,我们能够更快捷、更灵活地读取数据[18]。本文的本地工作环境是Mac OS X v10.11,数据库版本是MySQL 5.1.63社区版,编程语言是Python。为了更好地管理数据库,我们使用了Sequel Pro,Sequel Pro是一款在Mac OSX平台上的数据库管理应用程序,经过一定的配置,就可以通过Sequel Pro以图形化的界面来管理MySQL中的数据库[19]。在用Python导入数据时,使用了Python中的MySQLdb模块,这是Python用来连接MySQL的接口。

利用前面描述的云爬虫框架和无偏抽样的商家ID,从2016年3月2日到2016年3月10日,我们采集了506 004个商家的用户评论内容。根据我们的测量结果,大部分的商家是没有用户评论内容的,只有16.26%的商家拥有至少一个用户评论。最终,我们采集到了3 510 122条用户评论,分布在82 279个商家中。

3 位置社交网络的语义分析

3.1 引 言

在线社交网络一个重要的功能就是用户能够在线表达自己的主观性信息,我们认为,与一般的打分机制相比,用户评论的文本内容往往能够更加准确地反映出用户的态度。因此,在本节中,将具体分析每个商家的用户评论内容。与评价打分不同的是,评论能够更加具体地反映出用户对商家的各种情感色彩和感情倾向。本节希望通过对商家中用户评论信息的挖掘,对用户的主观性信息进行提取、分析和归纳,从而发现影响用户的情感态度产生变化的因素。

一般来说,可以将用户的情感倾向分为“支持”、“中立”和“反对”三种。当然,如果需要考察用户的情感倾向程度,比如说用户对某一商家喜欢到了什么程度,这就需要通过更加细致的打分机制来描述用户的情感态度。用1代表用户对商家是完全支持,0表示用户对商家完全否定,那么0~1这个区间内的各个数值就表示了用户的情感态度分值,0.5分表示了用户对商家持中立态度。在本文中,我们使用了SnowNLP来对大众点评中的用户评论内容进行简单的情感分析。SnowNLP是一个基于Python的开源的自然语言处理工具箱,可以方便地处理中文文本内容[20]。

3.2 情感分值的分布规律

图4 评论数量随情感分值变化的CDF图

首先探讨下用户评论数量随情感分值的变化情况。图4是评论数量随着情感分值变化的累积分布函数CDF(Cumulative Distribution Function)图,其中,x轴是情感分值,y轴是情感分值小于当前值的用户评论数量在所有评论数量中所占的比例。从图4中我们可以看到,对于商家来说,大部分的用户评论是正面的,有69.91% 的用户发表了正面的评论。另外,从整体上来看,超过50%的用户发表的评论情感分值大于0.9。以上的两点发现从整体上说明了,商家收到的大部分评论都是正面的。进一步分析,如果考虑到评论的类型,发现用户在商家的评论一般分为默认点评和团购点评,所谓的默认点评就是用户前去商家正常消费,然后发表相应的评论,而与之相对的团购点评是用户通过购买团购券前去商家消费,然后留下的评论。两者的区别主要就是用户消费方式的不同,一般来说,团购消费对于用户而言往往意味着更加实惠,通常能够吸引大量的用户。为了探讨团购消费后的用户情感态度与正常消费后的区别,计算了两种消费模式下“支持”和“反对”的比例,以及各自的平均情感分值,如表2所示。从表2中可以看到,不论是对于默认点评还是团购点评,其正面评价的比例都占据了大多数,其中,相比较而言,用户在使用了团购之后,更倾向于给予商家正面的评价。另外,就平均情感分值而言,使用团购消费的用户,其情感态度更加积极正面。

表2 评论类型与情感态度

3.3 评论长度与情感分值的关系

接下来,探讨用户的情感态度变化与其对商家的评论内容长度之间的关系。在上文中我们发现,商家的大部分评论都是正面的,但存在的问题是并不是所有的用户评论都是真实有效的,我们希望从最简单的用户评论长度来辨别用户评论的真实性。在图5中,我们可以发现,从整体上来看,评论内容越长,用户对商家的评价分值越低。直观上来说,这是由于用户写的东西越多,他想借此表达的情感也越丰富,所以当评论内容到达几百字时,往往评论的分值不会太高。从另一方面来讲,可以观察到当评论内容的长度在起始点,即15~17字左右时,用户对商家的态度是最积极的。这是由于大众点评的规定是用户对商家的评论内容长度至少为15字,而许多商家在用户去店里消费时,会让用户选择发表积极正面的评论来获取一定的优惠,大部分用户会快速地发完15字的好评来获取奖励。从全体用户的整体利益上来讲,虽然单用户此次消费获得了优惠,但会误导其他的用户对商家的判断。通过对用户评论内容的进一步挖掘,我们发现在大众点评中,平均用户评论长度为63,这恰巧是图5中评论分值对应的一个峰值。

图5 用户情感态度随评论内容长度的变化

同样的,当考虑到评论类型时,发现不同消费类型的用户的情感态度随评论内容长度的变化规律与图5中所描述的规律类似,两者都是随着评论内容长度的增加,情感态度值在整体上下降,如图6、图7所示。不同的是,当评论内容的长度增加时,团购点评的情感态度分值变得更加混乱,起伏比较大,而默认点评的情感分值起伏较小。

图6 用户情感态度随默认评论内容长度的变化情况

图7 用户情感态度随团购评论内容长度的变化情况

3.4 评论关键词与情感分值的关系

接下来我们希望通过分析评论的具体内容来理解用户的情感态度。通过前面对用户情感态度分值的介绍,知道当分值为0时,用户的情感态度最消极,而当分值为1时,用户的情感态度是最积极的。为了对比两者的不同,从商家评论数据集中选取情感值分别为0和1的评论,通过SnowNLP来提取每条评论的关键词。

图8和图9用词云的形式形象表达了用户在对商家的态度不同时关键词的不同分布,其中,关键词出现的次数越多,其字号越大。图8展示的是53 953条用户正面评论的关键词分布,我们可以看到,当用户对商家满意时,出现最多的词包括“不错”、“喜欢”和“好”等等,这些都是一些积极的词汇。图9展示的是用户对商家极度不满意时的评论关键词,我们从53 265条负面评论中提取出这些关键词。从图9中我们可以看到,“服务员”、“态度”、“服务”和“味道”等成为了用户最不满意的地方。对比两者,我们可以发现,当用户对商家满意时,发表的评论内容更加倾向于描述自己的正面情感,表达对商家的满意程度,关键词多为形容词;而当用户对商家不满意时,发表的评论内容更加倾向于强调自己不满意的细节,关键词多为名词。

图8 用户正面情感关键词分布

图9 用户负面情感关键词分布

4 结 语

本文选取了目前中国最热门的消费点评类的LBSN网站——大众点评,以位置为中心,对商家的评论内容进行研究分析。首先,为了获取大量的数据集,通过对大众点评网站的调研、分析来编写爬虫代码,通过网络测量的方式来获取大众点评网的商家评论数据。为了提升获取数据的速度和数量,在微软云上的45台云服务器中部署了我们的爬虫代码,实现了分布式的爬虫框架。

为了数据存储的高效性,采用了MySQL来存储获取到的商家数据集。设计了数据表来涵盖商家的评论内容数据集,最终,整理后的数据集占据了大概745 MB的空间,包含了82 279个商家,3 510 122条用户评论。

基于获取的大量数据,通过对评论内容的分析,挖掘影响用户情感态度变化的因素。首先,发现对于大部分的商家而言,用户的评论都是正面的,只有不到三分之一的用户评论是负面的。 另外,团购消费的用户情感态度分值一般高于正常消费的用户。然后,研究了用户的情感分值随评论内容长度的变化规律,从整体上来看,用户的评论内容长度越长,其情感分值越低。最后,提取了用户评论的关键词,这在某种程度上也代表了用户的情感态度,不同态度的用户评论,其关键词的分布也有很大的不同。

[1] The 2015 U.S.Mobile App Report[EB/OL].https://www.comscore.com/Insights/Presentations-and-Whitepapers/2015

/The-2015-US-Mobile-App-Report.

[2] 预计2011年美国UGC广告收入将达43亿美元[EB/OL].http://www.cnad.com/html/Article/2007/0725/20070725105901704.html.

[3] Ye M, Janowicz K, Mülligann C, et al. What you are is when you are: the temporal dimension of feature types in location-based social networks[C]//Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 2011:102-111.

[4] Ballesteros J, Carbunar B, Rahman M, et al. Yelp Events: Making Bricks Without Clay? [C]//Distributed Computing Systems Workshops (ICDCSW), 2013 IEEE 33rd International Conference on. IEEE,2013:156-161.

[5] Allamanis M, Scellato S, Mascolo C. Evolution of a location-based online social network: analysis and models[C]//Proceedings of the 2012 ACM conference on Internet measurement conference. ACM, 2012:145-158.

[6] DIANPING: THE EVOLUTIONS OF CHINA’S LOCATION-BASED REVIEWS GIANT[EB/OL].http://www.digitalintheround.com/china-location-based-marketing-dianping/.

[7] Alexa Traffic Ranks of dianping.com[EB/OL].http://www.alexa.com/siteinfo/dianping.com.

[8] Noulas A, Scellato S, Mascolo C, et al. An Empirical Study of Geographic User Activity Patterns in Foursquare [C]// Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM), 2011:570-573.

[9] 李敏, 王晓聪, 张军,等. 基于位置的社交网络用户签到及相关行为研究[J]. 计算机科学, 2013,40(10):72-76.

[10] He W, Liu X, Ren M. Location cheating: A security challenge to location-based social network services[C]//Distributed computing systems (ICDCS), 2011 31st international conference on. IEEE, 2011:740-749.

[11] 谈嵘, 顾君忠, 杨静, 等. 移动社交网络中的隐私设计[J]. Journal of Software, 2010,21(S):298-309.

[12] Scellato S, Noulas A, Lambiotte R, et al. Socio-Spatial Properties of Online Location-Based Social Networks[C]//Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM),2011:329-336.

[13] 刘艳, 潘善亮. 基于LBSN好友关系的个性化景点推荐方法[J].计算机工程与应用, 2015, 51(8):117-122.

[14] 屈弘扬, 於志文, 田苗,等. 基于LBSN的商业选址推荐系统的研究与实现[J]. 计算机科学, 2015,42(9):33-36.

[15] Yang D, Zhang D, Yu Z, et al. A sentiment-enhanced personalized location recommendation system[C]//Proceedings of the 24th ACM Conference on Hypertext and Social Media. ACM,2013:119-128.

[16] Huang Y, Chen Y, Zhou Q, et al. Where Are We Visiting? Measurement and Analysis of Venues in Dianping[C]//2016 IEEE International Conference on Communications (ICC),2016.

[17] Introducing JSON[EB/OL]. http://www.json.org/.

[18] MySQL [EB/OL]. http://www.mysql.com.

[19] Sequel Pro [EB/OL]. http://www.sequelpro.com.

[20] Guan X, Yang Y, Yang X, et al. Dirichlet Process Mixture Model for Summarizing the Social Web[M].Social Media Processing. Springer Singapore,2015.

SEMANTIC ANALYSIS OF BUSINESS DATA IN LOCATION-BASED SOCIAL NETWORK

Huang Yue He Xinlei Chen Yang Zhao Jin

(SchoolofComputerScience,FudanUniversity,Shanghai201203,China) (EngineeringResearchCenterofCyberSecurityAuditingandMonitoring,MinistryofEducation,Shanghai201203,China)

In recent years, “mobile” and “social” to promote the development of the Internet has become the two key technologies. Under these two technologies, location-based social network (LBSN) have developed rapidly, attracting a large number of users on a global scale, both academia and industry are investing heavily in LBSN research. LBSN sites are location-centric, meaning that any user-generated content, such as sign-in or comment, must be associated with a specific location. Although location information plays an important role in LBSN, the research on LBSN at home and abroad is mainly from the user point of view, the lack of research from the perspective of location. At the same time, the analysis of original user content in LBSN is lack of analysis of text information. The author makes a large-scale data collection on the content of the business comment on the popular online commentary social network-Dianping, and carries out semantic analysis on the large amount of user comment text.

Location-based social network Position angle User-generated content Sentiment analysis

2016-04-23。上海市自然科学基金项目(16ZR1402200)。黄岳,硕士生,主研领域:社交网络。何新磊,本科生。陈阳,副研究员。赵进,副教授。

TP3

A

10.3969/j.issn.1000-386x.2017.05.014

猜你喜欢
爬虫分值商家
The Thin Line
汉语世界(2023年3期)2023-09-15 10:25:48
利用网络爬虫技术验证房地产灰犀牛之说
一起来看看交通违法记分分值有什么变化
工会博览(2022年8期)2022-06-30 12:19:30
基于Python的网络爬虫和反爬虫技术研究
商家出售假冒商品,消费者获十倍赔偿
公民与法治(2020年9期)2020-05-30 12:45:12
利用爬虫技术的Geo-Gnutel la VANET流量采集
电子测试(2018年1期)2018-04-18 11:53:04
大数据环境下基于python的网络爬虫技术
电子制作(2017年9期)2017-04-17 03:00:46
春节黄金周陕西省商家揽金二百一十亿元
现代企业(2015年2期)2015-02-28 18:45:13
易淘食进驻百度钱包中小商家盼低费率
宿迁城镇居民医保按病种分值结算初探