面向微博的用户分类与旅游推荐

2016-07-10 03:42王慧瑶
电子技术与软件工程 2016年7期
关键词:分类

王慧瑶

2010年国内微博发展趋势迅猛,四大门户网站均开设微博。微博是一个基于用户关系信息分享、传播以及获取的平台,微博客更能表达出每时每刻的思想和最新动态。并且,我国旅游业总体保持平稳较快发展。国内旅游市场继续较快发展,入境旅游市场基本持平,出境旅游市场继续快速增长。那么面向微博的社会化推荐就应运而生,可以通过用户在微博的动态,经过智能化分析,为他们提供相应的旅游资讯。

【关键词】微博用户 分类 旅游推荐

为微博用户提供高质服务,提高用户满意度已经成为微博企业重要工作,由于用户需求的不同,使得人们兴趣爱好也就不同,这就需要发现用户兴趣内容,做好分类,向用户推荐更有兴趣的微博信息。同时改变目前旅游信息行业的现状迫在眉睫,鉴于微博作为一个能表达出用户的真实思想和最新动态的平台,完全可以作为提取每个人的兴趣爱好,旅游意向的数据来源。面向微博的旅游推荐的主要思想是搭建一个可针对不同用户的具体特征,给出相应智能化推荐的一个旅游信息智能推荐平台.而此类智能推荐系统与普通系统中的旅游景点推荐服务最大的差别在于“推荐”的方法.区别于普通推荐系统的简单匹配,智能推荐的最大变化是:可以因人而异的进行智能推荐。为实现这一目标,可以将数据挖掘技术应用其中,以此为基础做好微博用户分类。

1 微博用户特点

微博中含有大量的信息,不仅有用户发表微博的数量统计,用户关注人员以及粉丝数量,还有很多与用户个人相关的信息,如性别、微博等级、相册等内容。对于微博用户来说,主要有三种,分别为一般用户、领袖用户以及功能用户。其中,一般用户多指年龄在18-30周岁之间群体,这些用户人群学历相对较高,不仅有学生,还有普通工作人员,此类用户比较喜欢接受新事物,自身表达能力与参与社会活动的意识也很强。而领袖用户相对较少,多以著名商人、作家等为主,他们所发表的内容多为自己从事领域的内容,所以,他们的兴趣基本固定。功能微博就是以某一平台或商家的名义所发布的微博,此类微博的兴趣较为广泛,涉面也很广,但数量并不多,但却不缺乏影响力,它的粉丝也很多。

2 微博用户兴趣分类与景点推荐

通过研究微博用户关注的内容,就可以了解到用户兴趣取向,如对于领袖用户来说,他们多关注与自身研究领域相关的内容,这样微博在为其推荐相关景点时也会根据兴趣爱好标签确定,以保证为用户推出的出游景点内容都是用户感兴趣的部分,如针对南派三叔这类的文学名人,所推出的景点信息多以有人文特点的景点,如三味书屋或国家台湾文学馆等为主。同样对于功能微博用户,也会根据其类型推荐相关微博,如针对万达影讯这种大V所提供的微博,主要以时尚生活的景点和资讯为主,这些都是根据微博用户特点确定的相应的景点分类。面向微博的旅游推荐的主要思路具体如下:

2.1 数据的收集

2.1.1 语料收集

语料来源于NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。本次实验取该语料库中得20000条。

2.1.2 景点信息设置

人工在数据库中进行景点信息录入。

2.2 聚类分析数据样本

首先,明确用户兴趣集合H,以便概括出具有相同兴趣的微博用户。如在吃货中,主要是推荐一些有地方特色小吃或有名美食的景点,同时也包括一些特色饭店等内容。尽管这种分类不一定是用户兴趣爱好,但也可以使用户把握相关行业动态信息。因此,将其作为聚类分析数据样本也有一定作用。其次,利用景点信息集合T,找出每一个景点所具有的特点,构成景点特征集合L。最后,根据事先确定好的用户兴趣爱好,为之推荐符合其兴趣特征的景点。具体实现思路如下:

(1)以覆盖人数为标准,选出7个特征词确定微博用户喜好类别。要了解用户的微博信息的特点,可以利用以下方法确定用户的兴趣。先设定兴趣集合H,在H下设有多个相同的兴趣名称,即(h1,h2,h3……hn)(n∈N+),这里的微博用户分类体系将用户分为七个大类:吃货、购物、摄影、体育、教育、情侣、艺术。

(2)以这7个特征词为标准对微博进行人工标注,并对无效微博进行过滤。即进行语料加工,从语料中选取了具有鲜明特征的语料,对其进行分类标注并去除无效信息,标注句子。

(3)景点类别的确定。同时设置旅游景点集合T,在T下设有多个景点,即(t1,t2,t3……tn)(n∈N+)因不是任何景点都能满足用户兴趣,所以还需要具有代表性的且能够被用户兴趣标示的景点类别集合L,即(l1,l2,l3……ln)(n∈N+),这样就可以便于找到具有相同风格的景点。这里的旅游景点对应上述微博用户兴趣的七大类:饮食、购物、自然、运动、游学、度假、人文。

2.3 景点与微博用户进行对应特征匹配

根据收集的微博用户数据,确定用户的可能感兴趣的景点集合。即找出指定用户的兴趣爱好集合(h1,h2,h3……hn),从L(l1,l2,l3……ln)中,分别针对用户所拥有的兴趣特征找出与之到对应的景点类别的映射(l1,l2,l3…lk)→h。此时通过微博用户特征到景点特征的匹配,微博用户可能感兴趣的景点的集合就确定出来了,在数据库中可以查询到其中任何一个人所属的兴趣特征。

2.4 兴趣特征加权

上述数据库中微博用户的特征向量其实为布尔逻辑型,即只能确定用户是否属于某一兴趣特征类别,而无法确定用户对其偏好程度,为了能够更加定量精准的表达用户属于某个兴趣特征的程度,在此引入兴趣偏好程度进行所属特征的加权计算式,即利用该兴趣特征在该用户所有兴趣中所占的权重得出:W(hk)=Count(hk)/Sum(h)。W(hk)∈[0,1],其值越大则代表用户该兴趣特征表现越明显,0代表用户无此兴趣特征。

3 结论

通过以上分析得知,微博用户在逐渐增多,用户出行的需求也逐渐增加。为给用户满意的推荐,就需要发现与了解用户特点,根据用户特点对景点进行分类。而做好数据分类,这就需要应用到数据挖掘技术根据用户特点为其推荐相关景点信息,以便达到猜用户所想景点推荐。

参考文献

[1]宋双永,李秋丹,路冬媛.面向微博客的热点事件情感分析方法[J].计算机科学,2012,S1:226-228+260.

[2]王连喜,蒋盛益,庞观松,吴美玲.微博用户关系挖掘研究综述[J].情报杂志,2012,12:91-97+57.

作者单位

山西大学计算机与信息技术学院 山西省太原市 030006

猜你喜欢
分类
2021年本刊分类总目录
分类算一算
垃圾分类的困惑你有吗
星星的分类
我给资源分分类
垃圾分类,你准备好了吗
分类讨论求坐标
数据分析中的分类讨论
按需分类
教你一招:数的分类