基于微博内容的用户兴趣爱好分类模型

2015-08-26 02:47罗挺豪赵珓言杜健平唐建鹏陈荣钦
台州学院学报 2015年3期
关键词:词库博文分词

高 哲,罗挺豪,赵珓言,杜健平,唐建鹏,陈荣钦

基于微博内容的用户兴趣爱好分类模型

高哲,罗挺豪,赵珓言,杜健平,唐建鹏,陈荣钦*

(台州学院数学与信息工程学院,浙江临海317000)

微博数据具有较好的价值,如何从海量的微博数据中自动提取用户兴趣爱好是智能推荐、微博营销等重要基础。在分析微博特征基础上,采用基于微博内容的兴趣爱好分类模型,通过构建兴趣爱好词典,并自动抓取微博信息进行分词、匹配和统计,有效地分析出用户的各种爱好兴趣度。

微博内容;数据挖掘;兴趣分类;微博营销;分词

微博作为一个基于用户关系信息分享、传播和获取的平台,具备速度快、信息量大、实时开放、实名制等特点,逐渐成为企业营销的一个重要工具[1]。但微博用户和信息规模往往很大,如截至2014年12月31日,Tw itter每月活跃用户数为2.88亿,新浪微博的月均活跃用户数达1.757亿,如何在海量的微博用户中精准地定位用户对象并进行智能推荐是微博营销的关键问题。

企业营销中需要考虑的一个重要问题是用户的兴趣爱好,因为它往往能够直接反映用户的购物趋向。兴趣爱好一致的用户,其购买的产品也往往具有较大的相似性,因此分析用户的兴趣爱好对智能推荐和微博营销也具有重要意义。

1 相关研究

目前,已经有不少基于微博的用户研究,盛宇[2]针对微博特定领域的用户特征进行分析和分类,比如性别、地区、认证、博文数、转发数、个人介绍、个人标签、参与话题、博龄、关注度、互粉率等。王静等人则研究了新浪微博的人气用户,针对名人具有关注数小,被关注数大的特征,分析了微博中的名人效应[3]。微博的核心用户兴趣相似性和挖掘也是研究的热点[4-7],通过分析用户所关注的人进行聚类和相似性分析,可以较好地确定兴趣圈子[4]。余珊琳等人[5]则通过分析用户浏览的主题网页,在主题网页的浏览时间,是否有回复来获得用户的兴趣度,并通过兴趣度的高低,采用基于粗糙K均值的用户兴趣度的用户聚类方法对用户进行聚类,同时实现对虚拟社区核心用户的挖掘。陈海强等人则提出了基于兴趣集中性的核心成员求解算法,并在豆瓣网的虚拟社区中进行了有效验证[6]。

本文则针对微博内容能够反映用户兴趣爱好的特点,直接对微博信息内容进行分析,从而进一步提取出用户的兴趣爱好并进行分析和统计。

2 兴趣爱好分类模型

由于微博文本往往具有以下几方面的特点:(1)短文本性:如新浪微博的字数限制在140个字符以内;(2)实时海量:随着移动设备的普及,用户随时随地都可能发布信息,如新浪微博每天均有数亿条微博信息,信息传播速度非常之快;(3)内容随意:微博文本往往贴近生活,口语化较重,并充斥着各种网络用语;(4)主动性:微博内容往往由用户有感而发,能表达用户性格、情绪、兴趣爱好等有利于营销的重要信息;(5)话题性:用户往往对某个共同话题持续地关注和回复,形成了上下文信息。本文从微博文本的特点出发,提出了兴趣爱好分类模型,整个模型如图1所示,分为几个步骤:(1)抓取大量与兴趣爱好相关的文章并进行分词,形成兴趣爱好词典;(2)定时抓取活跃度较高的微博用户,并提取出用户的微博内容并进行分词;(3)根据兴趣爱好词典,对用户的微博关键词进行匹配和统计,确定用户的兴趣爱好。

图1 用户兴趣爱好分类模型图

2.1数据预处理

微博的数据量太大,一般需要实现自动抓取技术[8],这也是数据预处理的第一个重要步骤。以新浪微博为例,目前常见的微博内容抓取方法有以下三种:

(1)获得微博官方授权,并通过提供的API进行抓取:在微博的开放平台上提交身份信息等待审核通过、新建项目、提交项目文案等资料、等待微博官方的审核、审核通过并开放特定权限。该方法的优点是官方授权,数据质量有保障,系统维护方便等。缺点是要通过官方的认证审核、流程长、手续多、权限小(部分数据接口需要收费),限制多(如接口调用的频率限制,每分钟只能请求次数有限)。

(2)通过直接访问用户主页,抓取源代码:通过访问用户页面源码,并用特定的正则表达式来匹配出需要抓取的内容。优点是实现方便,不受官方权限的限制,可以及时抓取微博数据,缺点是部分微博内容需要用户登录才能访问,微博样式更新后需要及时的更新正则表达式去匹配新的网站样式。

(3)对第二种方法进行改进,先模拟登录,再访问用户主页,抓取源代码:根据微博网站请求加密的规则,加密数据,然后再向微博的服务器发送访问请求。优点是可以抓取所有登录用户可以访问到的数据,数据不受限制。缺点是频繁请求会造成微博服务器的压力,所以官方抵制这样的做法,因此微博官方会比较频繁的修改加密,数据请求方式,容易造成模拟登录的失败而导致数据抓取的失败。

本文主要结合第(2)和(3)两种方式进行抓取,首先尝试方式(2)获取数据,在失败的情况下再尝试方式(3),数据抓取后,还需要进行一定的处理。主要包括:

(1)字体处理:通过逐字在繁体字库中进行二分查找将繁体字转换为简体字;

(2)文本过滤:微博内容中可能存在表情、图片、视频、语音等信息,对其进行过滤处理。

最后对数据进行中文分词处理,主要的技术有:

(1)基于字典、词库匹配的分词方法;

(2)基于词频度统计的分词方法;

(3)基于知识理解的分词方法等。

目前常见的分词工具有:Lucene、ICTCLAS、IKAnalyzer、Paoding等,本文基于ICTCLAS进行中文分词。

2.2兴趣爱好词库构建

预先设置好各种兴趣爱好类型如:体育、动漫、户外运动、搞笑、摄影、旅游、星座、汽车、游戏、电影、电视剧、绘画、美食、股票、购物、钓鱼、阅读、音乐、动漫、电影、音乐等,并对各种兴趣爱好从互联网上抓取相关的文章,随后对文章进行分词,提取出数量最多的名词(数据表明名词更能反映兴趣爱好),如与“动漫”相关的词语可能有“七龙珠”、“佩恩”、“宇智波”、“火影”等,与摄影相关的词语可能有“光圈”、“光学”、“光源”、“光照”等。随后对词语根据词频进行排序,保留词频最高的词语并加入相应的兴趣爱好词库,对于各种兴趣爱好都相关的词语根据关联度进行排序并剔除关联度较大的词语,因为它们不能更好的区分出兴趣爱好,如:“范围”、“范畴”、“蓝色”、“行业”、“行为”等。

2.3兴趣爱好挖掘和分类

首先需要对用户的微博内容进行中文分词,然后提取其中的名词并统计其词频,对各个词语在爱好词库中进行搜索,若命中则相应的爱好值递增,最后对爱好结果进行排序确定微博内容的爱好值。如某用户的微博内容中出现6次“火影”,4次“佩恩”,2次“光圈”,则其动漫的爱好值为10,而摄影的爱好值为2。

通过对用户所有的微博内容进行分析,便可以确定每个用户各种爱好值,根据爱好值进行排序后,便可以从中选择最有兴趣的用户,从而起到精确定位用户的功能。具体步骤为:

dealContent(content,home_url)

//对微博内容content进行分词

String data=Nlpir.ParagraphProcess(content);

//对分词结果通过正则表达式筛选出名词:

Pattern pattern=Pattern.com pile("([\S]*/[n][\S]*)");

Matcher m atcher=pattern.m atcher(data);

//对名词结果进行排序并合并:

Collections.sort(listResult);

//根据分词结果比对字典词库:

hobbyResultMap.put(map.get("hobby");

//更新爱用户爱好结果:

updateResult(hobbyResult,home_url,hobbyResultMap.get(hobbyResult),dbUtil);

在处理爱好值时,以爱好词在该用户总有效词中所占的比例为重要指标,从而避免微博内容长短对结果产生的影响。如A用户的某爱好词是10,而总有效词是40,B用户的该爱好词是30,但总有效词是300,那么对于该爱好来说,虽然A用户的值较小,但一般情况下认定A对该爱好更甚,因为该爱好词所占的比例更大。

2.4结果展示

给定某一个微博平台用户名或者主页地址,模型将从微博平台获取到相应的微博文本信息,经过分词和统计后,匹配相应的兴趣爱好,并对这些兴趣爱好进行排序、筛选,最终形成用户的兴趣爱好度,表1给出了部分用户的兴趣爱好值。

另外,给定任何一段微博文本,模型也能将其分词后,统计出各种兴趣爱好,并与其他用户进行匹配,获得与该微博文本兴趣相似度类似的用户,从而起到智能推荐的作用。

表1 兴趣爱好结果示例

3 总结

本文研究了微博内容的特点,通过构建兴趣爱好词典,自动抓取微博内容并进行分词、匹配和统计,结果表明能有效的分析出用户各种爱好的兴趣度,为微博用户智能推荐、微博营销等奠定良好的基础。

[1]朱涛.微博营销的理论基础和传播策略[J].文化经济,2011(24):275-277.

[2]盛宇.微博特定领域用户外在特征研究——以新浪微博学术类用户为例[J].情报杂志,2012(12):98-103.

[3]王静,王地龙.基于数据挖掘的微博人气用户特征分析与研究[J].数字通信,2013(2):17-18.

[4]林晓丽,胡可可,胡青.基于Python的微博用户关系挖掘研究[J].情报杂志,2014(6):145-148.

[5]余珊琳,钟绍辉.基于粗糙K一均值用户兴趣的聚类算法[J].电脑知识与技术,2013(5):3537-3540.

[6]陈海强,程学旗,刘悦.基于用户兴趣的寻找虚拟社区核心成员的方法[J].中文信息学报,2009(3):89-94.

[7]何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].信息系统,2011(11):121-125.

[8]孙晓,叶嘉麒,唐陈意,等.基于多策略的新浪微博大数据抓取及应用[J].合肥工业大学学报(自然科学版),2014(10):1210-1215.

(责任编辑:耿继祥)

The Interest Classification M odel of Users Based on M icro-blog Content

GAO Zhe,LUO Tinghao,ZHAO Jiaoyan,DU Jianping,TANG Jianpeng,CHEN Rongqin*
(School of Mathim atics and Inform ation Engineering,Taizhou University,Linhai 317000,China)

The data of Micro-blog are much useful.How to obtain user’s interest from big m icro-blog data is the basis of intelligent recommendation and m icro-blog marketing.By analyzing the characteristics of m icro-blog content,the content-based interest c lassification model is adopted.It can effectively analyze the user’s interest construcing an interest dictionary,automatically acquires the m icro-blog content,segments and matches the keywords.

m icro-blog content;data m ining;iInterest classification;m ic ro-blog marketing;w ord segm entation

10.13853/j.cnki.issn.1672-3708.2015.03.004

2015-04-23;

2015-05-11

简介:陈荣钦(1979-),浙江台州人,讲师,硕士,主要从事图形图像研究。

猜你喜欢
词库博文分词
第一次挣钱
分词在英语教学中的妙用
一“吃”多用
输入法词库取证比较研究
结巴分词在词云中的应用
结巴分词在词云中的应用
谁和谁好
输入法词库乾坤大挪移
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
将用户词库快速导入搜狗五笔词库