杜 卿 王齐轩 黄东平 蔡 毅 王 涛 闵华清(华南理工大学软件学院,广东广州510006)
基于社交关系的问答系统及最佳回答者推荐技术*
杜 卿 王齐轩 黄东平 蔡 毅†王 涛 闵华清
(华南理工大学软件学院,广东广州510006)
近年来,社区问答服务系统(CQA)越来越受到人们的欢迎,但随着提问规模的膨胀,获得回答的问题比重逐步降低,且答案质量无法得到保障.为了提高问答系统中问题被解答的概率,并提升答案可信度,文中提出了基于社交关系相似度的社交问答系统(SQA),主动寻找与提问者社交关系紧密且能够回答问题的用户,并提出了针对提问者与最佳回答者的推荐方法.实验结果表明,在主观性强或实时性强等问题集上,文中方法能更快地得到让提问者满意的答案.
问答系统;社交关系相似度;社交网络
问答系统是信息检索的一种方式,它支持用自然语言回答用户用自然语言提出的问题,相关的研究工作非常多[1-7].Guo等[2]将问题推荐给用户,以提高用户的参与度.Zhou等[3]利用语言模型分析用户的历史问答数据,得到他们在不同领域的专业度,然后有针对性地推荐问题.Zhang等[4]通过对一个Java开发者论坛的研究,发现一个问题的平均回复时间是9h.Li等[5]通过研究用户社交圈的知识覆盖度,发现用户社交圈所覆盖的知识面并不广,这是因为兴趣相似的用户更容易聚集.Mamykina等[6]发现在StackOverflow网站上一个软件开发者的提问平均11min就能得到答复.Li等[7]发现提问者和用户在话题中的互动会影响问答过程,提出了一种基于互动增强标签的传播算法来预测答案质量.
近几年来,以社区问答系统(CQA)为代表的交互式问答系统广受欢迎.Yahoo!Answer、百度知道、腾讯问问等网站提供在线提问以及回答问题的交流平台,为用户解决了成千上万的疑问.Yahoo!Answer每天会有90 000个新问题被提出.
社区问答系统在为用户创造便利的同时,也存在着一定的局限性.首先,部分回答的答案质量不高.由于系统对回答者没有约束,有些回答者并不真正了解相关知识,他们提供的答案不一定能够很好地解决提问者的疑惑.甚至有些网络用户单纯为了赚取积分而随意回答,其答案没有任何价值.其次,问题解答的效率不高,缺乏时效性.由于新问题不断被提出,问题数量增长非常快,而回答问题的人相对较少,一个问题被提出后,往往需要等待相当长的时间才有人回答,还有一部分问题根本没有人回答.因此,当前CQA系统中存在两个亟待解决的瓶颈问题:①提高答案质量,寻找熟悉问题所属领域的专业回答者;②提高问题的解答比例,提升用户参与答题的意愿.
社会心理学的研究认为那些与提问者有人际关系的用户比其他人更愿意回答问题,同时提问者对认识人的答案更有信任感.例如,Horowitz等[8]证实朋友比陌生人更愿意也更有效地解答问题. Morris等[9-10]的研究发现,在小规模的研讨中,很多参与者的问题都是被关系紧密的朋友解决的,而且友谊的紧密程度是对回答问题的一种激励因子,每种亲密程度的人群都会乐意回答问题.现实生活中,人们遇到问题时首先想到的是问朋友,但在大多时候,人们并不了解朋友是否熟悉问题所属领域,盲目地询问可能会浪费大量的时间和精力.因此,随着社交网络的发展,学术界和产业界都提出了一些将社交网络应用于问答系统的方法.如Nardi等[11]提出“并不是查询你知道什么,而是查询你认识谁”.社交搜索引擎Aardvark会将用户的提问递交给用户的延伸社交网络(如Facebook、LinkedIn等)中最有可能回答这个问题的人[12].而网络问答社区知乎网通过建立关系社区来帮助用户找到更好的答案. Quora的用户可以对特定的主题和专家加关注,就像在Twitter和微博中对感兴趣的人物加关注一样,之后就可以回答已关注主题下面的问题,并向已关注的专家提问.
考虑到用户在社交网络上的言论和行为可以反映用户的关注领域,文中提出了基于社交关系相似度的社交问答系统(SQA),该系统基于社交网络提供问答服务,在提问者信任的用户群中推荐能回答问题的最佳回答者.现有的社区问答系统中提问者对答案的信任来自于回答者在问题领域的权威性,属于图书馆范型的系统;而社交问答系统中用户对答案的信任来自于其和回答者的关系亲密度,属于乡村范型的系统.结合目前的研究热点推荐系统[13]和个性化检索技术[4-5],文中还提出了一种基于提问者社交网络关系的最佳回答者推荐方法.该方法首先分析提问者的社交关系,从与提问者有直接或间接社交关系的用户中找到那些能够回答问题的潜在回答者,然后度量潜在回答者对特定问题提供高质量答案的可能性,推荐有意愿回答且熟悉相关领域的最佳回答者.
1.1系统形式化定义
基于社交关系的问答系统是一种新的个性化信息检索方式.它能够根据用户提问,利用用户的社交关系,给用户推荐问题的最佳回答者(即最有可能有效回答提问者问题的人).
定义1基于社交关系的问答系统是根据用户x的输入问题Qx,i和潜在回答者集合p,通过函数θ(θ:Qx,i×p→p')对潜在回答者按照其回答Qx,i的适合程度进行排序,得到最佳潜在回答者集合p'.
假设张三暑假计划去广州旅游.他希望用社交问答系统来收集一些关于广州的信息.于是,他在微博上发布了这样一条提问(例1):“我打算去广州旅游,谁知道广州有哪些好玩的景点,在哪里才能够吃到正宗的广州美食?”
该问题发布社交问答系统之后,系统会执行一系列的步骤来寻找最佳的回答者.首先,系统对用户提问进行建模,生成问题向量.同时,系统对用户的社交关系进行建模,建立潜在回答者向量.最后,系统对问题向量和潜在回答者向量进行相似度计算,并进一步优化得到最佳回答者.具体流程图如图1所示.
图1 社交问答系统寻找回答者流程图Fig.1Flowchart of searching respondents in social question answering system
1.2用户提问建模
用户提出一个问题后,系统得到这个问题的文本,然后对该问题进行建模,将文本转换成对应的问题向量.
定义2用户x提出一个问题i可以表示为一个问题向量Qx,i,它是由若干个“关键词:权重”组成的向量:Qx,i=(ti,1:fi,1,ti,2:fi,2,…,ti,k:fi,k,…,ti,n:fi,n),其中(ti,k:fi,k)是第k个关键词ti,k和该关键词在问题文本中的权重fi,k.
对于中文文本,系统先要进行分词得到若干个有词性标注的词,然后从中提取关键词.句子中关键概念往往由名词来表达,因此系统提取名词作为关键词.
对于前面的提问,文中使用中科院ICTCLAS分词系统进行分词,结果如下:
“我/rr打算/v去/vf广州/ns旅游/vn,/wd谁/ry知道/v广州/ns有/vyou哪些/ry好玩/a的/ude1景点/n,/wd在/p哪里/rys才/d能够/v吃/v到/v正宗/b的/ude1广州/ns美食/n?/ww”,其中“n”表示普通名词,“ns”表示地名,“vn”表示名动词,选取这几种标记的词作为问题向量的关键词:“广州”、“旅游”、“景点”、“美食”.
得到所有关键词后,系统采用词频-逆向文件频率算法(TF-IDF)计算关键词权重:
其中,TFi是关键词ti的词频,ni是关键词ti在提问中出现的次数,是所有关键词在提问中出现的总次数,IDFi是关键词ti的概率分布交叉熵,D是系统中所有提问的数量,Dw是出现关键词ti的提问的数量.例1中关键词的权重计算结果如表1所示.
表1 例1中关键词权重计算结果1)Table 1Weight calculation results of keywords in example one
因此,张三的提问转化为问题向量的结果:
Q=(广州:0.0212,旅游:0.0022,景点:0.0015,美食:0.0053).
1.3潜在回答者的权重
用户提问后,社交问答系统向用户推荐既有回答问题意愿又有回答问题能力的回答者.从社会心理学的角度看,社会关系越好,用户间的回答意愿越大,因此,文中用关系亲密度来衡量用户回答问题的意愿.
常见的社交平台上,直接的社交关系主要有“互相关注”关系和“单向关注”关系两种,通常,“互相关注”关系的用户间亲密度更强.文中首先将具有直接社交关系(即社交网络第1层)的用户放入潜在回答者集合,然后挖掘提问者的间接社交关系.
考虑到社交关系的传递性,即“朋友的朋友可以通过互相介绍也成为朋友”,文中将第1层关系中与提问者是“互相关注”的潜在回答者所拥有的其他直接社交关系的用户,也放入潜在回答者集合中,他们是社交网络上的第2层用户,依此类推,直到挖掘到提问者的第n层中的潜在回答者.
定义3第i层社交关系中的潜在回答者集合是第i层社交关系中“互相关注”关系用户集合和“单向关注”关系用户集合的并集,即Ri=Mi∪Oi,Mi=(mi,1,mi,2,…,mi,s),Oi=(oi,1,oi,2,…,oi,t),其中,Ri、Mi和Oi分别是第i层社交关系中的潜在回答者集合、“互相关注”关系用户集合和“单向关注”关系用户集合,mi,s是第i层第s个“互相关注”用户,oi,t是第i层第t个“单向关注”用户.
图2中给出了用户张三的社交关系图.在例1中,用户张三提出问题后,系统从他的第1层社交关系开始搜索,找到是“互相关注”关系的李四和“单向关注”关系的王五、赵六作为第1层的潜在回答者,然后从第1层“互相关注”关系的李四继续搜索,找到第2层“互相关注”的钱七,依此类推,直到第n层停止搜索.
图2 用户社交关系示意图Fig.2Schematic diagram of user social relationship
不同社交关系、不同层次社交关系的潜在回答者与用户间的亲密关系是不一样的,他们回答提问的意愿也是不一样的.“互相关注”关系的用户一般比“单向关注”的用户更愿意回答提问者的问题.此外,社交关系在传递的过程中,关系亲密度通常会衰减,即第1层关系中潜在回答者的回答意愿会比其他层次的高.因此,文中对不同关系、不同层次潜在回答者的回答意愿设置权重值,作为最终决策的依据之一.
首先,不同社交关系之间的重要性是不一样的,文中设置“互相关注”与“单向关注”的权重比为r.其次,不同层次的社交关系的重要性也是不一样的.文中设置相邻层次之间的权重比为c,即其中,wmi和woi分别是第i层“互相关注”和“单向关注”关系的权重系数.
在第1层社交关系中,“互相关注”关系的用户权重为wm1,则第i层社交关系中“互相关注”关系用户的权重系数和“单向关注”关系用户的权重系数分别为
1.4潜在回答者建模
对于社交网络上的所有用户,文中抓取他们在社交网络上的所有言论(包括原创、转发、评论等)生成用户的特征文档;然后使用ICTCLAS分词系统对特征文档进行分词和词性标注,提取标记词汇中的名词作为该文档的关键词,计算关键词的TF-IDF作为权重,得到(关键词:权重)对生成用户向量.处理过程与创建问题向量一致.
确定潜在回答者集合之后,根据问题向量,滤掉用户向量中无关的关键词,建立一个与问题向量维度一样的潜在回答者向量.
定义4潜在回答者向量是若干个(关键词:权重)对组成的向量:
其中,x是用户,i是用户x的提问,j是潜在回答者. Ax,i,j是提问i的潜在回答者j组成的向量,(ti,k:fi,k)是提问i中第k个关键词ti,k和该关键词在潜在回答者j特征文档中的权重fj,k.
1.5潜在回答者向量优化
在社交网络上,每个用户通常拥有一系列个人信息标签,如居住地、爱好、工作等,这些标签往往是粗粒度(高层抽象化)信息.而微博的文本信息大多是细粒度(细致化)信息.研究发现,粗粒度信息比细粒度信息更具代表性和概括性.例1中,假设张三的好友王五的爱好标签是“美食”.他在微博里可能会多次提到“鱼香肉丝”、“水煮鱼”等菜名,但没出现“美食”这个关键词,不过这并不代表王五不了解“美食”,反而他对“美食”相关问题的回答更具权威性.因此,这些标签可以精准地反映客户的特征,对系统来说是非常有用的.
系统只截取与用户提问相关的信息,如果某个标签与提问关键词匹配,那么这个潜在回答者了解相关问题的可能性非常大.因此,文中根据这些标签对用户向量Q进行增强,使其能更加具有用户知识领域的特性.首先,对于已经在用户发表过的微博中出现的关键词,文中使用如下公式对该标签/关键词进行增强:
对于没有出现在用户微博但出现在用户i的标签集合中的关键词,文中将这些词直接添加到向量Q中,并为其指定一个的权重值,即指定ti,k的(关键词:权重)为(ti,k:2).在实际使用中,1和2的取值均为0.5,这是基于实验结果所取得的一个较好的经验参数.
例1中,假设张三的朋友李四居住在广州,这表示李四是张三问题的潜在回答者,因为住在广州比住在其他地方的人更有可能知道广州的哪些景点值得去.因此,李四这个潜在回答者的权重应被增强.
1.6潜在回答者与问题的匹配度
创建问题向量Q及所有潜在回答者向量A之后,计算每个潜在回答者与该问题的相关度,以此衡量潜在回答者提供高质量答案的能力.文中利用两个向量间的余弦相似度来计算相关度.问题向量Qx,i和潜在回答者向量Ax,i,j的相似度为
其中,qx,i,t和ax,i,j,t分别是第t个关键词在问题向量和潜在回答者向量中的权重.
然后根据潜在回答者和提问者的亲密度权重对相关度进行调整,得到最终的相关度:
其中,wi,j是对于问题i潜在回答者j的权重.
最后,根据潜在回答者和提问的相关度从高到低对潜在回答者进行排序,得到最终的潜在回答者的排序结果Si,根据应用需求从中提取前k个潜在回答者作为最佳回答者推荐给用户.例1中,系统推荐的回答者大多是在社交网络上讨论过“旅游”、“广州”、“美食”和“景点”的人,或者是住在广州的人.
2.1问题分类
文中对用于实验的问题进行分类,并测试系统对不同类型问题的适用性.文中按照问题的性质进行分类:
(1)特定领域专业知识.对特定领域的知识要求高,一般需要有该领域相关背景的人才能够回答.如问题“快速排序算法的复杂度是多少?”.
(2)实时性强.用户急切需要知道答案,等待时间不能太长.如问题“上火引起的牙疼怎么快速止痛?”.
(3)主观性强.带有很强的主观性,不同的人可能有不同的回答.如问题“鱼香肉丝好吃吗?”.
(4)经验性强.知识性不强但需要有相关的经验.如问题“去广州玩三天,怎么安排行程比较合理?”.
但把某一问题归到某一类是不精确的,因为有的问题可能同时具备多个性质.因此,系统先对收集到的提问进行类别标记,然后分析每个类别问题的适用性.表2给出了几个提问的分类标记.
表2 提问分类标记示例Table 2Question classification tag example
2.2实验设置
实验在新浪微博(weibo.com)上进行测试.百度知道是目前国内用户量最多的问答平台,文中从百度知道问答分享平台收集了60条提问,涵盖4种类型的多个知识领域,包括已经得到回答的和未被回答过的问题.在这些提问中,有78.33%的问题已经在微博上被提问过,即用户以微博的形式求助好友来回答.有的问题甚至被很多用户以不同形式多次提问,如“佳能700D与尼康D5200哪个好?”,而21.67%的未曾在微博上被提问过的问题大多是特定领域专业知识的问题,如“快速排序法的平均时间复杂度是多少?”.
对于提问的方式,文中采用由提问用户发表微博的方式进行提问.首先,用户在系统上提出问题后,将自动发表一条内容为该问题的微博,然后根据系统所推荐的回答者列表,采用社交网络中的“@(提醒)”功能或者是“私信(站内短消息)”功能提醒回答者回答该问题.
实验统计问题得到回答的概率P1和答案满意度(即有效答案)的概率P2,用于评估文中算法的实用性.其中,
ki是为第i个问题推荐的最佳回答者个数,ci是最佳回答者中回答了提问的个数(最佳回答者没回答的情况包括最佳回答者拒绝回答或6h内没回复的提问信息),ti是第i个问题得到的答案个数,ui是有价值答案的个数.答案是否有价值,文中请了解相关问题的专家进行评估.设置最佳回答者个数k为1、3、5,用户社交关系搜索层数n=2,“互相关注”关系与“单向关注”关系的权重比r为2,相邻层次之间的权重比c为2.
2.3结果分析
实验首先分4个步骤进行:①在百度知道上收集相关问题;②利用文中算法为每个问题找到有社交关系的k个最佳回答者;③联系最佳回答者,请他们来回答这些提问;④统计最佳回答者的反馈时间和答案质量.最佳回答者数量k分别取1、2、3、4、5时,问题被回答的概率分别为37.5%、54.2%、59.4%、68.8%、70.4%,即问题得到回答的概率随着最佳回答者数量的增加而增加;当k=5时,问题被回答的概率最高,有超过70%的咨询都得到了答案.故在下面的实验中,最佳回答者个数取为5.
实验分两组进行,一组利用文中的推荐算法寻找k位最佳回答者,另一组随机抽取提问者的k位好友作为最佳回答者,k取不同值时,问题得到回答的概率如图3所示.从图中可以看出,利用文中推荐算法能够得到更高的回答概率,而随机抽取法的问题被回答的概率相对较低,这是因为随机抽取的回答者大部分不了解提问者的问题,特别是涉及到专业知识的问题;提问没有针对性,从而导致问题的低回答概率.
图3 采用不同方法时问题被回答的概率对比Fig.3Comparison of answered probabilities of questions among different methods
不同类型问题被回答的概率对比如图4所示.从图中可以看出,在社交问答系统中不同类型的问题得到回答的概率比较高,且大部分的回答者都是第1层社交关系的“互相关注”关系用户.因为第1层“互相关注”关系用户很多是与提问者相互认识,会比较乐意回答问题.相对地,其他关系的用户回答问题的意愿低些,而且很多单向关注的人可能是名人、明星或机构,他们即使知道问题的答案,也基本上不可能回答用户的问题.还有一部分是非活跃用户,他们没及时发现用户发给他们的提问,因此也没有在设定的时限内回答.
图4 不同类型问题被回答的概率Fig.4Answered probabilities of different types of questions
图5对比了不同问答系统的答案满意度.相对于百度知道,社交问答系统具有更高的满意度.其中,社交问答系统在主观性强、经验性强的问题上表现出更高的适应性.
对于主观性强的问题,不同人看待不同回答可能有着不同的结论.因为相对于陌生人,有一定社交关系的人的回答更容易让人信服,而且社交网络上互相关注的人,大多是与用户兴趣爱好相似的人,对主观性问题的看法也容易一致.因此,社交问答系统对于这类问题具有更高的适用性.
图5 不同类型问题的答案满意度Fig.5Answer satisfaction of different types of questions
相反地,社交问答系统在特定知识领域的问题上效果比百度知道差.原因如下:有社交关系的人,往往是社会背景、教育程度类似的人,知识面比较相近.用户不懂的问题,他的社交圈朋友不了解的可能性也非常大.如主修计算机的张三读到两行诗很感兴趣,他发表这样一个提问:“‘人生若只如初见,何事秋风悲画扇?'是哪位诗人写的?”,而他关注的人可能大都是类似行业、兴趣的朋友,那么这个问题能够被回答的概率就比较低.而百度知道具有非常高的浏览量,且用户来自不同的教育背景,能够回答提问的概率相对较高.
文中将回答时间分为几种不同的类型.向最佳回答者发出提问后,最佳回答者能够在5 min内回答的,标记为“快速”;需要经过短时间思考(30 min内)才能够回答的,标记为“短时间”;需要较长时间思考(超过30 min)才能够回答的,标记为“长时间”.
图6 不同类型问题在各时间段内得到回答的概率Fig.6Probabilities of being answered of different types of questions in various periods
从图6可以看出,社交问答系统在回答时间上具有优越性,大部分的提问都能够在较短时间内(“快速”和“短时间”)被回答.特别是对时效性强、主观性强的问题,系统具有较好的适用性.而在百度知道上,大部分的问题都需要等待较长时间才有回复.特别是随着问题数量的激增,有的问题没有人作答.文中提出的方法能很好地解决这个问题,能够让用户在较短时间内得到满意的答案.
针对社交网站与问答咨询系统的结合问题,文中提出了一种基于用户社交网络关系的最佳问题回答者推荐方法.通过社交问答系统,可以从那些与用户有直接社交关系或有间接社交关系的人中找到一些了解与提问相关、能够回答用户所提问题的人.实验结果表明,这种方法能够很好地为用户找到有意愿回答且熟悉相关领域的合适回答者.
[1]AdamicLA,ZhangJ,BakshyE,et al.Ackerman knowledge sharing and yahoo answers:everyone knows somthing[C]//Proceedings of the 17th International Conference on World Wide Web.New York:ACM,2008:665-674.
[2]Guo J,Xu S,Bao S,et al.Tapping on the potential of Q&A community by recommending answer providers[C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management.New York:ACM,2008:921-930.
[3]Zhou Y,Cong G,Cui B,et al.Routing questions to the right users in online communities[C]//Proceedings of the 2009 IEEE International Conference on Data Engineering.Washington D C:IEEE,2009:700-711.
[4]Zhang J,Ackerman M S,Adamic L,et al.Qume:a mechanism to support expertise finding in online help-seeking communities[C]//Proceedings of the 20th Annual ACM symposium on User Interface Software and Technology. New York:ACM,2007:111-114.
[5]LiZ,ShenH,GrantJE.Collectiveintelligence in the online social network of yahoo!answers and its implications[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management.New York: ACM,2012:455-464.
[6]Mamykina L,Manoim B,Mittal M,et al.Design lessons from the fastest Q&A site in the west[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.New York:ACM,2011:2857-2866.
[7]Li B,Jin T,Lyu M R,et al.Analyzing and predicting question quality in community question answering services[C]//Proceedings of the 21st International Conference Companion on World Wide Web.New York:ACM,2012:775-782.
[8]Horowitz D,Kamvar S D.The anatomy of a large-scale social search engine[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:431-440.
[9]Morris M R,Teevan J,Panovich K.A comparison of information seeking using search engines and social networks[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Washingdon D C:AAAI,2010:23-26.
[10]White R W,Richardson M,Liu Y.Effects of community size and contact rate in synchronous social Q&A[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.Vancouver:ACM,2011:2837-2846.
[11]Nardi B A,Whittaker S,Schwarz H.It's not what you know it's who you know[J].First Monday,2000,5(5):455-489.
[12]Nichols J,Kang J H.Asking questions of targeted strangers on social networks[C]//Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work.New York:ACM,2012:999-1002.
[13]Cai Y,Leung H F,Li Q,et al.Typical-based collaborative filtering recommendation[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(3):766-779.
[14]Xie H R,Li Q,Cai Y.Community-aware resource profiling for personalized search in folksonomy[J].Journal of Computer Science and Technology,2012,27(3):599-610.
[15]Cai Y,Li Q.Personalized search by tag-based user profile and resource profile in collorative tagging system[C]//Proceedings of International Conference on Information and Konwledge Management.Shanghai:ACM,2010:969-978.
Question Answering System Based on Social Relationship and Recommendation of the Best Answerer
Du QingWang Qi-xuanHuang Dong-pingCai YiWang TaoMin Hua-qing
(School of Software Engineering,South China University of Technology,Guangzhou 510006,Guangdong,China)
In recent years,community question answering(CQA)system has become more and more popular. However,with the expansion of question scale,the proportion of questions that have been answered reduces gradually,and the quality of answers cannot be guaranteed.In order to increase the answering probability of the questions in questioning and answering(Q&A)system and enhance the credibility of answers,a social question answering system on the basis of social relationship similarity is proposed,and a method is presented to find suitable respondents who are willing to answer and are familiar with related fields.Moreover,a recommendation method of the best answer and the best respondents is given.Experimental results show that,on subjectivity or real-time problem sets,the proposed method helps obtain satisfactory answers faster in comparison with traditional Q&A systems.
question answering system;social relationship similarity;social networking
s:Supported by the National Natural Science Foundation of China(61300137)and the Guangdong Natural Science Foundation(S2013010013836)
TP311
10.3969/j.issn.1000-565X.2015.01.021
1000-565X(2015)01-0132-08
2014-01-06
国家自然科学基金资助项目(61300137);广东省自然科学基金资助项目(S2013010013836);华南理工大学中央高校基本科研业务费专项资金资助项目(2012ZM0077)
杜卿(1980-),女,博士,讲师,主要从事人工智能、信息检索研究.E-mail:duqing@scut.edu.cn
†通信作者:蔡毅(1980-),男,博士,副教授,主要从事数据挖掘领域、信息检索研究.E-mail:ycai@scut.edu.cn