问答社区中回答质量的评价方法研究

2011-06-14 02:33孔维泽刘奕群马少平
中文信息学报 2011年1期
关键词:回答者提问者最佳答案

孔维泽,刘奕群,张 敏,马少平

(智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),清华大学 计算机系,北京 100084)

1 引言

21世纪开始, 用户产生内容(User-generated Content)的网络应用模式开始变得越来越流行,其中较为著名的网络应用有Facebook、人人网、百度知道等。这种用户产生内容的形式由于广泛的用户参与,其内容资源会快速增长,对人类知识的积累和传播起到了非常大的作用。

问答社区是一种近年来受到广泛关注的用户产生内容的网络应用。其基本形式是由用户根据自己的需求提出问题,由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而,由于任何用户都可以随意地创建内容,问答社区中的信息质量差异非常大。有的用户提供了令人满意的回答,帮助提问者直接获取所需信息。而有的回答只是网络用户之间的闲聊,有时候甚至是恶意的广告、垃圾信息。这样严重的信息质量差异已成为问答社区使用的一个主要问题。同时,传统的网络资源信息质量评价的方式并没有考虑到问答社区独有的特点。除了传统的文本内容、链接关系之外,问答社区中还包含了用户、问题、回答之间的关系,还有投票、最佳答案等特别的元素。因此,如何利用问答社区的特点有针对性地设计问答社区中信息质量评价的方法是一个重要的课题。

为此,我们研究了如何评价问答系统中回答质量的高低的问题。分析了针对问答社区的回答质量评价的多方面特征,并使用学习分类框架来综合这些特征,对回答质量做出评价。本文主要贡献有: 1) 构建了据我们所知最大规模的中文问答社区语料库。2) 提出了基于时序的特征,根据用户在回答交互时间关系上的特点,评价回答质量。3) 提出了基于问题粒度的特征。不同问题的回答之间具有差异,因而采取同样的标准衡量并不合理。基于问题粒度的特征能够通过比较同一问题的不同回答,给出相对性的衡量。4) 提出了符合中文问答社区应用习惯的基于用户的特征。

2 背景与相关研究工作

2.1 背景

问答社区是一种近年来受到广泛关注的用户产生内容的网络应用。其基本形式是由用户根据自己的需求提出问题,由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。目前传统的搜索引擎难以理解用户查询的意图,直接给出答案,而是返回大量的相关网页,让用户挑选、浏览以获取信息。而问答社区通过网友回答问题,利用了大众的智慧(Wisdom of the Crowds)对用户的提问直接给出针对性的回答。同时,问答社区上积累的问答数据资源还可以为搜索引擎索引提供稀缺而高质量的信息内容。

百度知道*http://zhidao.baidu.com/是最流行中文的社区问答之一。截止2010年6月7日,该系统已有85 494 309个已解决问题。根据文献[1],百度知道在其发布后两年时间内共产生17 596 864 个问题,已解决17 012 767个问题,问题解决率高达96.7%,每日超过1 000万用户访问百度知道,每天平均产生71 308个问题,223 907个回答,平均每一个问题吸引3.14个用户参与互动。另外,据调查*http://news.iresearch.cn/viewpoints/84557.shtml2008年2至7月份,百度知道对百度搜索的贡献率保持在13%左右。由于百度知道具有大量用户群和不同话题类别的中文问答数据,它非常适合问答社区中信息质量评价的研究。

2.2 相关研究工作

随着Yahoo! Answers、百度知道等问答社区的快速发展,关于问答社区的研究工作越来越多。Jeon等人[2]提出了一种基于机器翻译(Machine Translation)的检索方法以在问答社区中识别相似的问题用于检索。但是他们的工作没有考虑问答社区中回答的质量。Su等人[3]指出问答社区中的回答平均信息质量较高,但其信息质量差异也很大。他们在Yahoo! Answers中的分析发现,一个问题的所有回答中正确的比例只有17%至45%,而一个问题至少有一个优质的回答的比例为65%至90%。可见寻找高信息质量的回答在提高用户满意程度上有重要的作用。

在问答社区信息质量评价的方法上,Jeon等人[4]设计了问题、回答上下文信息的非文本特征,并根据此构建了基于语言建模的检索模型(Language modeling-based Retrieval Model) 以对问答社区中的回答的信息质量给出评价。Agichtein等人[5]提出了更丰富的特征,包括结构特征、文本特征、社区特征(Community Features),并使用了分类框架来综合这些特征已区分问答社区中信息质量的高度。另外,他们的工作[6]还评价了用户对回答的满意情况。Blooma等人[7]设计了更多的特征,用回归分析(Regression Analyzers)生成有效特征以预测最佳的回答。在问答社区的检索排序方面,Bian等人[8]提出了GBRank算法。该算法利用了用户的关系信息以检索出高质量的内容。它综合了提交查询与问答的相关性、用户交互信息和问答社区中用户的反馈信息以检索客观的(Factual)内容。然后他们[9]探讨了问答社区中用户恶意的交互,提出了应对用户恶意投票的问答社区检索排序算法。

一些研究人员还研究如何在问答社区中找出专家用户的问题,以帮助解决问答社区中信息质量评价和检索排序的问题。因为他们假设问答社区中权威性较高的用户创建的内容信息质量更高。Jurczyk等人[10]将HITS算法应用在在线论坛的用户回答图(User-answer Graph)上。Zhang等人[11]提出了ExpertiseRank算法识别专家用户(Users with High Expertise)。他们都发现问答社区中专家用户网络和回答的信息质量有很强的相关性。Bian等人[12]还利用相互增强关系(Mutually Reinforcing Relationship)提出了能够应用于包括用户、问题、回答这些不同节点类型的网络上的排序算法,而且该方法还综合了文本内容和其他问答社区特征的。

3 百度知道语料的构建

为了对中文问答社区进行相关问题的研究,我们对使用广泛的百度知道建立了语料数据,作为研究问答社区内容质量分析等相关问题的基础。我们希望语料库的内容是受用户关注的,因此我们以“抓取用户浏览访问量大的问答为原则”进行抓取。在某商业搜索引擎的帮助下,我们收集了网络用户对百度知道网页访问的情况。根据收集到的2009年7月至2009年12月超过6 000万条的百度知道用户访问日志数据,我们抓取了其中访问量大于5次的问答页面。提取出问题数1 555 787个,包括问题分类、问题内容等12个数据项,其中85%的为已解决问题;回答数5 865 941个,包括回答类型、回答内容等13个数据项,其中最佳答案和其他回答分别占23%和74%*除最佳答案和其他回答外,所提取的回答中还有投票中的回答、已关闭问题的回答等回答类型。。完成问答页面信息提取之后,我们提取出了所有参与这些问答的用户,对这些用户的用户信息页面进行抓取,共3 110 784个,包括经验值总分、日常操作分等29个数据项。这些问答数据共来自于861个类别(或子类别),其中游戏、娱乐休闲、电脑/网络和教育/科学是语料中占问题量最多的4个一级类别,分别占22%、14%、12%和12%。

4 问答社区回答质量特征分析

问答社区除了具有传统网页资源中的文本、链接等信息之外,还有丰富的用户交互产生的数据。例如,用户可以对最佳答案“竖拇指”表示该回答很有帮助,系统根据用户的操作所累计的经验值等。还有一些隐式的基于链接的信息,例如用户之间的问答关系等。另外,我们还了解从回答的时间关系以及比较同个问题不同回答的角度提出了特征。我们将与回答相关的信息分为以下5类来进行讨论: 基于文本的特征、基于链接的特征、基于时序的特征、基于用户的特征、基于问题粒度的特征。我们主要统计比较了最佳答案和其他回答的特征分布情况,以考察特征对回答质量的区分力。我们假设最佳答案为高质量的回答,将其他回答视为非高质量(一般质量或低质量)的回答。因为最佳答案是由提问者指定或由多个用户投票得出的,这基本可以表明该回答优于其他的回答。

4.1 基于文本的特征与基于链接的特征

与传统的网页资源相同,问答社区的问答内容基本上是以文本的方式呈现的。因此,适用于传统网页的文本特征或是衡量文本质量的自然语言处理方法都可以应用于问答社区中问答信息质量的评价。根据参考文献[5],我们考察了相关的特征,包括回答长度、回答熵、回答的非重复字符数、问答字符重叠率等。其中前三个特征的最佳答案和其他答案的特征分布差异较大,对高低质量回答的区分力较强。但它们之间的相关性较高,达90%以上。而问答字符重叠率与前三个特征相关度较低,但是其区分效果不如前三个特征。

通过问答关系等用户交互关系,可以构建不同形式的图,利用链接分析的技术,挖掘用户专业程度,甚至回答质量的信息。我们在提问者回答者关系图[10-11]和用户问答图[12]上尝试了相关链接分析方法,如HITS、PageRank、Z-Score等。另外,我们修改了回答者提问者关系图,只保留下最佳答案的问答关系,因为最佳答案比普通的回答更可靠。我们称该图为最佳答案提问者回答者关系图。但在该图中,所有未提供最佳答案用户的PageRank都为0,无法区分他们之间的专业程度。图1给出了两种图PageRank分布。图中可以看出提问者回答者关系图的PageRank值能较好区分回答质量高低,而最佳答案提问者回答者关系图的PageRank值一定程度上能对提供过最佳答案的用户给出的回答做质量区分。

4.2 基于时序的特征

百度知道系统记录了每个回答的给出时间。为了考察回答时序与回答质量之间的关系,我们设计了回答倒序的这一特征。回答倒序就是把该回答所在的问答讨论里的所有回答以从晚到早的时间顺序排列后,该回答的顺序数,例如倒数第一个回答其回答倒序为1。

根据图2,有一半以上的最佳答案的回答倒序为1,而其他回答的情况只有19%。仅有2%的最佳答案回答倒序大于等于10,而其他回答的却占了13%。比较分布的总体情况可以发现,最佳答案的回答倒序要小于其他回答的。

我们认为造成这样的分布差异主要有两个原因。问答社区中的问答如下的现象较为普遍: 用户的提问内容并没有将问题描述清楚,因而在前几个回答中,回答者往往是在和提问者讨论问题的内容细节以澄清问题,并非在回答该问题。当问题澄清之后,用户给出的回答才解决了该问题。这种讨论问题最后才引出答案的情况是造成回答倒序分布差异的一个原因。另外,正常的用户会根据之前的回答情况决定自己是否回答。如果用户发现问答讨论中的回答有需要改进的,用户很可能会提交改进的答案,而如果讨论中已有能解决问题的回答时,用户往往就不会再重复给出答案了。

图2 最佳答案与其他回答的回答倒序分布

4.3 基于用户的特征

社会化媒体的一个重要的特点在于用户参与编辑发布内容。作为社会化媒体的一种形式,问答社区不仅是让用户发布问答内容,而且用户还参与到很多评价和管理任务中。这些问答社区中丰富的用户交互形式为其内容质量的评价提供了不同于文本内容的信息。我们希望通过基于用户的特征来衡量用户的专业程度。所谓专业程度指用户能够给出高质量回答的能力。基于回答者专业程度的评价,帮助估计回答者给出的回答的质量。

我们不仅参考了文献[5]中的较为通用的基于用户的特征(如包括用户最佳答案率等),还根据百度知道统计的用户信息,提出百度知道独有的用户特征,例如经验值、回答得分等。百度知道系统根据用户的历史回答操作累积回答得分,它是衡量用户的活跃性的有效评价。因此,我们直接使用该得分作为用户特征。根据统计,最佳答案和其他回答的回答得分分布都接近于正态分布,但最佳答案回答者的分布相对更偏向高值。而且,在低值的部分几乎没有分布。此外,我们也考察了用户在不同类别里回答比例,以及文献[13]提到的用户熵的特征。它们对回答质量高低的区分力,在我们的语料集中,较为有限。

4.4 基于问题粒度的特征

问答社区中包括了各式各样的问题,其对应的高质量回答内容、形式上的差异也很大(甚至在相同的话题分类中)。例如在“程序设计”的分类中有“正则表达式中的/是什么意思”和“易语言编译和静态编译的区别”两个问题。对于前一个问题无论是高质量还是低质量的回答长度都比较低,而对于后一个问题高质量的回答会较详细地给出介绍,而低质量的回答可能只给出了部分解释。可见在评价回答质量的时候,不同的问题用同样的标准存在不足。为此我们设计了基于问题粒度的特征,通过比较一个问题的不同回答的某种特征的相对大小,做出相对性的衡量。令问题q的第x个回答的f特征的值为fx,q问题的回答总数为n,则第x个回答的f特征的基于问题粒度特征的定义为

(1)

图3中显示回答长度和问题粒度回答长度都具有较高的区分力度,而问题粒度回答长度的区分力更大。问题粒度回答长度值大于0.95的范围里,最

佳答案的比例高达73%,而其他回答只有12%。其他基于问题粒度的特征在一定程度上能提高原特征的区分力。

图3 相对性回答长度与回答长度

表1“医疗健康”与“烦恼”类实验数据分组

类 别问题量回答量最佳答案比例类平均回答长度类平均回答数类提问者回答者重叠程度1训练集医疗健康外科731207835.18%459.63 3.09 4.39E-04测试集医疗健康内科1641407940.23%813.01 2.56 2.60E-042训练集烦恼家庭关系661257025.72%266.15 4.76 7.26E-04测试集烦恼交友技巧1079510621.13%179.40 5.66 2.20E-03

5 实验与讨论

我们从语料库中选取了“医疗健康”与“烦恼”下的4个子类别的数据分成两组进行实验。其分组情况及数据量见表1。

根据表1,我们还可以看出“医疗健康”与“烦恼”中的问答内容性质具有较大的差异。“医疗健康”的内容较专业,其类回答较长、类回答数较少、类提问者和回答者重叠程度小,而“烦恼”的内容更偏向生活或者是非客观的意见,因此其类回答数相对较多,类提问者和回答者重叠程度更大。

对实验数据集中回答质量的标注,我们将社区用户评选出的(提问者指定或其他用户投票得出的)最佳答案标记为高质量的回答,将其他回答标记为非高质量的回答。这与第4节的假设相同。最佳答案表示用户认为该回答优于其他的回答,我们假设最佳答案为高质量回答,其他回答相对质量较低。

我们采用了分类的学习方法,尝试了决策树和SVM[14]。结果表明SVM的效果更好,且SVM能够提供分类的概率,有助于对回答质量的评分。因此,我们这里只分析SVM的实验结果。为了考察各方面特征的效果,在SVM的分类实验中,我们将五个方面的特征依次加入到分类的特征空间里,考察各组合的分类效果。实验结果分析中,我们将文本特征和链接特征的组合情况作为基线结果,与加入我们提出的基于时序、基于问题粒度和部分的用户特征的情况做比较。为了表述方便,我们对各方面特征名使用以下简称: 基于文本的特征(T)、基于链接的特征(L)、基于时序的特征(Seq)、基于用户的特征(U)、基于问题粒度的特征(QD)。

从表2可知,无论是“医疗健康”还是“烦恼”的数据,依次加入考察中的特征后,分类的效果有稳步的提升(除了用户特征)。最大的提升是在加入链接的特征后,准确率提高了7%以上。其次,时序和问题粒度特征也对分类具有较高的提升,在医疗健康的实验数据中,分别为4.02%和3.70%。另外,表中显示加入用户特征后分类效果略有下降。将用户特征从最后一组特征组合(T+L+Seq+U+QD)中去除,发现“医疗健康”和“烦恼”两组数据准确率分别有0.05%和0.10%的下降。因此,我们认为用户特征从总体上看也是有效的,但效果不显著。

表2 SVM分类准确率与AUC

另外,为了进一步分析问答质量的评测效果,我们将SVM给出的分类概率作为回答质量评分,取得分最高的回答作为该问题的最佳答案,对最佳答案进行预测。表1的实验结果中滤掉只获得一个回答的问题数据(这些数据不需要选择最佳答案)。

表3中的最佳答案预测准确率为准确预测的最佳答案数与问题数的比值。基于我们给出的回答质量评分,最佳答案预测准确率接近80%左右,远高于随机判断的结果,也优于文献[13]中70%左右的结果。

表3 最佳答案的预测

5 结论

对问答社区的回答质量评价的问题,我们提出了三方面特征: 基于时序的特征、基于问题粒度的特征和基于百度知道特性的用户特征。通过使用分类学习的框架综合了文本、链接和这三方面的特征,评估回答的质量。实验结果表明,我们提出的基于时序和基于问题粒度的特征能够有效的提高回答质量评估效果。另外,该回答质量评价方法能够以较高的准确率预测最佳答案。

[1] 百度公司,中国人知识搜索行为研究报告[EB/OL]. 2007年7月11日. (http://cimg3.163.com/tech/school/other/chinasearch.pdf).

[2] J. Jeon, W. Croft, and J. Lee. Finding similar questions in large question and answer archives[C]//Proceedings of CIKM, 2005.

[3] Q. Su, D. Pavlov, J. Chow, and W. Baker. Internet-scale collection of human-reviewed data[C]//Proceedings of the 16th international conference on World Wide Web, 2007.

[4] J. Jeon, W. Croft, and etc. A framework to predict the quality of answers with non-textual features[C]//Proceedings of SIGIR, 2006.

[5] E. Agichtein, C. Castillo, and etc. Finding high-quality content in social media[C]//Proceedings of SIGIR, 2008.

[6] Y. Liu, J. Bian, and E. Agichtein. Predicting information seeker satisfaction in community question answering[C]//Proceedings of SIGIR, 2008.

[7] M. Blooma, A. Chua, and D. Goh. A predictive framework for retrieving the best answer[C]//Proceedings of SAC, 2008.

[8] J. Bian, Y. Liu, and etc. Finding the right facts in the crowd: Factoid question answering over social media[C]//Proceedings of the 17th international conference on World Wide Web, 2008.

[9] J. Bian, Y. Liu, and etc. A few bad votes too many? Towards robust ranking in social media[C]//Proceedings of AIRWeb, 2008.

[10] P. Jurczyk and E. Agichtein. Discovering authorities in question answer communities by using link analysis[C]//Proceedings of CIKM, 2007.

[11] J. Zhang, M. Ackerman, and L. Adamic. Expertise networks in online communities: Structure and algorithms[C]//Proceedings of the 16th international conference on World Wide Web, 2007.

[12] J. Bian, and etc. Learning to Recognize Reliable Users and Content in Social Media with Coupled Mutual Reinforcement[C]//Proceedings of the 18th international conference on World Wide Web, 2009.

[13] L. Adamic, J. Zhang, E. Bakshy, M. Ackerman, Knowledge sharing and yahoo answers: everyone knows something[C]//Proceeding of the 17th international conference on World Wide Web, 2009.

[14] C. Chang and C. Lin, LIBSVM: a library for support vector machines[EB/OL]. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm 2001.

猜你喜欢
回答者提问者最佳答案
最佳答案
Notes
70 Days in a Lifeboat
First All-Female Spacewalk
接梦话
分答与知识共享
天才与锻炼(节选)
天地相隔三尺远
走向雅典娜:哲学.东方.西方
留学贴吧