研讨系统中的发言文本聚类及其可视化

2017-06-20 23:53武文英熊才权余高峰李元甘声稳
软件导刊 2017年4期
关键词:中心点研讨可视化

武文英+熊才权+余高峰+李元+甘声稳

摘要:研讨系统会产生大量的专家发言文本信息,对发言文本进行聚类分析并可视化展现聚类结果,可以引导专家思维,提高研讨效率。提出一种基于聚类的研讨文本分析及可视化方法。首先对专家发言文本进行分词,提取专家发言文本向量;再采用聚类算法对专家发言文本进行聚类分析,得到不同发言簇;最后在基于Web的研讨系统中实现研讨文本聚类,并采用D3方法对聚类结果进行可视化展现。实验结果表明,该方法能有效展现专家发言之间的相似性和聚集度,引导专家思维收敛并达成共识。关键词:研讨支持系统;发言文本;文本聚类;可视化DOI:10.11907/rjdk.171214中图分类号:TP301文献标识码:A(文章编号)文章编号:16727800(2017)0040014040引言 研讨是一种基于言语的群体交互行为,通过研讨可以消除分歧,从而达成共识。群体研讨系统[1]是一种计算机支持研讨工具,它支持研讨人员在线发表自己的观点,并显示研讨进程和共识达成状态。群体研讨环境的开发涉及研讨模型及共识达成算法、研讨过程控制和研讨结果可视化展示及利用等理论和技术问题,其中研讨模型及共识达成算法则是最重要的研究内容,它决定了系统能否自动得出研讨结果。目前,对研讨模型的研究大都基于抽象辩论理论,即把专家发言抽象为一个结点,而不考虑发言的内容。如文献[2]根据发言结点之间的攻击和支持关系确定发言结点的可接受性,文献[3]~[5]则对发言结点或发言之间的响应强度赋予量化值,再根据这些量化值求得发言结点的共识值。事实上,群体共识隐藏在专家发言之中,对发言文本内容进行分析处理是提取群体共识的重要手段。目前对发言文本分析已有诸多研究,如白冰等[6]提出了一种基于主题聚类的热点提取方法,先对专家发言进行聚类分析,得到不同的聚类簇,每个聚类簇对应一个主题,再从聚类簇中提取热门话题。唐锡晋等[7]提出用对偶刻度法对专家发言关键词进行聚类分析,形成专家与观点关键词之间的映射关系,以激励成员产生联想,形成创意。李欣苗等[8]针对开放式团队创新研讨的短文本特征,运用AntSA算法对研讨文本进行聚类分析,识别每个类别的研讨主题并展示给成员,从而激发成员的创新思维。本文在以上研究的基础上,采用一种基于中心点的聚类算法对研讨发言文本进行分析,并采用基于D3的Web可视化技术对聚类结果进行展现。这种方法的主要特色是在给定文本相似度阈值的前提下,得到若干个文本子集,同一个子集中的文本内容具有一定的相似性,而不同子集之间的文本内容差异较大,调整文本相似度阈值可以得到不同的聚类结果,便于专家从不同角度观察发言之间的相似性,从而帮助专家分析发言内容,促进研讨达成共识。 1研讨文本分析1.1研讨文本预处理 研讨文本是一种无结构的数据,需要将它们转化成计算机能处理的数据。预处理的关键操作是对文本中的词语进行切分,将连续的一句话分成无依赖关系并且按一定规则排列的单个词语,然后过滤掉它们中的无关词组,从而获取一个文本特征词的集合,最后按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。其处理流程如图1所示。1.2文本特征词权重确定及文本向量生成1.2.1文本特征项选择与加权 首先根据研讨内容及相关领域知识建立特征词库,标识每个词的权重,再根据文本内容利用TFIDF[10]方法确定特征词的权重。词频(term frequency,TF)是指某一个给定的词语在该文本中出现的频率。这个数值是对词的个数(term count)的归一化,以防止它偏向长的文本。对于在某一特定文本dj中的词ti来说,它的重要性可表示为:tfij=(ni,j∑knk,j,其中ni,j是指ti在dj中出现的次数,而∑knk,j是dj中词的总数。逆向文本频率(inverse document frequency,IDF)是对一个词语普遍重要性的度量。某一个特定词的逆向文本频率可以由总文本数目除以包含该词语的文本的个数,其公式可以表示为:idfi=log(|D||{j:ti∈dj}|,其中D={d1,…,dn}是文本集,|D|是文本集中文本的个数,|{j:ti∈dj}|是指包含ti的文本的个数。如果该词语不在文本集中,即ti未在任意一个文本中出现,就会导致分母为零,因此一般的处理方法是将其设为:|{j:ti∈dj}|+1。那么,TFIDF可以表示为:TF-IDF=tfij×idfi,其主要作用是过滤掉常见的词语,保留重要的词语。1.2.2向量空间模型VSM 向量空间模型(Vector space model)[11]就是把文本内容转化为相应的文本向量,通过计算文本向量之间的相似性来度量文档间的相似性。常用的文本向量相似性度量方式是余弦距离。文档用较简单的向量表示,简化了文本中关键词之间的复杂关系,使得文本分析具备了可计算性。这个算法的基本思想是:在含有n个研讨文本的集合中,先将文本集合中的每个文本单独作为一个簇,取各自的中心点向量,对簇集中两两簇的中心点向量进行相似度计算处理,从长度为(n×(n-1))/2的结果集中选出最大的相似度值所对应的两个簇。若该最大相似度值大于或等于阈值f,则将这两个簇合并为一个新的簇,计算其中心点向量,并对簇集进行更新,然后再对簇集中的两两簇的中心点向量进行相似度计算处理,直至簇集中簇的中心点向量的最大相似度值小于阈值f,此时说明所有文本之间的相似度都不满足要求,各自成为一簇。该算法主要是基于中心点向量来进行聚类分析,每获取一个新的簇,都要取其中心点并对更新后的簇集重新进行相似度值的计算处理,因而算法的时间复杂度为O(n2)。2实例分析结果 为了验证本文中提出的研讨系统中的发言文本聚类分析方法的有效性和可行性,对已经计算出相似度、关键词及其词频的研讨文本建立相关视图,并采用基于D3的Web可视化技术对研讨结果进行展现,以更直观的方式帮助专家理解研讨结果。为了测试其结果有效性,本文团队以“大学生暑期计划如何安排”为话题展开研讨。团队共有9名同学参与了此次研讨,这9个同学分别对应大学的不同阶段,并就自己的暑期计划进行发言。把这9名同学的发言信息收集整理成了9篇文档,并将文档以发言的主体内容进行命名,如图2所示,暑期计划可以分为旅游(出国游和国内游)、实习(公司和学校实习)、在家(考研复习、健身、务农)和备考公务员4类。本次实验通过调整阈值的方式来实现文本聚类的多种结果,然后通过与人为判断的预期结果进行比较来分析聚类的有效性和可行性。图2是选出的9个作为本次聚类的实验文档样本,并利用本文的基于中心点的聚类算法进行聚类。图3~图6展示了不同相似度阈值对聚类结果的影响。当阈值为0.01时说明对文本的区分度要求很低,所以9个文本聚在一起,表明各个文本内容在主题上具有相似性。但随着阈值的逐渐升高,聚类效果也逐步提升。当阈值在0.11附近时达到一个相对较好的聚类效果,此时旅游、实习、在家和备考公务员刚好各自归为一类,与预期结果保持一致。但当阈值调整到0.35附近时,发现出国游和国内游分开了,“在家的不同计划”也各自归为一类,虽然实习类没有任何变化,但结合文本内容来看,实习内容有较多相似之处。这是因为随着阈值提高,文本之间的区分度也逐渐变大,需要参考的文本内容也越来越多,关键词个数增多也会相应地导致相似度降低,这显然是合乎常理的。当阈值在0.5及其以上时,发现各个文本独自为一类,说明文本之间的相似度已经不满足阈值了。从以上结果分析可以看出,本文提出的研讨系统中的文本聚类方法具有较强的有效性和可行性。3结语 本文主要研究研讨系统中发言文本的聚类方法,采用了一种基于中心点的聚类算法,对发言文本的相似性进行了分析并可视化展示聚类结果。这种方法主要是在给定相似度阈值的前提下,得到若干个子集,同一个子集中的文本内容具有一定相似度,而不同子集之间的文本差异比较大。从另一个角度来说,文本聚类结果的显示是依据文本相似度值反映的,通过对文本相似度进行计算分析,用不同颜色标识文本中出现的不同特征词及其频率,并用柱状图来反映词频之间的差异,从而使用户对测试文本有一个主观上的评判,为进一步研讨提供很好的参考。不同专家的发言文本也可以通过同心圆的形式表示,由此反映研讨文本的观点的趋势,有利于专家对自己的文本主体内容进行反思与完善,使得专家思维收敛速度更快,加快研讨进程,对促进专家思维一致性具有很好的导向效果。但是,此算法仍然存在一些不足,由于语义分析方面不够强大,对于文本中的同义词识别的敏感度不是特别高,加上语料库、停用词库等的规模都比较小,对将要进行聚类的文本的过滤处理不够完善,从而导致词频统计中词汇有点冗余,对文本内容关键词的提取数量有一定影响,从而对文本向量的维度以及相似度的计算结果产生了一定的影响。这将是后续进一步完善的方向。参考文献:[1]唐锡晋, 刘怡君. 有关社会焦点问题的群体研讨实验——定性综合集成的一种实践[J]. 系统工程理论与实践,2007(3):4249.[2]熊才权, 李德华. 一种研讨模型[J]. 软件学报,2009,20(8):21812190.[3]RAGO A, TONI F, AURISICCHIO M,et al.Discontinuityfree decision support with quantitative argumentation debates[J].AAAI Press,2016(23):6373.[4]BARONI P, ROMANO M, TONI F, et al. Automatic evaluation of design alternatives with quantitative argumentation[J]. Argument & Computation. 2015,6(1): 2449.[5]ARVAPALLY R S, LIU X. Collective assessment of arguments in an online intelligent argumentation system for collaborative decision support[C]. Collaboration Technologies and Systems (CTS), 2013 International Conference on, 2013: 411418.[6]白冰,李德华,熊才权.研讨支持系统中基于主题聚类的热点提取[J].计算机与数字工程,2010,38(11):8185.[7]唐锡晋,刘怡君.从群体支持系统到创造力支持系统[J].系统工程理论与实践,2006,26(5):6371.[8]FOX J, GLASSPOOL D, GRECU D, et al. Argumentationbased inference and decision makingA medical perspective[J]. IEEE Intelligent Systems,2007,22(6): 3441.[9]熊才权, 李德华, 张玉. 研讨厅专家意见聚类分析及其可视化[J].模式识别与人工智能,2009,22(2): 282287.[10]VAN GELDER T.Enhancing deliberation through computer supported argument visualization[M].Visualizing Argumentation: Software Tools for Collaborative and Educational SenseMaking,London:Springer London,2003:97115.[11]BARNES E, LIU X. Textbased clustering and analysis of intelligent argumentation data[C].26th International Conference on Software Engineering and Knowledge Engineering, SEKE,2014.(責任编辑:陈福时)Abstract:The webbased argumentation support system(WASS) will produce a large number of experts speech texts. Clustering analysis for speech texts and visualizing the clustering results can not only guide experts' thinking but also improve the efficiency of argumentation. In this paper, a method of text clustering and visualization for WASS is proposed. First, the speeches text is segmented and the text vector is extracted. Then clustering algorithm is used to cluster the experts' speeches and get different text clusters. Finally, the proposed method is realized in WASS, and the D3based method is used to visualize the clustering results. The experimental results show that the method can achieve clustering and visualization of speech texts, thus improving the efficiency of the argumentation.Key Words: WebBased Argumentation Support System(WASS);Speech Text;Text Clustering;Visualizationendprint

猜你喜欢
中心点研讨可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
Scratch 3.9更新了什么?
基于CGAL和OpenGL的海底地形三维可视化
如何设置造型中心点?
“融评”:党媒评论的可视化创新
GSM与FDD、NB-loT融合组网研讨
柑桔无公害栽培技术研讨
研讨式教学中的研讨题设计
建筑工程预算控制研讨