基于在线研讨平台的言语行为分类体系构建

2013-08-15 00:49胡萍

长江大学学报（社会科学版） 2013年4期

胡萍

（合肥学院管理系，安徽合肥 230022）

以群件、即时通讯工具、网络论坛、新闻和邮件列表为代表的在线群体研讨平台产生的海量数据［1］，常常超出其处理信息的能力。依靠传统人工分析文本的做法，不仅费时、费钱、费力，而且通常不能全天循环工作［2］。因此，基于在线研讨平台的言语行为分类体系研究，即研究如何让机器自动分析文本，判断研讨状态，并根据这些数据为讨论群体提供半自动或自动的干涉和辅助，就成为一个非常有意义的课题。

言语行为理论［3］认为，人们说话的同时是在实施某种行为，这种行为是通过语言表达完成的。一个言语行为体系由两个因素组成。一方面，对言语行为的标注必须十分清晰，这样才有足够的识别力。如果不是这样，标注者之间的统一性就会很低。另一方面，定义一个可以重用的分类体系可以提高效率，因为这样的分类体系可以很容易地应用于其他领域。大多数时候，人们会采用一部分已有的言语行为类别，然后自定义一些言语行为类别。

研讨理论（Argumentation Theory）［4］是用来描述如何研讨的理论。Toulmin提出了一套比较完备的知识表达结构，用来支持辩论过程中的知识表达和文本组织。Brockriede和Ehninger采用Toulmin的观点，将研讨描述为“从事实出发，通过推理，最后得出结论”［5］。

一、选择两种典型的在线研讨平台作为研究环境

根据研讨的时间、人力、资源压力，我们可以将在线研讨平台分为同步研讨和异步研讨两种工作平台。同步研讨就是所有用户同时在线，并在有时间压力的情况下进行讨论交流；异步研讨就是用户根据自己的时间安排选择适当的时候上线，在没有时间压力的情况下进行讨论交流。同步研讨平台和异步研讨平台是两种最具代表性的在线研讨平台。

在研究过程中，首先，收集研讨平台对应的语言资料，提出相应的言语行为分类体系；然后，在语料标注和正确选择初始特征集的基础上，设计言语行为分类所用的机器学习算法；在学习算法设计好以后，再进行系统评估。在整个研究过程中，各个步骤可能需要反复多次调整，才能达到较好的效果。因此，这是一个螺旋式推进的过程。

二、构建在线研讨言语行为分类体系

为了构建在线研讨言语行为分类体系，需要收集大量的语言资料，聘请专家阅读这些资料，在前人类似研究的基础上提出新的言语行为分类体系，并且，这个体系需要通过评估者间的信度测试。为了说明一个言语行为分类对于研讨是有效的，我们需要保证这个分类是客观存在并且可重复操作和调整的，方法就是测试评估者间的信度。评估者间的信度给出了测量不同主观判断之间一致性的值。如果评估者之间没有足够的一致性，要么是因为前期指标设计有问题，要么是因为评估者理解指标有缺陷。

语料标注。语料标注就是人工标注发言所属的行为，有时还要手工标注关键特征。语料标注工作量比较大，也是解决分类问题和基于机器学习算法必不可少的内容。为了进行语料标注，首先需要制定一个标准格式。基于XML语法的标注方法是目前比较流行的，因为XML格式的数据本身能够自说明，并且有众多的工具可以进行后期处理。当资料较多、标注任务较繁重时，一个人难以完成。如果让几个人来标注语料，在开始标注前就应该对所有标注者进行培训，只有所有标注者间的信度达到预定的水平，正式的标注工作才可以开始，这样结果才能达到足够的一致性。

初始特征集的选择。许多特征类别包含的特征数目是固定不变的。例如，句法特征中的标点符号特征的个数就是固定的，因为标点符号的个数是固定的；链接特征、风格特征和用户特征的个数也是固定的。但是，言语行为分类的一个巨大挑战是特征空间的维数过大。由于采用向量空间模型，原始特征空间通常由出现在文档中的唯一的terms（words或phrases）组成，而一个中等大小的文本集合可能包含几万到几十万个terms。这样的维数对于许多学习算法来说都过大了。因此，在不影响分类精度的情况下，减少原始的维数就变得非常必要。而且，自动实现这一目标也非常重要，即不需要手工定义或构建特征。自动特征选择方法包括根据语料统计除去那些无关的terms，以及通过将低层特征（如terms）合并成高层的正交维数的方法来构建新的特征。基于n－grams的特征数目几乎是无穷的。因此，n－grams空间的大小成为言语分类过程中非常重要的一个阀值。

设计机器学习算法。在语料标注和正确选择初始特征集的基础上，设计机器学习算法，最终完成对言语行为的有效分类。言语行为分类可以采用多种机器学习算法。其中最为成功的两种方法是基于转换的学习（Transformation Based Learning，TBL）和支持向量机（Support Vector Machine，SVM）。TBL算法以带有一定激发环境的转换式的方式存在，获取所需的规则，易懂直观，这样既不需要花费大量的机器存储空间，又可从一定程度上避免数据稀疏的问题。其基本思想是，用已标注过的文字作为训练资料库。首先采用一种初始标注方法对语料进行标注，然后将结果与正确的文本进行对比，通过预先设计好的目标函数和转换模板，找出应用转换模板后标注错误次数最少的转换式，作为系统的新的标注规则，再用该规则重新标注语料。重复上述过程，每次转化都会得到一条新的规则，直到找不出有价值的规则为止。SVM算法是一种实现了结构风险最小化的方法，其被广泛应用于模式识别和机器学习，也被应用于言语行为分类。它的机器学习策略是保持经验风险值固定而最小化置信范围。SVM算法通过核函数将向量映射到一个更大维数的空间中，在这个空间里建立一个最大间隔超平面来将两类样本点分开，从而缩小n－grams空间，缓解数据稀疏问题和过拟合的问题。

三、系统评估

常用的评估机器学习性能的方法有n－fold cross validation和 bootstrap两种。N－fold cross validation方法将数据分成n（通常n＝10）份，将其中n－1份作为训练数据，最后1份作为测试数据。系统的综合性能就是这n次结果的平均值。Bootstrap方法则是从训练集中用随机的方法选择一定数量的数据作为测试原始集，其他的数据作为训练集。这样重复n（通常n＝50）次，这n次的测试结果就是系统的综合性能。人们可以根据研究问题的不同特征，选择适合在线研讨平台的系统评估方法。

［1］ Koppel M.，Argamon S.，Shimoni A.R.Automatically Categorizing Written Texts by Author Gender［J］.Literary and Linguistic Computing，2002（4）.

［2］程少川，张朋柱.电子公共大脑设计的信息组织研究［J］.西安交通大学学报（社会科学版），2001（1）.

［3］ Li，J.，Zhang，P.Z.，Cao，J.W.External Concept Support for Group Support Systems through Web Mining［J］.Journal of the American Society for Information Science and Technology，2009（5）.

［4］ Limayem M.，DeSanctis G.Providing Decisional Guidance for Multicriteria Decision Making in Groups［J］.Information Systems Research，2000（4）.

［5］蒋御柱，张朋柱，张兴学.群体研讨支持系统中的智能可视化研究［J］.管理科学学报，2009（3）.