王巍 赵铁军 徐冰 郑德权
摘 要:评价文本的比较句识别是比较句情感分析的一项基础任务,具有重要的研究价值。提出中文比较句自动识别的方法,首先对包含至少一个关键词的候选比较句进行抽取,从而形成候选比较句集合,而后通过对候选比较句集合采用多特征融合的分类方法进行分类。实验结果表明比较句识别的性能达到87.26%的F1值。
关键词:评价文本;情感分析;比较句识别;多特征融合
中图分类号: TP391 文献标识码: A 文章编号:2095-2163(2015)04-
Automatic Identify Chinese Comparative Sentences
WANG Wei, ZHAO Tiejun, XU Bing, ZHENG Dequan
(Machine Intelligence and Translation Laboratory, Harbin Institute of Technology, Harbin 150001, china)
Abstract: Comparative sentence identification in evaluative text is an essential task in comparative sentiment analysis, which has important research value. This paper proposes a comparative sentence identification method in Chinese. First, extract comparative candidates which contain at least a keyword to form a set of comparative candidates. Then identify comparative sentences from the set of candidates based on feature fusion. The experiment result shows the F1-score is 87.26%.
Key words: Evaluative Text; Sentiment Analysis; Comparative Sentence Identification; Feature Fusion
0 引 言
比较是一种重要的观点表达方式和具有一定价值的认知方式。人们可以通过比较来认识未知事物,通过比较判断多种相似事物的高下优劣,以及通过比较获取各种决策的依据,比较影响着日常生活。在Web2.0时代,随着网络社会化媒体的快速发展,越来越多的用户已经从单纯的网络信息的阅读者转变为网络信息的创造者和参与者。这些用户在博客、微博、论坛、讨论组等社会媒体中发表评论和比较观点,创造了大量的主观性文本,对这些主观性文本、尤其是其中的比较文本进行挖掘,可以更快速地获取有价值的信息,更真实地了解社情民意,具有重要的现实和研究意义。
比较句识别的处理对象是用户的评论文本,其任务就是从评论文本中识别出具有比较含义的句子,可以将该任务看作比较句和非比较句的二元分类任务。一些典型的比较句通常含有指示比较的关键词,如“比”,“相似”,“不同”等,这些词能够表达实体之间的比较关系,在比较句识别中起着重要的作用。然而,含有这些指示词的句子未必都是比较句,如“A的性能比较好”,类似地,不含指示词的句子也可能是比较句,如“手机A有GPS功能,而手机B没有该功能”。因此,提出有效的方法实现比较与非比较信息的分类,是比较句情感分析的一项重要任务。
本文尝试使用有监督方法对比较与非比较信息进行分类。具体地,讨论了如何根据比较的类别提取候选比较句,以及如何利用句子内部的词语和模式特征进行分类。基于候选比较句的识别结果,对比较与非比较句进行分类,从而识别出比较句。实验表明,比较信息分类能够达到87.26%的F1值,基于支持向量机的方法可以有效识别出比较信息,同时基于比较句候选识别的方法可以有效平衡分类数据。
1 相关工作
与比较观点相关的工作主要集中于语言学和计算语言学两个领域。在语言学领域,一些研究者对中文比较句的指示词、句法形式、语义含义和分类体系等方面进行了研究。SHANG Ping[1]对现代汉语中比较句的各种分类体系进行了总结,认为比较句的研究需要坚持语义与句法形式的充分结合,同时采用简单明了的分类体系划分方法。CHEN[2]等人研究了比较句中语法项目的选取与排序,同时对常用的20种汉语比较句句式进行了总结,并对每一种句式的使用频率及该句式的语法项目选择及排列情况进行了统计。CHE Jing[3]对现代汉语比较句的句式范围进行了界定,并探讨了比较句的结构类型、语义类型和句法标志词等。这些研究从语言学的角度对比较句的语义和句法形式进行了考察,为比较句的计算机自动识别工作奠定了基础。
在计算语言学领域,比较句的自动识别方法主要有两种:机器学习和模式匹配方法。一些研究者采用了机器学习的方法并获得了较好的性能,比较句自动识别的课题首先由Jindal和Liu[4]提出,通过采用有监督学习的方法对每一个英文句子进行分类,在模型的训练过程中引入了类别序列规则特征,相应的实验则获得了79%的准确率和81%的召回率。Huang[5]等人在Jindal工作的基础上,使用3种有监督学习方法来识别中文比较句。Park[6]等人研究了科学文章中的比较句识别问题,通过使用3种分类器(朴素贝叶斯、支持向量机和贝叶斯网络)来识别比较句,而且在模型的训练过程中引入了词法、依存句法等35种特征。Yang[7]等人针对韩语比较句的识别问题进行研究,通过在候选比较句集合上使用有监督学习方法来识别比较句。LI Jianjun[8]基于统计特征和序列特征,采用支持向量机和朴素贝叶斯模型来识别中文比较句。模式匹配是一种无监督的学习方法,该方法依赖于所使用的模式库。SONG Rui[9]等手工构建了中文比较模式库并利用该模式库识别中文比较句。总体而言,机器学习方法的性能好于模式匹配方法。
2 中文比较句的识别
2.1 基于关键词查找获取比较句候选
大多数比较句含有指示比较的关键词,如“相似”、“不如”等,为了得到这些关键词,本文将比较句划分为5种类型,如表1所示。
研究中,很容易为前四类句子找到显式的比较词,基本方法是基于同义词扩展。首先,利用语言学文献构建一个初始的关键词集合 ,然而,初始关键词集合无法覆盖所有的比较表达,因此基于同义词的扩展,即将初始的关键词集合 扩展为候选关键词集合:
(1)
而后,从候选比较句集合中删除那些频率值低于指定阈值的词语。对于第5类句子(隐式比较句),显然无法为其找到任何的显式比较词,如
例1: “X手机有蓝牙,而Y手机没有。”
这类句子通常由两个表达对比的短句组成,基于此,本文提出可为其构建了词-词性序列,这些序列用来充当比较词的作用,如“
(2)
研究中的比较词典共包含102个关键词,30个序列。比较词典构建完成后,则使用该词典提取比较句候选,具体地,如果一个句子包含一个或多个比较词或序列,则该句子作为候选比较句。
2.2 基于多特征融合的候选比较句分类
为了从候选比较句集合中过滤掉非比较句,在此采用了多特征融合的方法,使用支持向量机算法融合多种特征,进行二元分类。
2.2.1术语特征集合
一些词语频繁出现在一个类别中,但很少出现在另一个类别中,这些词语对句子有一定的区分作用。因此,可以采用信息增益的方法来提取这些词语(特征)。信息增益(IG)法依据某特征项 为整个分类系统提供的信息量的多少来衡量其重要程度。某个特征项 的信息增益是指有该特征或没有该特征时,为整个分类系统所提供的信息量的差别。令 代表目标空间中类别的集合,一个特征项 相对于一个分类系统 的信息增益量定义如下:
(3)
其中, 代表特征项 出现,而 代表特征项 不出现。公式(3)中第一项是初始分类系统的熵值,第二项是当给定一个特征项时,系统条件熵的预期值。两项的差即为某个特征项带给分类系统的信息增益量。 表示 类句子在语料中出现的概率, 表示语料中包含特征项 的句子的概率, 表示句子包含特征项 时属于 类的条件概率, 表示语料中不包含特征项 的句子的概率, 表示句子不包含特征项 时属于 类的条件概率。
对于训练数据中的每一个词语,则需计算其信息增益值,并且选择那些增益值高于指定阈值的术语。
2.2.2关键词特征集合
同2.2.1节。
2.2.3 序列模式特征集合
比较句的语言模式不同于非比较句,这些模式可以用作机器学习的特征。为了挖掘比较句的序列模式,首先基于训练数据构建了序列数据库,该数据库构建的过程如下:
(1) 将训练数据中的每个句子分解为若干子句,标记每一个子句为比较或非比较。
(2) 对于每一个包含关键词(一个或多个关键词)的子句,以其中每个关键词为中心生成一个序列,具体地,以关键词为中心,将关键词半径为5的范围内的词和词性标记作为一个序列。对于关键词本身,使用实际词作为一项。
(3) 每一个序列被分类为或者比较或者非比较,根据生成该序列的子句的类别。
序列数据库准备好以后,即使用具有多个最小支持度的PrefixSpan[10](Prefix-projected Sequential pattern mining)算法挖掘频繁序列。设置多个最小支持度是因为一些关键词在比较句中频繁出现,而另一些关键词却很少出现,具体地,将在某一词频范围内的关键词设置成相同的最小支持度。算法的结果需要满足最小置信度阈值(在本文的实验中,最小置信度阈值设置为0.7,取得了最好的效果)。
例 2:“宝马/NR 的/DEG 发动机/NN 最/AD 棒/JJ !/ PU”
例2有关键词“最”,一个以“最”为中心的序列如下:
<{NR} {DEG} {NN} {最} {JJ}>
3实验结果与分析
3.1 实验数据
实验采用2012年第四届中文倾向性分析评测[12](COAE: Chinese Opinion Analysis Evaluation)提供的评测数据2 作为训练集和测试集。其中选用的语料来自两个产品领域,汽车和电子产品,共计9 600个句子,其中包含1 624个比较句,7 976个非比较句。这些句子大多数是含有比较关键词的典型比较句,也包含少量的隐式比较句。语料的详细统计数据如表2所示。
3.2 实验结果与分析
3.2.1 比较句候选识别的实验结果
利用2.1节构建的比较词词典搜索语料库,找到所有包含关键词的句子,将这些句子加入候选比较句集合中。经统计,采用关键词匹配方法识别比较句的准确率是41.68%,召回率是97.29%。如此高的召回率和接近50%的准确率使得该方法适合作为候选比较句的识别方法。
使用关键词查找识别比较句候选获得了非常高的召回率,这一方面说明了大多数比较句中含有关键词,另一方面说明本文所构建的关键词词典能够覆盖大部分的比较表达;而该方法获得了较低的准确率,这表明不仅大多数比较句含有关键词,而且大量的非比较句也含有关键词。
3.2.2 比较句候选分类的实验结果
在比较句候选分类的实验中采用了10折交叉验证(10-fold cross-validation)的实验方法,取10次结果的平均值作为算法精度的估计。实验使用了由台湾大学开发的LIBSVM工具包,选用的SVM核函数是RBF核函数。模型训练后得到的最优参数是gamma = 0.007 813 and C = 32。
研究设计的比较句候选分类实验如下:
为了确定哪些特征能够为分类系统提供更多的信息,为此比较了单一特征和几种特征组合的分类性能,这些分类特征包括术语(TM),比较关键词(CK),序列模式(PS)等,最终所有特征的组合表现出了最好的性能。表3显示了比较句候选分类的实验结果。结果显示召回率显著低于准确率,对于单一特征,比较关键词和序列模式获得了更好的分类性能;对于组合特征,关键词加术语特征的性能稍好于序列模式特征的性能,当使用所有词语和序列模式作特征时,系统获得了最佳的性能,F1值为87.26%。
4结束语
本文提出了中文文本的比较句识别方法,该方法由两个步骤组成,(1) 基于关键词查找方法识别候选比较句;(2)对候选比较句使用支持向量机模型进行分类。在分类的过程中引入了关键词、术语、序列模式等特征,实验结果表明本文的比较句识别方法是有效的。
参考文献:
[1] SHANG Ping. A Review on the system of comparative sentence. Applied Linguistics[J], 2006, (S2): 77-80.
[2] CHEN Jun, ZHOU Xiaobing. The selection and arrangement of grammatical items concerning comparative sentences[J]. Language Teaching and Research, 2005, (2): 22-33.
[3] CHE Jing. A brief analysis of comparative sentences in modern Chinese[J]. Journal of Hubei Normal University, 2005, 25(3): 60-63.
[4] JINDAL N, LIU Bing. Identifying comparative sentences in text documents[C]∥Proceedings of SIGIR06, Seattle, WA, USA: ACM, 2006: 244-251.
[5] HUANG Xiaojiang, WAN Xiaojun, YANG Jianwu, et al. Learning to identify comparative sentences in Chinese Text[C]∥Proceedings of PRICAI08, Hanoi, Vietnam: Springer, 2008: 187-198.
[6] PARK D, BLAKE C. Identifying comparative claim sentences in full-text scientific articles[C]∥Proceedings of ACL12, Jeju Island, Korea: Association for Computational Linguistics, 2012: 1-9.
[7] YANG S, KO Y. Finding relevant features for Korean comparative sentence extraction[J]. Pattern Recogn. Lett.,—PRL, 2011, 32(2): 293-296.
[8] LI Jianjun. Research on the Identification of Comparative Sentences and Relations and Its Application [D]. Chongqing:Chongqing University, 2011.
[9] SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction[J]. Journal of Chinese Information Processing, 2009, 23(2): 102-107.
[10] LIU Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data[M]. Second Edition. Berline:Springer, 2011.
[11] LIU Kang, Wang Suge, Liao Xiangwen, et al. Overview of Chinese opinion analysis evaluation 2012[C]∥Proceedings of the 4st Chinese Opinion Analysis Evaluation, NanChang, China: The Professional Committee of Information Retrieval, 2012: 1-32.