孟佳娜,于玉海,赵丹丹,孙世昶
(大连民族大学 计算机科学与工程学院,辽宁 大连 116600)
特征和实例迁移相融合的跨领域倾向性分析
孟佳娜,于玉海,赵丹丹,孙世昶
(大连民族大学 计算机科学与工程学院,辽宁 大连 116600)
在情感倾向性分析中,经常会发生由于领域知识的变化引起的分类精度下降的问题。为解决此类问题,该文提出了一种基于实例和特征相融合的知识迁移方法,首先通过三部图构建了源领域和目标领域的领域依赖特征词之间的关联,并得到一个公共的语义空间来对原有的向量空间模型进行重建,然后再通过带偏置的马尔科夫模型,建立源领域和目标领域实例之间的关联,从而有效的将源领域学习到的情感倾向性知识迁移到目标领域中,高于其它方法的实验结果验证了算法的有效性。
跨领域倾向性分析;迁移学习;偏置的马尔科夫模型
随着互联网进入Web2.0时代,Internet逐步地从静态的信息载体变成人们表达意见、交流情感的平台,近些年对于主观性信息的检索和利用日益受到重视,这项技术的关键是如何识别人们的主观意见,其中的核心技术就是文本情感倾向性分析。文本情感倾向性分析的研究已经在理论研究和应用方面取得了许多进展,然而,Web网页更新速度快,用来进行训练的数据随着时间的变化已经过时,而重新标注新得到的数据又耗时耗力。由于训练集与测试集的数据分布不同,分类器的分类准确率就会降低。我们希望分类器能够具有较好的领域适应性,这样就出现了跨领域情感倾向性分析问题。研究人员在该领域取得了一些成果,Blitzer等[1]利用来自源领域和目标领域枢轴特征和未标记数据找到两个领域里特征的相关性,并学习一个低维、共享的特征向量映射,在新空间上解决文本情感倾向性分析问题。Pan等[2]提出了SFA算法,根据互信息得到枢轴特征,构造枢轴特征和非枢轴特征的共现矩阵并分解在此基础上得到拉普拉斯矩阵,然后构造一个新的低维空间,在这个空间上进行文本的分类。Jiang等[3]提出一种统一的样本权重框架,该方法移除源领域中对分类产生误导的样本,对目标领域的样本赋予比源领域样本更高的权重。Wu等[4]在解决中文文本评论倾向性分析中提出将图排序与跨领域情感倾向性分析相结合的方法。
通过以上分析发现,在跨领域的文本情感倾向性分析中,基于特征和基于实例的知识迁移是两种主要的方法,即分别通过寻找两个领域的共同特征空间和样本权重的重采样, 使知识得到迁移。对于基于特征表示的知识迁移方法,常用的方法是通过构造新的公共的低维空间来进行领域知识的迁移[1-2]。基于实例的知识迁移主要通过构建源领域和目标领域实例之间的关系达到知识迁移的目的[3]。
本文从结合基于特征和实例的知识迁移方法的角度,提出了一种基于特征和实例相融合的知识迁移方法,该方法主要分两个步骤,第一步我们建立一种基于三部图的源领域特征和目标领域特征之间的关联,在这种关联下对原有的源领域和目标领域的实例进行重建。第二步我们利用一种带偏置的马尔科夫随机游走模型,得到目标领域实例的概率分布预测值,当算法收敛时得到目标领域每个实例的最终的概率分布值,从而判断其情感倾向性。
2.1 情感倾向性分析
文本情感倾向性分析主要是从文本情感的表达角度来对相关文本进行情感类别的分类。通常情感倾向性分析将一个文本按照情感类别分成两类:褒(积极的)和贬(消极的)。目前,文本情感倾向性分析的方法主要是面向监督学习[5]和半监督学习[6],Pang等[5]首次将机器学习的方法应用于篇章级的情感分类任务中,Rao等[6]利用语料库和词典抽取和判别极性词,徐琳宏等[7]通过建立情感词汇本体的方法,利用支撑向量机进行文本倾向性分析,赵妍妍等[8]提出基于句法路径的情感评价单元自动识别方法。王素格等[9]利用特征倾向强度定义赋权粗糙隶属度,提出了基于情感倾向强度序的属性离散化方法。
2.2 迁移学习
目前,机器学习方法一般假设训练数据与测试数据分布相同,然而这一假设在许多实际应用中往往并不成立。当分布发生改变时,需重新训练模型,代价会很高。将其他任务(源任务)或其他领域(源领域)中学习到的知识,迁移应用到目标任务或领域中,使之有利于目标任务或领域的完成,减少对目标任务或领域训练数据依赖的学习方式就是迁移学习[10]。最近,迁移学习技术已经成功地应用于很多研究领域,如文本数据挖掘、自然语言处理、计算机辅助设计和图形/图像处理等。
Dai等[11]、Meng等[12]分别提出使用迁移学习技术来学习跨领域文本数据,Arnold等[13]提出使用迁移学习方法解决命名实体识别问题,Wu等[14]提出既使用不充分的目标领域的数据,又使用大量低质量的源领域的数据解决图像分类问题,Raykar等[15]提出一个新的贝叶斯多重样本学习方法,该方法能够自动识别相关的特征子集并为学习多样性使用归纳迁移。
3.1 问题描述
一个领域D包含了两个组成部分: 特征空间χ和边缘概率分布P(X),这里χ是所有特征向量组成的空间,X是某个学习样本,如果源领域和目标领域不同,它们将具有不同的边缘概率分布或特征空间。本文定义源领域数据为DS={(XS1,YS1),…,(XSn,YSn)},其中XSi∈XS,YSi∈Y是对应的类标签。在产品评论的例子中,DS是评论文本的集合,Y∈{1,-1}是标签集合,标签为1表示该评论是正面的,标签为-1表示该评论是负面的。定义目标领域数据为DT={(XT1,YT1),…,(XTm,YTm)},Yi∈Y是输入值XTi∈XT对应的输出。
3.2 基于特征的知识迁移
3.2.1 特征关联的三部图描述
对于跨领域倾向性分析问题,由于源领域和目标领域特征分布的差异性,造成源领域训练的分类器不能很好地应用于目标领域。深入地分析源领域和目标领域的特征可以发现,在这两个领域之间存在很多共同的特征, 这些特征在迁移学习中具有潜在作用。除了这些公共的特征之外,源领域和目标领域还存在着大量的领域特有特征,建立这些领域特有特征之间的联系,将对不同领域知识的迁移起到很重要的作用。文献[1]将这种不同领域特征的共现关系用一个二部图来描述,在此基础上对特征进行聚类。基于这种考虑,本文使用了一种基于三部图的方法分析了特征之间的关系,并在此基础上进行特征的变换。
互联网产品评论文本中的特征可以分为两类: 一类是源领域和目标领域的特有特征,这些特征具有领域相关性,是在某一领域多次出现而在另一领域很少出现或不出现的特征,将这些特征定义为领域依赖词。另一类是源领域和目标领域中的公共特征,这些特征同时高频出现在源领域和目标领域中,能够表示两个领域的一些公共知识,因此将这些特征定义为领域独立词。例如,“bad”,“good”等词汇在不同领域中所表达的情感是相似的,在AmazonReviews的商品评论中,无论是在源领域还是在目标领域都高频出现,这些词汇称之为领域独立词。表1给出了在AmazonReviews的商品评论中,DVD和Electronic两个领域的评论。
表1 DVD和Electronic两个领域的评论
在这两个评论中,“+”表示后面的实例具有正面的推荐,“-”表示后面的实例具有负面的推荐。将带下划线的词标记为领域独立词(love、bad),这些词无论在何种领域当中都具有极性,而将标记为斜体的词标记为领域依赖词(funny、quality等),这些词在某个领域具有极性,而在其他领域可能不具有极性,领域依赖词在源领域和目标领域的词频的差异导致了领域之间的差别。而对目标领域文本的倾向性进行分类时,目标领域的情感极性词作用是关键的,因此需要通过领域独立词将两个领域的领域依赖词建立起对应关系,图1是一个用来表示这种关联性的三部图。
图1 特征关联性的三部图描述
3.2.2 特征变换
本文首先计算出源领域和目标领域的领域独立词,为了建立不同领域之间的领域依赖词的关联构造一种特征变换方法。然后,求得源领域和目标领域的领域依赖词与每个领域独立词之间的关联度值,与某个领域独立词关联度值越高的特征,与其相关性越高,特征之间的关联度值用式(1)计算:
(1)
其中freq(xi)表示词特征xi在样本集中出现的次数,freq(xi,xj)表示词特征xi和xj在样本集中共同出现的次数,t为特征总数。显然,wij取值区间为[0,1],等于0时说明这两个特征之间没有相关性;等于1时说明这两个特征之间相关性最高。
假设xk为某个领域独立词,通过式(1)计算出的与其关联度最高的源领域和目标领域的领域独立词分别是xi和xj,则xi与xj之间的关系通过领域独立词xk进行了建立,这样我们可以建立如下的特征变换方法: 对于源领域中的某篇评论文本X={x1,…,xi,…,xt},则将xi和xj加入到评论文本X中,这样评论文本X的向量空间模型变为X={x1,…,xi,…,xj,…,xt}或X={x1,…,xj,…,xi,…,xt},对于目标领域中的评论文本也做类似变换。
3.3 基于实例关联性分析的知识迁移
3.3.1Markov链模型
Markov链模型是马尔科夫过程的模型化,它把一个总随机过程看成一系列状态的不断转移。马尔科夫链模型的特征主要用“转移概率”来表示,后一状态出现的概率决定于其前出现过的状态次序。即: 状态q(t)出现的概率为Pr[q(t-1),q(t-2),…,q1]。马尔科夫随机游走根据转移矩阵来判断下一个要发生状态的概率分布,该概率分布刻画了图中每一个顶点被访问到的概率。用这个概率分布作为下一次游走的输入并反复迭代这一过程。当满足一定前提条件时,这个概率分布会趋于收敛,收敛后,即可以得到一个稳定的概率分布。随机游走模型广泛应用于数据挖掘和互联网领域,PageRank算法[16]可以看作是随机游走模型的一个实例。郑伟等[17]将文本用随机游走图中的一个结点表示,当输入一个未分类文本时,对图系列中的每个图应用随机游走模型,得到文本的最终概率分布。
本文借鉴文献[17]的思想,将一个文本实例用马尔科夫随机游走图中的一个结点表示,结点之间的边的权重表示了两个实例之间的距离,显然,两个实例越相似,其结点之间连接的边的权重越小。本节中所说的图指的是同一类型的图模型。
3.3.2 基于偏置的Markov链的实例关联性分析
(2)
(3)
(4)
(5)
式(2)中的β为源领域和目标领域的数据之间的相似性在求输出概率分布向量中所占的比例,其取值区间为(0,1],在式(2)中,1-β为目标领域的数据之间的相似性在求输出概率分布向量中所占的比例。在改进的带偏置的马尔科夫随机游走计算中,源领域的实例的标注信息将对目标领域中的实例标签的预测产生一定的指导作用,而目标领域数据自身也会将自己的预测标签的信息进行传播。
3.4 算法描述
本文提出的算法步骤如下:
输入: 源领域已标注数据集{(XS,YS)},目标领域未标注数据集{(XT)},参数α和β。
输出: 目标领域数据的标签YT。
1 计算出领域独立词,将领域独立词按在源领域和目标领域出现的次数和从高到低排序,按阈值α截取;
2 根据式(1)分别计算出源领域和目标领域与领域独立词关联度高的领域依赖词;
3 建立新的特征语义空间,并将源领域和目标领域中的每个实例进行变换,得到源领域和目标领域的新的数据集;
4 在新数据集上使用某种分类器进行分类,得到目标领域数据的预测标签。
5 利用公式分别计算出初始相似性矩阵和分布向量的值。
6do
7 根据参数β的值迭代地计算目标领域实例的输出分布概率。
8while算法收敛。
9得到最终的目标领域实例的输出概率分布向量,确定其标签。
4.1 语料来源
本文在实验中主要采用Blitzer等[1]提出的来自于AmazonReviews的语料,该语料包含了四个领域的产品评价:Book,DVD,Electronic,Kitchen。实验中每次挑选两个领域, 其中一个作为源领域, 另外一个作为目标领域。表2列出了语料中包含的领域信息,表2中,“DVDvsBook"表示源领域为DVD,目标领域为Book,其他与此类似。每个领域中的实例个数为2 000。
4.2 实现细节
实验中使用了传统的Bag-of-Word的文本表示方法,并对语料进行了数据预处理,过滤掉了语料中的低频词。本文使用精度(Accuracy) 作为倾向性分析系统的评价标准,其定义如下:
(6)
实验中使用SVM_light[18]作为Baseline算法,使用线性核,并将所有参数设为缺省值,Baseline是指只使用源领域实例所为训练集。实验中进行了特征选择,按词频从高到低选择了原特征总数的30%的特征。
表2 语料描述
4.3 实验结果及分析
实验中参数α取值分别为0.01、0.02、0.03、0.04和0.05,β取值从0.1至1,每次增加0.1。我们首先利用算法1至4步得到α取不同值时实例的预测标签,取其最好的结果进行基于实例的迁移,即算法中的5至9步。图2给出了最终算法在各个语料集上β取不同值时的最优结果。其中横轴为β值,纵轴为分类精度。我们使β在0.1到1之间变化,每一次增加0.1。当β设置为1时,意味着我们的算法仅使用源领域的实例,不包括目标领域的信息。我们能够从图2发现,在大多数语料集上,当β值为1时精度最低,这说明由于目标领域中的实例都是未标注的,在马尔科夫随机游走图中,只有目标领域实例之间的链接,没有目标领域到源领域实例之间的任何链接,造成源领域已标注信息没有利用上,所以分类的结果最差。当β值为0.1时,分类结果也很差,这主要是因为源领域中的实例与目标领域实例的分布不同,源领域的信息对于分类是不充分的。在大多数语料集上,当β逐渐增大时,精度变大,当β=0.5 或0.6时,精度最大,当β>0.5或0.6后,精度逐渐变小。β=0.5时,源领域和目标领域在最终的输出概率向量中占相同的比例,这说明源领域数据和目标领域数据之间存在大量的公共知识,从源领域向目标领域迁移足够的知识可以帮助分类,同时目标领域中的实例具有相同的特征分布,未标注的实例的信息对于分类同样非常重要,源领域和目标领域的实例基本平衡时,既最大化的应用了源领域实例的标注信息,又最大化的使用了目标领域未标注实例之间关系信息,所以能够取得最好的结果。综上所述,β是一个重要的参数,精度会根据它取不同的值而随之变化,这说明算法对于β是敏感的。
图2 β取不同值时各个语料集上最优结果的变化曲线
我们将本文方法的最好结果与其他方法的最好结果进行了对比,其他的主要方法包括:SCL以及SCL-MI算法[1]、SFA算法[2]。表3列出了本文算法与这些算法的结果对比。其中,第5列的“算法1”表示只使用本文算法的1至4步的结果,第6列的“算法2”表示只使用本文算法的5至9步的结果,最后一列的结果为本文算法的最终结果。表3中第1行至第4行为每个领域的平均结果,例如第1行表示目标领域为Book时的结果,即DvsB、EvsB和KvsB的平均结果,其他行相类似。从表3可以看出,本文算法在所有数据集上的结果显著的优于SCL、SCL-MI和SFA算法,这也说明了该方法的有效性。同时,只使用算法1或算法2的结果都要差于本文最终结果,这也说明基于特征和实例相结合的知识迁移方法要优于单一的使用一种知识迁移方法。
表3 本文结果与其他算法结果的对比(粗体表示最好值)
本文提出了一种解决跨领域产品评论情感倾向性分析的基于实例和特征相融合的知识迁移方法,该方法首先通过领域独立词建立了源领域和目标领域中的领域依赖词之间的关联,得到了一种特征变换的方法,从而得到了变换后的数据集,然后再通过带偏置的马尔科夫图模型,建立源领域和目标领域实例之间的关联进行知识的迁移。实验结果说明了两种方法相结合要好于单一的一种知识迁移方法,同时也验证了本文提出方法的有效性。
[1] John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boomboxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 432-439.
[2] Sinno Jialin Pan, Xiaochuan Ni, Jiantao Sun, et al.. Cross-domain Sentiment Classification via Spectral Feature Alignment[C]//Proceedings of the 19th International World Wide Web Conference-Raleigh, North Carolina USA, 2010.
[3] Jiang Jing, Zhai Chengxiang. Instance weighting for domain adaptation in NLP[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 264-271.
[4] Wu Qiong, Tan Songbo, Zhai Haijun et al. SentiRank: Cross-Domain Graph Ranking for Sentiment Classification[C]//Proceedings of the IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology. 2009.
[5] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2002: 79-86.
[6] Delip Rao, Deepak Ravichandran. Semi-supervised Polarity Lexicon Induction[C]//Proceedings of 12th Conference of the European Chapter of the Association for Computational Linguistics. 2009: 675-682.
[7] 徐琳宏,林鸿飞,潘宇,情感词汇本体的构造[J],情报学报,2008,(27):180-185.
[8] 赵妍妍,秦兵,车万翔,刘挺, 基于句法路径的情感评价单元识别[J], 软件学报. 2011(22):887-898.
[9] 王素格, 李德玉, 魏英杰. 基于赋权粗糙隶属度的文本情感分类方法[J], 计算机研究与发展, 2011,48(5):855-861.
[10] Sinno Jialin Pan, Yang Qiang. A survey on transfer learning[J], IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10):1345-1359.
[11] Dai Wenyuan, Xue Guirong, Yang Qiang, et al. Transferring naive bayes classifiers for text classification[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence, Canada, 2007:540-545.
[12] Meng Jiana, Lin Hongfei, Li Yanpeng. Knowledge transfer based on feature representation mapping for text classification [J], Expert Systems with Applications, 2011, 38(8): 10562-10567
[13] Andrew Arnold, Ramesh Nallapati, William W. Cohen. A comparative study of methods for transductive transfer learning[C]//Proceedings of the 7th IEEE International Conference on Data Mining Workshops. Omaha, Nebraska, USA: IEEE Computer Society, 2007: 77-82.
[14] Pengcheng Wu, Thomas G. Dietterich. Improving svm accuracy by training on auxiliary data sources[C]//Proceedings of the 21st International Conference on Machine Learning, Morgan Kaufmann,2004: 871-878.
[15] Vikas C. Raykar, Balaji Krishnapuram, Jinbo Bi, et al. Bayesian multiple instance learning: automatic feature selection and inductive transfer[C]//Proceedings of the 25th International Conference on Machine learning. 2008: 808-815.
[16] Lawrence Page, Sergey Brin, Rajeev Motwani, et al. The PageRank citation ranking: bringing order to the web, Technical Report[R], Stanford University, Stanford, CA, 1998.
[17] 郑伟,王朝坤,刘璋等,一种基于随机游走模型的多标签分类算法[J], 计算机学报,2010,33(8):1418-1425
[18] Thorsten Joachims. Text Categorization with Support Vector Machines: Leaning with Many Relevant Features[C]//Proceedings of the 10th European Conference on Machine Learning, 1998: 137-142.
Cross-domain Sentiment Analysis Based on Combination of Feature and Instance -transfer
MENG Jiana, YU Yuhai, ZHAO Dandan, SUN Shichang
(School of Computer Science and Engineering, Dalian Nationalities University, Dalian, Liaoning 116600 ,China)
The accuracy decrease across different domains is commor in current sentiment analysis. To solve the problem, this paper presents a knowledge transferring approach based on the combination of the features and the instancetransfer. Firstly, the proposed approach builds the relevance of the domain dependent features between the source domain and the target domain via a tripartite graph so that a common semantic space is projected to rebuild the original vector space model. Then the proposed approach builds the relevance of the instances between the source domain and the target domain via a biased Markov model. This approach transfers sentiment analysis knowledge from the source domain to the target domain. The enhanced experimental performance confirms the effectiveness of the approach.
cross-domain sentiment analysis; transfer learning; biased Markov model
孟佳娜(1972—),博士,教授,主要研究领域为自然语言处理及文本挖掘。E-mail:mengjn@dlnu.edu.cn于玉海(1980—),硕士,讲师,主要研究领域为深度学习及情感计算。E-mail:yuyh@dlnu.edu.cn赵丹丹(1975—),硕士,讲师,主要研究领域为自然语言处理及机器学习。E-mail:zhaodd@dlnu.edu.cn
1003-0077(2015)04-0074-06
2013-07-18 定稿日期: 2015-04-03
国家自然科学基金(61202254); 高校自主科研基金(DC201502030202, DC201502030405)
TP391
A